Phương pháp lấy mẫu cho dân số là gì?

Trong thống kê, đảm bảo chất lượng và phương pháp khảo sát, lấy mẫu là việc lựa chọn một tập hợp con (mẫu thống kê) của các cá nhân trong một quần thể thống kê để ước tính các đặc điểm của toàn bộ quần thể. Các nhà thống kê cố gắng thu thập các mẫu đại diện cho dân số được đề cập. Lấy mẫu có chi phí thấp hơn và thu thập dữ liệu nhanh hơn so với đo lường toàn bộ dân số và có thể cung cấp thông tin chuyên sâu trong trường hợp không thể đo lường toàn bộ dân số

Mỗi quan sát đo lường một hoặc nhiều thuộc tính (chẳng hạn như trọng lượng, vị trí, màu sắc hoặc khối lượng) của các đối tượng hoặc cá nhân độc lập. Trong lấy mẫu khảo sát, trọng số có thể được áp dụng cho dữ liệu để điều chỉnh cho thiết kế mẫu, đặc biệt là trong lấy mẫu phân tầng. Kết quả từ lý thuyết xác suất và lý thuyết thống kê được sử dụng để hướng dẫn thực hành. Trong nghiên cứu kinh doanh và y tế, lấy mẫu được sử dụng rộng rãi để thu thập thông tin về dân số. Lấy mẫu chấp nhận được sử dụng để xác định xem một lô nguyên liệu sản xuất có đáp ứng các thông số kỹ thuật quản lý hay không

Định nghĩa dân số[sửa]

Thực hành thống kê thành công dựa trên định nghĩa vấn đề tập trung. Khi lấy mẫu, điều này bao gồm việc xác định "dân số" mà mẫu của chúng tôi được lấy từ đó. Một dân số có thể được định nghĩa là bao gồm tất cả những người hoặc vật phẩm có đặc điểm mà người ta muốn hiểu. Bởi vì rất hiếm khi có đủ thời gian hoặc tiền bạc để thu thập thông tin từ mọi người hoặc mọi thứ trong dân số, mục tiêu trở thành tìm một mẫu đại diện (hoặc tập hợp con) của dân số đó

Đôi khi những gì định nghĩa một dân số là rõ ràng. Ví dụ: một nhà sản xuất cần quyết định xem một lô nguyên liệu từ quá trình sản xuất có đủ chất lượng để giao cho khách hàng hay không, hay nên bị loại bỏ hoặc làm lại do chất lượng kém. Trong trường hợp này, lô là dân số

Mặc dù dân số quan tâm thường bao gồm các đối tượng vật lý, đôi khi cần phải lấy mẫu theo thời gian, không gian hoặc một số kết hợp của các kích thước này. Ví dụ: một cuộc điều tra về nhân viên siêu thị có thể kiểm tra độ dài của hàng thanh toán tại các thời điểm khác nhau hoặc một nghiên cứu về loài chim cánh cụt đang bị đe dọa có thể nhằm mục đích tìm hiểu việc sử dụng các bãi săn khác nhau của chúng theo thời gian. Đối với chiều thời gian, trọng tâm có thể là các khoảng thời gian hoặc các sự kiện rời rạc

Trong các trường hợp khác, 'dân số' được kiểm tra thậm chí có thể ít hữu hình hơn. Ví dụ, Joseph Jagger đã nghiên cứu hành vi của bánh xe roulette tại một sòng bạc ở Monte Carlo và sử dụng điều này để xác định bánh xe thiên vị. Trong trường hợp này, 'dân số' mà Jagger muốn điều tra là hành vi tổng thể của bánh xe (i. e. phân phối xác suất của các kết quả của nó qua vô số phép thử), trong khi 'mẫu' của anh ấy được hình thành từ các kết quả quan sát được từ bánh xe đó. Những cân nhắc tương tự nảy sinh khi thực hiện các phép đo lặp đi lặp lại một số đặc tính vật lý như độ dẫn điện của đồng

Tình huống này thường phát sinh khi tìm kiếm kiến ​​thức về hệ thống nguyên nhân mà tổng thể được quan sát là kết quả. Trong những trường hợp như vậy, lý thuyết lấy mẫu có thể coi dân số được quan sát là một mẫu từ 'siêu dân số' lớn hơn. Ví dụ: một nhà nghiên cứu có thể nghiên cứu tỷ lệ thành công của chương trình 'bỏ thuốc lá' mới trên một nhóm thử nghiệm gồm 100 bệnh nhân, để dự đoán tác động của chương trình nếu nó được phổ biến trên toàn quốc. Ở đây, siêu dân số là "mọi người trong nước, được tiếp cận với phương pháp điều trị này" - một nhóm chưa tồn tại, vì chương trình chưa có sẵn cho tất cả mọi người

Dân số mà mẫu được lấy ra có thể không giống với dân số mà thông tin được mong muốn. Thường có sự chồng chéo lớn nhưng không hoàn toàn giữa hai nhóm này do các vấn đề về khung, v.v. (xem bên dưới). Đôi khi chúng có thể hoàn toàn tách biệt – ví dụ, người ta có thể nghiên cứu chuột để hiểu rõ hơn về sức khỏe con người, hoặc người ta có thể nghiên cứu hồ sơ của những người sinh năm 2008 để đưa ra dự đoán về những người sinh năm 2009

Thời gian dành cho việc làm cho dân số lấy mẫu và dân số quan tâm trở nên chính xác thường được sử dụng rất hiệu quả, bởi vì nó đặt ra nhiều vấn đề, sự mơ hồ và câu hỏi mà lẽ ra đã bị bỏ qua ở giai đoạn này

Khung lấy mẫu[sửa]

Trong trường hợp đơn giản nhất, chẳng hạn như lấy mẫu một lô nguyên liệu từ quá trình sản xuất (lấy mẫu nghiệm thu theo lô), tốt nhất là xác định và đo lường từng vật phẩm đơn lẻ trong tổng thể và đưa bất kỳ vật phẩm nào trong số chúng vào mẫu của chúng tôi. Tuy nhiên, trong trường hợp tổng quát hơn, điều này thường không khả thi hoặc không thực tế. Không có cách nào để xác định tất cả các con chuột trong tập hợp tất cả các con chuột. Khi bỏ phiếu là không bắt buộc, không có cách nào để xác định những người sẽ bỏ phiếu trong cuộc bầu cử sắp tới (trước cuộc bầu cử). Những quần thể không chính xác này không thể lấy mẫu theo bất kỳ cách nào dưới đây và chúng ta có thể áp dụng lý thuyết thống kê

Như một biện pháp khắc phục, chúng tôi tìm kiếm một khung lấy mẫu có thuộc tính mà chúng tôi có thể xác định mọi phần tử đơn lẻ và bao gồm bất kỳ phần tử nào trong mẫu của chúng tôi. Loại khung đơn giản nhất là danh sách các thành phần của tổng thể (tốt nhất là toàn bộ dân số) với thông tin liên hệ phù hợp. Ví dụ, trong một cuộc thăm dò ý kiến, các khung mẫu có thể bao gồm sổ đăng ký bầu cử và danh bạ điện thoại

Mẫu xác suất là mẫu trong đó mọi đơn vị trong tổng thể đều có cơ hội (lớn hơn 0) được chọn trong mẫu và xác suất này có thể được xác định chính xác. Sự kết hợp của những đặc điểm này cho phép tạo ra các ước tính khách quan về tổng dân số, bằng cách tính trọng số cho các đơn vị được lấy mẫu theo xác suất lựa chọn của chúng

Thí dụ. Chúng tôi muốn ước tính tổng thu nhập của người lớn sống trong một đường phố nhất định. Chúng tôi đến thăm từng hộ gia đình trên con phố đó, xác định tất cả người lớn sống ở đó và chọn ngẫu nhiên một người lớn từ mỗi hộ gia đình. (Ví dụ: chúng ta có thể phân bổ cho mỗi người một số ngẫu nhiên, được tạo từ phân phối đồng nhất từ ​​0 đến 1 và chọn người có số cao nhất trong mỗi hộ gia đình). Sau đó chúng tôi phỏng vấn người được chọn và tìm thu nhập của họ

Những người sống một mình chắc chắn sẽ được chọn, vì vậy chúng tôi chỉ cần thêm thu nhập của họ vào ước tính của chúng tôi về tổng số. Nhưng một người sống trong một hộ gia đình có hai người lớn chỉ có một trong hai cơ hội lựa chọn. Để phản ánh điều này, khi chúng tôi đến một hộ gia đình như vậy, chúng tôi sẽ tính hai lần thu nhập của người được chọn vào tổng số. (Người được chọn từ hộ gia đình đó có thể được xem một cách lỏng lẻo cũng đại diện cho người không được chọn. )

Trong ví dụ trên, không phải mọi người đều có xác suất lựa chọn như nhau; . Khi mọi phần tử trong tổng thể đều có xác suất lựa chọn như nhau, điều này được gọi là thiết kế 'xác suất lựa chọn ngang nhau' (EPS). Các thiết kế như vậy còn được gọi là 'tự cân' vì tất cả các đơn vị được lấy mẫu đều có cùng trọng lượng

Lấy mẫu xác suất bao gồm. Lấy mẫu ngẫu nhiên đơn giản, Lấy mẫu có hệ thống, Lấy mẫu phân tầng, Lấy mẫu theo tỷ lệ xác suất với quy mô và Lấy mẫu theo cụm hoặc nhiều tầng. Những cách lấy mẫu xác suất khác nhau này có hai điểm chung

  1. Mọi phần tử đều có xác suất được lấy mẫu khác không đã biết và
  2. liên quan đến lựa chọn ngẫu nhiên tại một số điểm

Lấy mẫu phi xác suất[sửa]

Lấy mẫu phi xác suất là bất kỳ phương pháp lấy mẫu nào trong đó một số thành phần của tổng thể không có cơ hội được lựa chọn (đôi khi chúng được gọi là 'ngoài phạm vi bảo hiểm'/'được che đậy') hoặc khi xác suất lựa chọn không thể được xác định chính xác. Nó liên quan đến việc lựa chọn các yếu tố dựa trên các giả định về dân số quan tâm, tạo thành tiêu chí lựa chọn. Do đó, do việc lựa chọn các phần tử là không ngẫu nhiên nên việc lấy mẫu phi xác suất không cho phép ước lượng sai số lấy mẫu. Những điều kiện này làm phát sinh sai lệch loại trừ, đặt giới hạn về lượng thông tin mà một mẫu có thể cung cấp về tổng thể. Thông tin về mối quan hệ giữa mẫu và tổng thể bị hạn chế nên khó ngoại suy từ mẫu sang tổng thể

Thí dụ. Chúng tôi đến thăm từng hộ gia đình trên một con phố nhất định và phỏng vấn người đầu tiên ra mở cửa. Trong bất kỳ hộ gia đình nào có nhiều hơn một người cư ngụ, đây là mẫu không xác suất, bởi vì một số người có nhiều khả năng ra mở cửa hơn (e. g. một người thất nghiệp dành phần lớn thời gian ở nhà có nhiều khả năng trả lời hơn một người bạn cùng nhà có việc làm có thể đang ở nơi làm việc khi người phỏng vấn gọi) và việc tính toán các xác suất này là không thực tế

Các phương pháp lấy mẫu phi xác suất bao gồm lấy mẫu thuận tiện, lấy mẫu hạn ngạch và lấy mẫu có mục đích. Ngoài ra, các hiệu ứng không phản hồi có thể biến bất kỳ thiết kế xác suất nào thành thiết kế không có khả năng xảy ra nếu các đặc điểm của không phản hồi không được hiểu rõ, vì không phản hồi làm thay đổi hiệu quả xác suất được lấy mẫu của mỗi phần tử

Phương pháp lấy mẫu[sửa]

Trong bất kỳ loại khung nào được xác định ở trên, nhiều phương pháp lấy mẫu có thể được sử dụng riêng lẻ hoặc kết hợp. Các yếu tố thường ảnh hưởng đến sự lựa chọn giữa các thiết kế này bao gồm

  • Bản chất và chất lượng của khung
  • Có sẵn thông tin phụ trợ về các đơn vị trên khung
  • Yêu cầu về độ chính xác và sự cần thiết phải đo lường độ chính xác
  • Liệu phân tích chi tiết của mẫu có được mong đợi hay không
  • Mối quan tâm về chi phí/hoạt động

Lấy mẫu ngẫu nhiên đơn giản [ chỉnh sửa ]

Một đại diện trực quan của việc chọn một mẫu ngẫu nhiên đơn giản

Trong một mẫu ngẫu nhiên đơn giản (SRS) có kích thước nhất định, tất cả các tập hợp con của khung lấy mẫu có xác suất được chọn như nhau. Do đó, mỗi phần tử của khung có xác suất được chọn như nhau. khung không được chia nhỏ hoặc phân vùng. Hơn nữa, bất kỳ cặp phần tử đã cho nào cũng có cùng cơ hội được chọn như bất kỳ cặp nào khác như vậy (và tương tự đối với bộ ba, v.v.). Điều này giảm thiểu sai lệch và đơn giản hóa việc phân tích kết quả. Cụ thể, phương sai giữa các kết quả riêng lẻ trong mẫu là một chỉ báo tốt về phương sai trong toàn bộ tổng thể, giúp ước tính độ chính xác của kết quả tương đối dễ dàng

Lấy mẫu ngẫu nhiên đơn giản có thể dễ bị lỗi lấy mẫu vì tính ngẫu nhiên của việc lựa chọn có thể dẫn đến một mẫu không phản ánh thành phần của dân số. Chẳng hạn, một mẫu ngẫu nhiên đơn giản gồm mười người từ một quốc gia nhất định trung bình sẽ tạo ra năm nam và năm nữ, nhưng bất kỳ thử nghiệm cụ thể nào cũng có khả năng đại diện quá mức cho một giới tính và đại diện cho giới tính kia. Các kỹ thuật phân tầng và hệ thống cố gắng khắc phục vấn đề này bằng cách "sử dụng thông tin về dân số" để chọn một mẫu "đại diện" hơn

Ngoài ra, lấy mẫu ngẫu nhiên đơn giản có thể cồng kềnh và tẻ nhạt khi lấy mẫu từ một quần thể mục tiêu lớn. Trong một số trường hợp, các nhà điều tra quan tâm đến các câu hỏi nghiên cứu dành riêng cho các nhóm nhỏ của dân số. Ví dụ, các nhà nghiên cứu có thể quan tâm đến việc kiểm tra xem liệu khả năng nhận thức như một yếu tố dự đoán hiệu suất công việc có được áp dụng như nhau giữa các nhóm chủng tộc hay không. Lấy mẫu ngẫu nhiên đơn giản không thể đáp ứng nhu cầu của các nhà nghiên cứu trong tình huống này, bởi vì nó không cung cấp các mẫu con của dân số và các chiến lược lấy mẫu khác, chẳng hạn như lấy mẫu phân tầng, có thể được sử dụng thay thế

Lấy mẫu có hệ thống[sửa]

Một đại diện trực quan của việc chọn một mẫu ngẫu nhiên bằng cách sử dụng kỹ thuật lấy mẫu có hệ thống

Lấy mẫu hệ thống (còn được gọi là lấy mẫu cách quãng) dựa vào việc sắp xếp dân số nghiên cứu theo một sơ đồ sắp xếp nào đó và sau đó chọn các phần tử theo các khoảng thời gian đều đặn thông qua danh sách sắp xếp đó. Lấy mẫu hệ thống liên quan đến việc bắt đầu ngẫu nhiên và sau đó tiếp tục với việc lựa chọn mọi phần tử thứ k từ đó trở đi. Trong trường hợp này, k=(cỡ dân số/cỡ mẫu). Điều quan trọng là điểm bắt đầu không tự động là điểm đầu tiên trong danh sách mà thay vào đó được chọn ngẫu nhiên từ trong phần tử đầu tiên đến phần tử thứ k trong danh sách. Một ví dụ đơn giản là chọn mọi tên thứ 10 từ danh bạ điện thoại (mẫu 'mỗi thứ 10', còn được gọi là 'lấy mẫu có bỏ qua 10')

Miễn là điểm bắt đầu được chọn ngẫu nhiên, lấy mẫu hệ thống là một loại lấy mẫu xác suất. Nó rất dễ thực hiện và sự phân tầng gây ra có thể làm cho nó hiệu quả, nếu biến mà danh sách được sắp xếp có tương quan với biến quan tâm. Lấy mẫu 'mỗi lần thứ 10' đặc biệt hữu ích để lấy mẫu hiệu quả từ cơ sở dữ liệu

Ví dụ: giả sử chúng ta muốn lấy mẫu những người từ một con phố dài bắt đầu từ một khu vực nghèo (nhà số. 1) và kết thúc ở một quận đắt đỏ (nhà số. 1000). Một lựa chọn ngẫu nhiên đơn giản các địa chỉ từ con phố này có thể dễ dàng dẫn đến quá nhiều địa chỉ từ cấp cao và quá ít địa chỉ từ cấp thấp (hoặc ngược lại), dẫn đến một mẫu không có tính đại diện. Lựa chọn (e. g. ) mỗi số thứ 10 dọc theo đường phố đảm bảo mẫu trải đều theo chiều dài của đường phố, đại diện cho tất cả các quận này. (Lưu ý rằng nếu chúng tôi luôn bắt đầu ở nhà số 1 và kết thúc ở số #991, thì mẫu hơi thiên về phía cấp thấp; bằng cách chọn ngẫu nhiên bắt đầu từ số 1 đến số 10, xu hướng này sẽ bị loại bỏ. )

Tuy nhiên, lấy mẫu có hệ thống đặc biệt dễ bị ảnh hưởng bởi các chu kỳ trong danh sách. Nếu tính chu kỳ xuất hiện và khoảng thời gian là bội số hoặc hệ số của khoảng thời gian được sử dụng, mẫu đặc biệt có khả năng không đại diện cho toàn bộ tổng thể, làm cho sơ đồ kém chính xác hơn so với lấy mẫu ngẫu nhiên đơn giản

Ví dụ, hãy xem xét một con phố nơi các ngôi nhà số lẻ đều ở phía bắc (đắt tiền) của con đường và các ngôi nhà số chẵn đều ở phía nam (rẻ tiền). Theo sơ đồ lấy mẫu nêu trên, không thể lấy mẫu đại diện;

Một nhược điểm khác của lấy mẫu hệ thống là ngay cả trong các tình huống chính xác hơn SRS, các đặc tính lý thuyết của nó khiến việc định lượng độ chính xác đó trở nên khó khăn. (Trong hai ví dụ về lấy mẫu hệ thống được đưa ra ở trên, phần lớn sai số chọn mẫu tiềm ẩn là do sự khác biệt giữa các ngôi nhà lân cận – nhưng vì phương pháp này không bao giờ chọn hai ngôi nhà lân cận, mẫu sẽ không cung cấp cho chúng tôi bất kỳ thông tin nào về sự thay đổi đó. )

Như đã mô tả ở trên, lấy mẫu hệ thống là một phương pháp EPS, bởi vì tất cả các yếu tố đều có xác suất lựa chọn như nhau (trong ví dụ đã cho, một phần mười). Nó không phải là 'lấy mẫu ngẫu nhiên đơn giản' bởi vì các tập hợp con khác nhau có cùng kích thước có xác suất lựa chọn khác nhau – e. g. bộ {4,14,24,. ,994} có xác suất chọn là một phần mười, nhưng tập {4,13,24,34,. } không có xác suất lựa chọn

Lấy mẫu hệ thống cũng có thể được điều chỉnh cho phù hợp với cách tiếp cận phi EPS;

Lấy mẫu phân tầng[sửa]

Một đại diện trực quan của việc chọn một mẫu ngẫu nhiên bằng cách sử dụng kỹ thuật lấy mẫu phân tầng

Khi dân số bao gồm một số loại riêng biệt, khung có thể được sắp xếp theo các loại này thành các "tầng" riêng biệt. " Sau đó, mỗi tầng được lấy mẫu dưới dạng một quần thể phụ độc lập, trong đó các phần tử riêng lẻ có thể được chọn ngẫu nhiên. Tỷ lệ kích thước của lựa chọn ngẫu nhiên (hoặc mẫu) này với kích thước của tổng thể được gọi là phân số lấy mẫu. Có một số lợi ích tiềm năng đối với lấy mẫu phân tầng

Đầu tiên, việc chia dân số thành các tầng độc lập, riêng biệt có thể cho phép các nhà nghiên cứu rút ra kết luận về các nhóm nhỏ cụ thể có thể bị mất trong một mẫu ngẫu nhiên tổng quát hơn

Thứ hai, sử dụng phương pháp lấy mẫu phân tầng có thể dẫn đến các ước tính thống kê hiệu quả hơn (với điều kiện là các tầng được chọn dựa trên mức độ phù hợp với tiêu chí được đề cập, thay vì tính sẵn có của các mẫu). Ngay cả khi phương pháp lấy mẫu phân tầng không dẫn đến tăng hiệu quả thống kê, chiến thuật như vậy sẽ không dẫn đến hiệu quả thấp hơn so với lấy mẫu ngẫu nhiên đơn giản, với điều kiện là mỗi tầng tỷ lệ thuận với kích thước của nhóm trong dân số

Thứ ba, đôi khi xảy ra trường hợp dữ liệu sẵn có cho các tầng riêng lẻ, có sẵn trong dân số hơn là cho tổng thể dân số;

Cuối cùng, vì mỗi tầng được coi là một dân số độc lập, nên các phương pháp lấy mẫu khác nhau có thể được áp dụng cho các tầng khác nhau, có khả năng cho phép các nhà nghiên cứu sử dụng phương pháp phù hợp nhất (hoặc hiệu quả nhất về chi phí) cho từng nhóm nhỏ được xác định trong dân số

Tuy nhiên, có một số nhược điểm tiềm ẩn khi sử dụng lấy mẫu phân tầng. Đầu tiên, việc xác định các tầng và thực hiện cách tiếp cận như vậy có thể làm tăng chi phí và độ phức tạp của việc chọn mẫu, cũng như dẫn đến tăng độ phức tạp của các ước tính dân số. Thứ hai, khi kiểm tra nhiều tiêu chí, các biến phân tầng có thể liên quan đến một số, nhưng không liên quan đến các tiêu chí khác, làm phức tạp thêm thiết kế và có khả năng làm giảm tiện ích của tầng. Cuối cùng, trong một số trường hợp (chẳng hạn như các thiết kế có số lượng lớn các tầng hoặc những thiết kế có cỡ mẫu tối thiểu được chỉ định cho mỗi nhóm), lấy mẫu phân tầng có thể yêu cầu một mẫu lớn hơn so với các phương pháp khác (mặc dù trong hầu hết các trường hợp, cỡ mẫu yêu cầu

Phương pháp lấy mẫu phân tầng có hiệu quả nhất khi đáp ứng ba điều kiện
  1. Sự thay đổi trong các tầng được giảm thiểu
  2. Sự thay đổi giữa các tầng được tối đa hóa
  3. Các biến mà dân số được phân tầng có tương quan chặt chẽ với biến phụ thuộc mong muốn
Ưu điểm so với các phương pháp lấy mẫu khác
  1. Tập trung vào các quần thể con quan trọng và bỏ qua những quần thể không liên quan
  2. Cho phép sử dụng các kỹ thuật lấy mẫu khác nhau cho các nhóm dân số khác nhau
  3. Cải thiện độ chính xác/hiệu quả của ước tính
  4. Cho phép cân bằng hơn về sức mạnh thống kê của các thử nghiệm về sự khác biệt giữa các tầng bằng cách lấy mẫu các số bằng nhau từ các tầng có kích thước khác nhau
Nhược điểm
  1. Yêu cầu lựa chọn các biến phân tầng có liên quan có thể khó khăn
  2. Không hữu ích khi không có nhóm con đồng nhất
  3. Có thể tốn kém để thực hiện
hậu phân tầng

Sự phân tầng đôi khi được đưa ra sau giai đoạn lấy mẫu trong một quy trình gọi là "hậu phân tầng". Cách tiếp cận này thường được thực hiện do thiếu kiến ​​thức trước đó về biến phân tầng thích hợp hoặc khi người thử nghiệm thiếu thông tin cần thiết để tạo biến phân tầng trong giai đoạn lấy mẫu. Mặc dù phương pháp này dễ mắc phải những cạm bẫy của cách tiếp cận post hoc, nhưng nó có thể mang lại một số lợi ích trong tình huống phù hợp. Việc thực hiện thường theo một mẫu ngẫu nhiên đơn giản. Ngoài việc cho phép phân tầng trên một biến phụ trợ, hậu phân tầng có thể được sử dụng để triển khai trọng số, điều này có thể cải thiện độ chính xác của các ước tính của mẫu

lấy mẫu quá mức

Lấy mẫu dựa trên sự lựa chọn là một trong những chiến lược lấy mẫu phân tầng. Trong lấy mẫu dựa trên sự lựa chọn, dữ liệu được phân tầng theo mục tiêu và một mẫu được lấy từ mỗi tầng để loại mục tiêu hiếm sẽ được đại diện nhiều hơn trong mẫu. Mô hình sau đó được xây dựng trên mẫu thiên vị này. Tác động của các biến đầu vào đối với mục tiêu thường được ước tính với độ chính xác cao hơn với mẫu dựa trên lựa chọn ngay cả khi lấy mẫu tổng thể nhỏ hơn so với mẫu ngẫu nhiên. Các kết quả thường phải được điều chỉnh để chính xác cho việc lấy mẫu quá mức

Lấy mẫu xác suất theo tỷ lệ với kích thước[sửa | sửa mã nguồn]

Trong một số trường hợp, người thiết kế mẫu có quyền truy cập vào một "biến phụ trợ" hoặc "số đo kích thước", được cho là tương quan với biến quan tâm, đối với từng phần tử trong tổng thể. Những dữ liệu này có thể được sử dụng để cải thiện độ chính xác trong thiết kế mẫu. Một lựa chọn là sử dụng biến phụ trợ làm cơ sở để phân tầng, như đã thảo luận ở trên

Một tùy chọn khác là lấy mẫu xác suất tỷ lệ thuận với kích thước ('PPS'), trong đó xác suất lựa chọn cho từng phần tử được đặt tỷ lệ thuận với thước đo kích thước của nó, tối đa là 1. Trong một thiết kế PPS đơn giản, các xác suất lựa chọn này sau đó có thể được sử dụng làm cơ sở cho lấy mẫu Poisson. Tuy nhiên, điều này có nhược điểm là kích thước mẫu thay đổi và các phần khác nhau của dân số vẫn có thể được đại diện quá mức hoặc dưới mức do sự thay đổi ngẫu nhiên trong các lựa chọn

Lý thuyết lấy mẫu hệ thống có thể được sử dụng để tạo ra xác suất tương ứng với cỡ mẫu. Điều này được thực hiện bằng cách coi mỗi số lượng trong biến kích thước là một đơn vị lấy mẫu. Sau đó, các mẫu được xác định bằng cách chọn ở các khoảng cách đều nhau giữa các số đếm này trong biến kích thước. Phương pháp này đôi khi được gọi là lấy mẫu đơn vị tiền tệ hoặc tuần tự PPS trong trường hợp kiểm toán hoặc lấy mẫu pháp y

Thí dụ. Giả sử chúng ta có sáu trường học với số học sinh lần lượt là 150, 180, 200, 220, 260 và 490 học sinh (tổng cộng 1500 học sinh) và chúng ta muốn sử dụng số học sinh làm cơ sở cho mẫu PPS cỡ ba. Để làm điều này, chúng ta có thể phân bổ các số của trường đầu tiên từ 1 đến 150, trường thứ hai từ 151 đến 330 (= 150 + 180), trường thứ ba từ 331 đến 530, v.v. cho trường cuối cùng (1011 đến 1500). Sau đó, chúng tôi tạo một điểm bắt đầu ngẫu nhiên trong khoảng từ 1 đến 500 (bằng 1500/3) và tính toàn bộ dân số của trường theo bội số của 500. Nếu điểm bắt đầu ngẫu nhiên của chúng tôi là 137, thì chúng tôi sẽ chọn các trường đã được phân bổ các số 137, 637 và 1137, i. e. trường thứ nhất, thứ tư và thứ sáu

Phương pháp PPS có thể cải thiện độ chính xác cho một cỡ mẫu nhất định bằng cách tập trung mẫu vào các yếu tố lớn có tác động lớn nhất đến ước tính dân số. Lấy mẫu PPS thường được sử dụng cho các cuộc khảo sát về doanh nghiệp, trong đó kích thước phần tử rất khác nhau và thông tin phụ trợ thường có sẵn – ví dụ: một cuộc khảo sát cố gắng đo lường số đêm khách lưu trú tại khách sạn có thể sử dụng số lượng phòng của mỗi khách sạn làm biến phụ trợ. Trong một số trường hợp, phép đo cũ hơn của biến quan tâm có thể được sử dụng làm biến phụ trợ khi cố gắng tạo ra các ước tính hiện tại hơn

Lấy mẫu theo cụm[sửa]

Một đại diện trực quan của việc chọn một mẫu ngẫu nhiên bằng cách sử dụng kỹ thuật lấy mẫu cụm

Đôi khi, việc chọn người trả lời theo nhóm ('cụm') sẽ tiết kiệm chi phí hơn. Lấy mẫu thường được nhóm theo địa lý hoặc theo khoảng thời gian. (Gần như tất cả các mẫu theo một nghĩa nào đó được 'phân cụm' theo thời gian - mặc dù điều này hiếm khi được tính đến trong phân tích. ) Ví dụ khảo sát các hộ gia đình trong một thành phố thì có thể chọn ra 100 khối phố rồi phỏng vấn từng hộ trong các khối đã chọn

Phân cụm có thể giảm chi phí đi lại và hành chính. Trong ví dụ trên, người phỏng vấn có thể thực hiện một chuyến đi thăm nhiều hộ gia đình trong một khu nhà, thay vì phải lái xe đến từng khu nhà khác nhau cho mỗi hộ gia đình

Điều đó cũng có nghĩa là người ta không cần khung lấy mẫu liệt kê tất cả các phần tử trong tổng thể mục tiêu. Thay vào đó, các cụm có thể được chọn từ khung cấp cụm, với khung cấp phần tử chỉ được tạo cho các cụm đã chọn. Trong ví dụ trên, mẫu chỉ yêu cầu bản đồ thành phố cấp khối cho các lựa chọn ban đầu, sau đó là bản đồ cấp hộ gia đình của 100 khối được chọn, thay vì bản đồ cấp hộ gia đình của toàn thành phố

Lấy mẫu theo cụm (còn được gọi là lấy mẫu theo cụm) thường làm tăng tính biến thiên của các ước tính mẫu so với lấy mẫu ngẫu nhiên đơn giản, tùy thuộc vào cách các cụm khác nhau giữa các cụm khác so với biến thể trong cụm. Vì lý do này, lấy mẫu theo cụm yêu cầu mẫu lớn hơn SRS để đạt được cùng mức độ chính xác – nhưng việc tiết kiệm chi phí từ việc lấy mẫu theo cụm vẫn có thể khiến đây là một lựa chọn rẻ hơn

Lấy mẫu cụm thường được thực hiện dưới dạng lấy mẫu nhiều tầng. Đây là một hình thức lấy mẫu cụm phức hợp trong đó hai hoặc nhiều cấp độ đơn vị được nhúng vào cấp độ khác. Giai đoạn đầu tiên bao gồm xây dựng các cụm sẽ được sử dụng để lấy mẫu từ. Trong giai đoạn thứ hai, một mẫu của các đơn vị chính được chọn ngẫu nhiên từ mỗi cụm (thay vì sử dụng tất cả các đơn vị có trong tất cả các cụm đã chọn). Trong các giai đoạn tiếp theo, trong mỗi cụm được chọn đó, các mẫu bổ sung của các đơn vị được chọn, v.v. Tất cả các đơn vị cuối cùng (ví dụ: cá nhân) được chọn ở bước cuối cùng của quy trình này sau đó sẽ được khảo sát. Do đó, kỹ thuật này thực chất là quá trình lấy các mẫu con ngẫu nhiên của các mẫu ngẫu nhiên trước đó.

Lấy mẫu nhiều tầng có thể giảm đáng kể chi phí lấy mẫu, trong đó danh sách tổng thể hoàn chỉnh sẽ cần được xây dựng (trước khi có thể áp dụng các phương pháp lấy mẫu khác). Bằng cách loại bỏ công việc liên quan đến việc mô tả các cụm không được chọn, lấy mẫu nhiều tầng có thể giảm chi phí lớn liên quan đến lấy mẫu theo cụm truyền thống. Tuy nhiên, mỗi mẫu có thể không đại diện đầy đủ cho toàn bộ dân số

Lấy mẫu hạn ngạch[sửa]

Trong lấy mẫu hạn ngạch, dân số đầu tiên được phân chia thành các nhóm phụ loại trừ lẫn nhau, giống như trong lấy mẫu phân tầng. Sau đó, phán đoán được sử dụng để chọn các đối tượng hoặc đơn vị từ mỗi phân đoạn dựa trên một tỷ lệ xác định. Ví dụ, một người phỏng vấn có thể được yêu cầu lấy mẫu 200 phụ nữ và 300 nam giới trong độ tuổi từ 45 đến 60

Đây là bước thứ hai làm cho kỹ thuật này trở thành một trong những phương pháp lấy mẫu phi xác suất. Trong lấy mẫu hạn ngạch, việc lựa chọn mẫu là không ngẫu nhiên. Ví dụ, người phỏng vấn có thể muốn phỏng vấn những người trông hữu ích nhất. Vấn đề là những mẫu này có thể bị sai lệch vì không phải ai cũng có cơ hội được chọn. Yếu tố ngẫu nhiên này là điểm yếu lớn nhất của nó và hạn ngạch so với xác suất là vấn đề gây tranh cãi trong nhiều năm

Lấy mẫu tối thiểu[sửa]

Trong các bộ dữ liệu không cân bằng, trong đó tỷ lệ lấy mẫu không tuân theo thống kê dân số, người ta có thể lấy mẫu lại bộ dữ liệu theo cách thận trọng gọi là lấy mẫu minimax. Việc lấy mẫu minimax có nguồn gốc từ tỷ lệ Anderson minimax có giá trị được chứng minh là 0. 5. trong phân loại nhị phân, kích thước mẫu lớp nên được chọn bằng nhau. Tỷ lệ này chỉ có thể được chứng minh là tỷ lệ minimax theo giả định của bộ phân loại LDA với phân phối Gaussian. Khái niệm lấy mẫu minimax gần đây được phát triển cho một lớp quy tắc phân loại chung, được gọi là bộ phân loại thông minh theo lớp. Trong trường hợp này, tỷ lệ lấy mẫu của các lớp được chọn sao cho lỗi phân loại trường hợp xấu nhất trên tất cả các thống kê dân số có thể có cho xác suất trước của lớp, sẽ là tốt nhất

Lấy mẫu tình cờ[sửa | sửa mã nguồn]

Lấy mẫu ngẫu nhiên (đôi khi được gọi là lấy mẫu, thuận tiện hoặc lấy mẫu cơ hội) là một loại lấy mẫu phi xác suất liên quan đến mẫu được lấy từ một phần dân số gần với tầm tay. Nghĩa là, một quần thể được chọn vì nó sẵn có và thuận tiện. Có thể thông qua việc gặp gỡ người đó hoặc đưa một người vào mẫu khi một người gặp họ hoặc được chọn bằng cách tìm kiếm họ thông qua các phương tiện công nghệ như internet hoặc qua điện thoại. Nhà nghiên cứu sử dụng một mẫu như vậy không thể khái quát hóa một cách khoa học về tổng dân số từ mẫu này vì nó sẽ không đủ đại diện. Ví dụ: nếu người phỏng vấn thực hiện một cuộc khảo sát như vậy tại một trung tâm mua sắm vào sáng sớm vào một ngày nhất định, những người mà họ có thể phỏng vấn sẽ bị giới hạn ở những người có mặt tại thời điểm đó, điều này sẽ không đại diện cho quan điểm của . Loại lấy mẫu này hữu ích nhất cho thử nghiệm thí điểm. Một số cân nhắc quan trọng đối với các nhà nghiên cứu sử dụng các mẫu thuận tiện bao gồm

  1. Có biện pháp kiểm soát nào trong thiết kế nghiên cứu hoặc thử nghiệm có thể làm giảm tác động của mẫu thuận tiện không ngẫu nhiên, do đó đảm bảo kết quả sẽ mang tính đại diện hơn cho tổng thể không?
  2. Có lý do chính đáng nào để tin rằng một mẫu tiện lợi cụ thể sẽ hoặc nên phản ứng hoặc hành xử khác với một mẫu ngẫu nhiên từ cùng một quần thể không?
  3. Câu hỏi mà nghiên cứu đặt ra có thể được trả lời thỏa đáng bằng cách sử dụng một mẫu tiện lợi không?

Trong nghiên cứu khoa học xã hội, lấy mẫu quả cầu tuyết là một kỹ thuật tương tự, trong đó các đối tượng nghiên cứu hiện có được sử dụng để tuyển thêm các đối tượng vào mẫu. Một số biến thể của lấy mẫu quả cầu tuyết, chẳng hạn như lấy mẫu theo hướng người trả lời, cho phép tính toán xác suất lựa chọn và là phương pháp lấy mẫu xác suất trong những điều kiện nhất định

Lấy mẫu tự nguyện[sửa]

Phương pháp lấy mẫu tự nguyện là phương pháp lấy mẫu phi xác suất. Tình nguyện viên chọn hoàn thành một cuộc khảo sát

Tình nguyện viên có thể được mời thông qua quảng cáo trên phương tiện truyền thông xã hội. Dân số mục tiêu cho quảng cáo có thể được chọn theo các đặc điểm như vị trí, tuổi tác, giới tính, thu nhập, nghề nghiệp, giáo dục hoặc sở thích bằng cách sử dụng các công cụ do phương tiện xã hội cung cấp. Quảng cáo có thể bao gồm một thông báo về nghiên cứu và liên kết đến một cuộc khảo sát. Sau khi theo liên kết và hoàn thành khảo sát, tình nguyện viên gửi dữ liệu để đưa vào dân số mẫu. Phương pháp này có thể tiếp cận dân số toàn cầu nhưng bị giới hạn bởi ngân sách chiến dịch. Các tình nguyện viên bên ngoài dân số được mời cũng có thể được đưa vào mẫu

Rất khó để khái quát hóa từ mẫu này vì nó có thể không đại diện cho tổng dân số. Thông thường, các tình nguyện viên rất quan tâm đến chủ đề chính của cuộc khảo sát

Lấy mẫu chặn dòng [ chỉnh sửa ]

Lấy mẫu chặn đường là một phương pháp lấy mẫu các phần tử trong một vùng theo đó một phần tử được lấy mẫu nếu một đoạn đường được chọn, được gọi là "đường cắt", cắt phần tử

Lấy mẫu bảng [ chỉnh sửa ]

Lấy mẫu theo nhóm là phương pháp đầu tiên chọn một nhóm người tham gia thông qua phương pháp lấy mẫu ngẫu nhiên và sau đó yêu cầu nhóm đó cung cấp thông tin (có thể giống nhau) nhiều lần trong một khoảng thời gian. Do đó, mỗi người tham gia được phỏng vấn tại hai hoặc nhiều thời điểm; . Phương pháp này được phát triển bởi nhà xã hội học Paul Lazarsfeld vào năm 1938 như một phương tiện nghiên cứu các chiến dịch chính trị. Phương pháp lấy mẫu theo chiều dọc này cho phép ước tính những thay đổi trong dân số, ví dụ như liên quan đến bệnh mãn tính, căng thẳng trong công việc đến chi tiêu thực phẩm hàng tuần. Lấy mẫu bảng cũng có thể được sử dụng để thông báo cho các nhà nghiên cứu về những thay đổi sức khỏe bên trong con người do tuổi tác hoặc để giúp giải thích những thay đổi trong các biến phụ thuộc liên tục như tương tác vợ chồng. Đã có một số phương pháp được đề xuất để phân tích dữ liệu bảng, bao gồm MANOVA, đường cong tăng trưởng và mô hình phương trình cấu trúc với hiệu ứng trễ

Lấy mẫu quả cầu tuyết[sửa | sửa mã nguồn]

Lấy mẫu quả cầu tuyết liên quan đến việc tìm kiếm một nhóm nhỏ người trả lời ban đầu và sử dụng chúng để tuyển thêm người trả lời. Nó đặc biệt hữu ích trong trường hợp dân số bị ẩn hoặc khó liệt kê

Lấy mẫu lý thuyết[sửa]

Lấy mẫu lý thuyết xảy ra khi các mẫu được chọn trên cơ sở kết quả của dữ liệu được thu thập cho đến nay với mục tiêu phát triển sự hiểu biết sâu sắc hơn về khu vực hoặc phát triển lý thuyết. Các trường hợp cực đoan hoặc rất cụ thể có thể được chọn để tối đa hóa khả năng một hiện tượng thực sự có thể quan sát được

Thay thế các đơn vị đã chọn[sửa | sửa mã nguồn]

Các lược đồ lấy mẫu có thể không thay thế ('WOR' – không thể chọn phần tử nào nhiều lần trong cùng một mẫu) hoặc có thay thế ('WR' – một phần tử có thể xuất hiện nhiều lần trong một mẫu). Ví dụ: nếu chúng tôi bắt cá, đo chúng và ngay lập tức thả chúng trở lại nước trước khi tiếp tục lấy mẫu, đây là thiết kế WR, bởi vì chúng tôi có thể sẽ bắt và đo cùng một con cá nhiều lần. Tuy nhiên, nếu chúng ta không trả cá về nước hoặc không gắn thẻ và thả từng con cá sau khi bắt được thì đây sẽ trở thành một thiết kế TỆ

Xác định cỡ mẫu[sửa]

Công thức, bảng và biểu đồ hàm lũy thừa là những cách tiếp cận nổi tiếng để xác định cỡ mẫu

Các bước sử dụng bảng cỡ mẫu

  1. Quy định quy mô ảnh hưởng của lãi suất, α và β
  2. Kiểm tra bảng cỡ mẫu
    1. Chọn bảng tương ứng với α đã chọn
    2. Xác định vị trí hàng tương ứng với sức mạnh mong muốn
    3. Xác định vị trí cột tương ứng với kích thước hiệu ứng ước tính
    4. Giao điểm của cột và hàng là kích thước mẫu tối thiểu cần thiết

Lấy mẫu và thu thập dữ liệu[sửa | sửa mã nguồn]

Thu thập dữ liệu tốt bao gồm

  • Theo quy trình lấy mẫu đã xác định
  • Giữ dữ liệu theo thứ tự thời gian
  • Ghi nhận các bình luận và các sự kiện theo ngữ cảnh khác
  • Ghi âm không phản hồi

Lấy mẫu cho phép lựa chọn đúng điểm dữ liệu từ trong tập dữ liệu lớn hơn để ước tính các đặc điểm của toàn bộ dân số. Ví dụ: có khoảng 600 triệu tweet được tạo ra mỗi ngày. Không cần thiết phải xem tất cả chúng để xác định các chủ đề được thảo luận trong ngày, cũng không cần thiết phải xem tất cả các tweet để xác định cảm xúc về từng chủ đề. Một công thức lý thuyết để lấy mẫu dữ liệu Twitter đã được phát triển

Trong sản xuất các loại dữ liệu cảm quan khác nhau như âm thanh, độ rung, áp suất, dòng điện, điện áp và dữ liệu bộ điều khiển có sẵn trong khoảng thời gian ngắn. Để dự đoán thời gian ngừng hoạt động, có thể không cần thiết phải xem xét tất cả dữ liệu nhưng một mẫu có thể là đủ

Lỗi trong khảo sát mẫu[sửa | sửa mã nguồn]

Kết quả khảo sát thường có một số lỗi. Tổng sai số có thể được phân loại thành sai số lấy mẫu và sai số phi lấy mẫu. Thuật ngữ "lỗi" ở đây bao gồm các thành kiến ​​hệ thống cũng như các lỗi ngẫu nhiên

Lỗi lấy mẫu và thành kiến[sửa | sửa mã nguồn]

Lỗi và sai lệch lấy mẫu được gây ra bởi thiết kế mẫu. Chúng bao gồm

  1. Xu hướng lựa chọn. Khi xác suất lựa chọn thực khác với xác suất giả định khi tính toán kết quả
  2. Lỗi lấy mẫu ngẫu nhiên. Biến thể ngẫu nhiên trong kết quả do các phần tử trong mẫu được chọn ngẫu nhiên

Lỗi không lấy mẫu[sửa]

Lỗi không lấy mẫu là các lỗi khác có thể ảnh hưởng đến các ước tính khảo sát cuối cùng, do các vấn đề trong thu thập, xử lý dữ liệu hoặc thiết kế mẫu gây ra. Những lỗi như vậy có thể bao gồm

  1. bảo hiểm quá mức. bao gồm dữ liệu từ bên ngoài dân số
  2. Bảo hiểm dưới mức. khung lấy mẫu không bao gồm các phần tử trong tổng thể
  3. Lỗi đo lường. e. g. khi người trả lời hiểu sai một câu hỏi hoặc cảm thấy khó trả lời
  4. Lỗi xử lý. sai lầm trong mã hóa dữ liệu
  5. Xu hướng không phản hồi hoặc tham gia. không lấy được dữ liệu đầy đủ từ tất cả các cá nhân được chọn

Sau khi lấy mẫu, nên tổ chức đánh giá[] quy trình chính xác được thực hiện trong quá trình lấy mẫu, thay vì quy trình dự kiến, để nghiên cứu bất kỳ tác động nào mà bất kỳ sự khác biệt nào có thể có đối với phân tích tiếp theo

Một vấn đề cụ thể liên quan đến việc không phản hồi. Hai loại không phản hồi chính tồn tại

  • đơn vị không phản hồi (thiếu hoàn thành bất kỳ phần nào của cuộc khảo sát)
  • mục không trả lời (gửi hoặc tham gia khảo sát nhưng không hoàn thành một hoặc nhiều thành phần/câu hỏi của khảo sát)

Trong lấy mẫu khảo sát, nhiều cá nhân được xác định là một phần của mẫu có thể không muốn tham gia, không có thời gian để tham gia (chi phí cơ hội) hoặc quản trị viên khảo sát có thể không liên hệ được với họ. Trong trường hợp này, có nguy cơ xảy ra sự khác biệt giữa người trả lời và người không trả lời, dẫn đến ước tính sai lệch về các tham số dân số. Điều này thường được giải quyết bằng cách cải thiện thiết kế khảo sát, đưa ra các biện pháp khuyến khích và tiến hành các nghiên cứu tiếp theo nhằm nỗ lực liên tục để liên hệ với những người không phản hồi và mô tả những điểm tương đồng và khác biệt của họ với phần còn lại của khung. Các tác động cũng có thể được giảm thiểu bằng cách tính trọng số dữ liệu (khi có sẵn các điểm chuẩn dân số) hoặc bằng cách quy nạp dữ liệu dựa trên câu trả lời cho các câu hỏi khác. Không phản hồi đặc biệt là một vấn đề trong lấy mẫu internet. Lý do cho vấn đề này có thể bao gồm khảo sát được thiết kế không phù hợp, khảo sát quá mức (hoặc khảo sát mệt mỏi),[cần trích dẫn để xác minh] và thực tế là những người tham gia tiềm năng có thể có nhiều địa chỉ email mà họ không sử dụng nữa hoặc không sử dụng nữa

Trọng số khảo sát[sửa]

Trong nhiều trường hợp, phần mẫu có thể thay đổi theo tầng lớp và dữ liệu sẽ phải được tính trọng số để đại diện chính xác cho tổng thể. Do đó, ví dụ, một mẫu ngẫu nhiên đơn giản gồm các cá nhân ở Vương quốc Anh có thể không bao gồm một số người ở các đảo xa xôi của Scotland, những người sẽ rất tốn kém để lấy mẫu. Một phương pháp rẻ hơn là sử dụng mẫu phân tầng với các tầng lớp thành thị và nông thôn. Mẫu nông thôn có thể không được đại diện đầy đủ trong mẫu, nhưng được tăng trọng số một cách thích hợp trong phân tích để bù lại

Tổng quát hơn, dữ liệu thường nên được tính trọng số nếu thiết kế mẫu không cho mỗi cá nhân cơ hội được chọn như nhau. Ví dụ, khi các hộ gia đình có xác suất lựa chọn bằng nhau nhưng mỗi hộ gia đình chỉ phỏng vấn một người, điều này khiến những người từ các hộ gia đình lớn có ít cơ hội được phỏng vấn hơn. Điều này có thể được giải thích bằng cách sử dụng trọng số khảo sát. Tương tự, các hộ gia đình có nhiều đường dây điện thoại có nhiều cơ hội được chọn hơn trong một mẫu quay số ngẫu nhiên và các trọng số có thể điều chỉnh cho điều này.

Trọng lượng cũng có thể phục vụ các mục đích khác, chẳng hạn như giúp sửa lỗi không phản hồi

Phương pháp tạo mẫu ngẫu nhiên[sửa | sửa mã nguồn]

Lịch sử[sửa]

Lấy mẫu ngẫu nhiên bằng cách sử dụng rất nhiều là một ý tưởng cũ, được đề cập nhiều lần trong Kinh thánh. Năm 1786, Pierre Simon Laplace ước tính dân số Pháp bằng cách sử dụng một mẫu, cùng với công cụ ước tính tỷ lệ. Ông cũng tính toán các ước tính xác suất của lỗi. Chúng không được biểu thị dưới dạng khoảng tin cậy hiện đại mà là cỡ mẫu cần thiết để đạt được giới hạn trên cụ thể đối với lỗi lấy mẫu với xác suất 1000/1001. Các ước tính của anh ấy đã sử dụng định lý Bayes với xác suất trước đồng nhất và giả định rằng mẫu của anh ấy là ngẫu nhiên. Alexander Ivanovich Chuprov đã giới thiệu các cuộc khảo sát mẫu cho Đế quốc Nga vào những năm 1870. [cần dẫn nguồn]

Tại Hoa Kỳ, dự đoán của tạp chí Literary Digest năm 1936 về chiến thắng của Đảng Cộng hòa trong cuộc bầu cử tổng thống đã trở nên sai lệch nghiêm trọng do sự thiên vị nghiêm trọng [1]. Hơn hai triệu người đã trả lời nghiên cứu với tên của họ có được thông qua danh sách đăng ký tạp chí và danh bạ điện thoại. Người ta không đánh giá cao những danh sách này thiên về đảng Cộng hòa và mẫu kết quả, mặc dù rất lớn, nhưng có nhiều sai sót

Xem thêm [sửa]

Sách giáo khoa của Groves et alia cung cấp một cái nhìn tổng quan về phương pháp khảo sát, bao gồm các tài liệu gần đây về phát triển bảng câu hỏi (được cung cấp bởi tâm lý học nhận thức)

Các cuốn sách khác tập trung vào lý thuyết thống kê về lấy mẫu khảo sát và yêu cầu một số kiến ​​thức về thống kê cơ bản, như được thảo luận trong các sách giáo khoa sau

Cuốn sách tiểu học của Scheaffer et alia sử dụng phương trình bậc hai từ đại số trung học

  • Scheaffer, Richard L. , William Mendenhal và R. Lyman Ott. Lấy mẫu điều tra cơ bản, Phiên bản thứ năm. Belmont. Nhà xuất bản Duxbury, 1996

Cần có thêm số liệu thống kê toán học cho Lohr, cho Särndal et alia, và cho Cochran (cổ điển[cần dẫn nguồn])

Những cuốn sách quan trọng về mặt lịch sử của Deming và Kish vẫn có giá trị cho những hiểu biết sâu sắc đối với các nhà khoa học xã hội (đặc biệt là về Hoa Kỳ). S. điều tra dân số và Viện nghiên cứu xã hội tại Đại học Michigan)

3 cách dân số được lấy mẫu là gì?

Phương pháp lấy mẫu từ tổng thể .
Phương pháp lấy mẫu ngẫu nhiên đơn giản. Trong trường hợp này, mỗi cá nhân được chọn hoàn toàn ngẫu nhiên và mỗi thành viên của dân số có cơ hội hoặc xác suất được chọn như nhau. .
Lấy mẫu hệ thống. .
lấy mẫu phân tầng. .
lấy mẫu cụm

Một ví dụ về lấy mẫu dân số là gì?

Ví dụ: một nhà nghiên cứu dự định thu thập một mẫu có hệ thống gồm 500 người trong tổng số 5000 người . Anh ấy/cô ấy đánh số từng phần tử của tổng thể từ 1-5000 và sẽ chọn mọi cá nhân thứ 10 để trở thành một phần của mẫu (Tổng dân số/Cỡ mẫu = 5000/500 = 10).

Kỹ thuật nào được sử dụng để chọn mẫu từ quần thể?

Lấy mẫu xác suất . Nó còn được gọi là lấy mẫu ngẫu nhiên

Phương pháp dân số trong thống kê là gì?

Trong thống kê, dân số là toàn bộ tập hợp các mục mà từ đó bạn lấy dữ liệu cho một nghiên cứu thống kê . Nó có thể là một nhóm các cá nhân, một tập hợp các mặt hàng, v.v. Nó tạo nên kho dữ liệu cho một nghiên cứu. Nói chung, dân số đề cập đến những người sống trong một khu vực cụ thể tại một thời điểm cụ thể.