CHỌN MẪU XÁC SUẤT NHƯ THẾ NÀO ?

 

CHỌN MẪU XÁC SUẤT NHƯ THẾ NÀO ?

Nếu ở phần trước chúng ta đã biết tại sao phải chọn mẫu, sự hiệu quả của việc chọn mẫu trong nghiên cứu thì hôm nay chúng ta sẽ tìm hiểu hai phương pháp chọn mẫu tổng quát: chọn mẫu có tính xác suất (probability sampling) và chọn mẫu không có tính xác suất (non-probability sampling)

Mẫu xác suất là gì?

Chọn mẫu theo phương pháp xác suất có nghĩa chọn lựa hoàn toàn do sự ngẫu nhiên của việc rút thăm định đoạt và do đó không có thiên lệch do ý định chủ quan của con người. Ngẫu nhiên ở đây không có tính cách tình cờ. Một mẫu xác suất là mẫu trong đó có thể biết tính xác suất của việc chọn lựa từng trường hợp.

Các loại mẫu xác suất

1)    Mẫu ngẫu nhiên (random sampling):

Đây là loại mẫu xác suất thường gặp nhất, trong loại mẫu ngẫu nhiên mỗi một đơn vị trong toàn dân số đều có cơ hội ngang nhau để được chọn vào mẫu. Trong quá trình chọn mẫu ngẫu nhiên, người ta thường chỉ định mỗi trường hợp bằng một con số để sau đó có thể rút thăm một cách ngẫu nhiên, cũng có thể căn cứ trên các bảng số ngẫu nhiên (table of random numbers) hay trên các phần mềm SPSS.

Cụ thể hơn, đối với phương pháp này trước tiên người nghiên cứu cần lập danh sách các đơn vị của tổng thể chung theo một trật tự nào đó ví dụ như theo tên, theo quy mô hoặc theo địa chỉ,…và đánh số thứ tự vào danh sách; rồi dùng các phương pháp ngẫu nhiên như rút thăm, dùng bảng số ngẫu nhiên, dùng hàm random của máy tính để chọn ra từng đơn vị trong tổng thể chung vào mẫu.

Ưu điểm của phương pháp này là tránh được thiên lệch và cung cấp các phương tiện thống kê để đánh giá các sai lệch của việc chọn mẫu

Nhược điểm là đối với các mẫu lớn, việc chọn mẫu ngẫu nhiên là một công việc rất nặng nhọc, đòi hỏi nhiều công sức nếu không có máy tính hay phần mềm hỗ trợ.

2)    Mẫu hệ thống (systematic sample):

Đây là loại mẫu mà trong đó các trường hợp được chọn theo một khoảng cách nhất định, và thông thường trường hợp đầu tiên được chọn ngẫu nhiên. Trước tiên lập danh sách các đơn vị của tổng thể chung theo một trật tự quy ước nào đó, sau đó đánh số thứ tự các đơn vị trong danh sách. Đầu tiên chọn ngẫu nhiên 1 đơn vị trong danh sách; sau đó cứ cách đều k đơn vị lại chọn ra 1 đơn vị vào mẫu,…cứ như thế cho đến khi chọn đủ số đơn vị của mẫu. 

So với mẫu ngẫu nhiên, mẫu hệ thống lệ thuộc nhiều hơn vào sự chính xác của khung mẫu, nếu duy trì trật tự của khung mẫu có thể đưa đến các mẫu không có tính tương trưng. Ví dụ đối với danh bạ điện thoại hay những danh sách được sắp xếp theo bảng chữ cái, do đó trường hợp nhóm thiểu số thường tập trung lại thay vì phân tán một cách ngẫu nhiên nên dễ bị loại ra trong quá trình chọn mẫu. Tóm lại, việc chọn mẫu hệ thống đòi hỏi khung mẫu phải có tính cách ngẫu nhiên.

3)    Mẫu rút thăm tập trung từng chùm, từng nhóm (cluster sampling):

Phương pháp này có nghĩa là thay vì rút thăm từng đơn vị người ta rút thăm từng nhóm đơn vị, hay nói cách khác đơn vị mẫu là tập hợp các yếu tố. Người nghiên cứu sử dụng mẫu này khi chỉ có bản liệt kê từng nhom đơn vị chứ không có bản liệt kê từng đơn vị. Ví dụ, trong nghiên cứu sinh viên khi không thể có danh sách sinh viên chỉ có danh sách lớp, do đó sẽ chọn một số lớp rồi hỏi sinh viên trong lớp đã chọn.

Mẫu rút thăm từng chùm đôi khi còn được gọi là mẫu rút thăm khu vực (area sampling). Loại mẫu này thường được sử dụng khi không có thể hay không thực tế, vì việc xây dựng một khung mẫu trong đó các đơn vị mẫu và các yếu tố mẫu là một. Ví dụ, khi nghiên cứu trình độ văn hoá trung bình của nam giới ở một quận, người nghiên cứu có thể chọn mẫu qua nhiều giai đoạn: rút mẫu ngẫu nhiên về các khu vực trong quận, ròi hút thăm các phường, khu phố, hộ, rồi mưới đến những người nam giới cần nghiên cứu.

Ưu điểm của phương pháp này cho phép ta tiết kiệm thời gian và tiền bạc,

Hạn chế vì phải qua nhiều giai đoạn nên các sai lệch của mẫu sẽ cao lên. Do đó, người nghiên cứu phải quan tâm đến quy mô của mẫu và tính chính xác của mẫu không chỉ mojojt lần mà qua các giai đoạn của việc chọn mẫu từng chùm.

4)    Mẫu ngẫu nhiên theo phân lớp (stratified random sampling):

Đây là cách chọn mẫu theo đó giai đoạn đầu phải chia các đối tượng khảo sát ra thành các phân lớp, ví dụ: phân các sinh viên theo các khoa, giới tính, lứa tuổi,… Trong giai đoạn thứ hai, người ta sẽ dùng phương pháp rút thăm để chọn mẫu nghiên cứu. Không nên nhầm lẫn phương pháp này với phương pháp phân suất (quota sample).

Sự phân chia ra các phân lớp là một yếu tố không có tính cách ngẫu nhiên, nhưng trong giai đoạn rút thăm các đơn vị nghiên cứu thì sự lựa chọn này theo phương pháp ngẫu nhiên chứ không do điều tra viên quyết định.

Ví dụ trong số 1000 doanh nghiệp, số lượng các doanh nghiệp nhỏ nhiều hơn rất nhiều so với các doanh nghiệp lớn, vì vậy việc lựa chọn một con số bằng nhau (67) từ nhóm các công ty nhỏ, vừa và lớn sẽ làm cho các mẫu thu được thiếu đại diện cho toàn bộ 1.000 doanh nghiệp (tức là, thiên vị cho các công ty lớn khi tỉ lệ hiện diện của chúng trong mẫu cao hơn nhiều tỉ lệ của các doanh nghiệp nhỏ). Đây được gọi là lấy mẫu phân tầng phi tỷ lệ (non-proportional stratified sampling) vì tỷ lệ lấy mẫu trong mỗi nhóm không phản ánh tỷ lệ tổng thể khách thể nghiên cứu vì có trường hợp nhóm có số lượng ít hơn (ví dụ các công ty có quy mô lớn) được hiện diện trong mẫu quá nhiều.

Một kỹ thuật khác sẽ được thay thế bằng cách chọn số lượng các nhóm nhỏ tương ứng với tỉ lệ của chúng trong tổng số lượng khách thể nghiên cứu. Ví dụ, nếu có 100 doanh nghiệp lớn, 300 doanh nghiệp cỡ vừa và 600 doanh nghiệp nhỏ, thì 200 doanh nghiệp trong mẫu sẽ bao gồm 20 từ nhóm "lớn", 60 từ nhóm "trung bình" và 120 từ nhóm "nhỏ". Trong trường hợp này, sự phân phối tỷ lệ của các doanh nghiệp được giữ lại trong mẫu và vì thế kỹ thuật này được gọi là lấy mẫu phân tầng tỷ lệ (proportional stratified sampling).

Phương pháp này làm cho các đơn vị đối tượng trong mỗi phân lớp thuần nhất hơn, nghĩa là sự khác biệt giữa các đơn vị trong một phân lớp thì nhỏ hơn do với sự khác biệt giữa các phân lớp. Việc lựa chọn các phân lớp là tuỳ mục tiêu của người nghiên cứu, hay cũng có thể dựa trên các phân lớp có sẵn trong các tư liệu thống kê, hay dựa trên các phân lớp do các cuộc nghiên cứu thăm dò cung cấp.

Ưu điểm của phương pháp là cho phép ta tiết kiệm thời gian và tiền bạc, còn thấy dược sự tương quan giữa các biến số được phân lớp với nhau mà ta muốn tìm hiểu,.

Tóm lại các cách phân loại mẫu này không loại trừ nhau mà người nghiên cứu có thể phối hợp, ví dụ có thể phối hợp chọn mẫu theo phân lớp và chọn mẫu theo chùm. Trong trường hợp này, người ta tiến hành chọn các phân lớp trước rồi sau đó tiến hành chọn mẫu từng chùm với từng phân lớp.

Ở bài viết sau chúng ta sẽ cùng tìm hiểu về phương pháp chọn mẫu không có tính xác suất hay còn gọi là mẫu phi xác suất.

Nhận xét

Bài đăng phổ biến từ blog này

TẠI SAO PHẢI CHỌN MẪU ?

CRONBACH’S ALPHA LÀ GÌ?

GIỚI THIỆU VỀ POWER BI