CHỌN MẪU XÁC SUẤT NHƯ THẾ NÀO ?
CHỌN
MẪU XÁC SUẤT NHƯ THẾ NÀO ?
Nếu ở phần trước chúng ta đã biết tại sao phải chọn mẫu,
sự hiệu quả của việc chọn mẫu trong nghiên cứu thì hôm nay chúng ta sẽ tìm hiểu
hai phương pháp chọn mẫu tổng quát: chọn mẫu có tính xác suất (probability
sampling) và chọn mẫu không có tính xác suất (non-probability sampling)
Mẫu xác suất là gì?
Chọn mẫu theo phương pháp xác suất có nghĩa chọn lựa
hoàn toàn do sự ngẫu nhiên của việc rút thăm định đoạt và do đó không có thiên
lệch do ý định chủ quan của con người. Ngẫu nhiên ở đây không có tính cách tình
cờ. Một mẫu xác suất là mẫu trong đó có thể biết tính xác suất của việc chọn lựa
từng trường hợp.
Các loại mẫu xác suất
1) Mẫu
ngẫu nhiên (random sampling):
Đây là loại mẫu xác
suất thường gặp nhất, trong loại mẫu ngẫu nhiên mỗi một đơn vị trong toàn dân số
đều có cơ hội ngang nhau để được chọn vào mẫu. Trong quá trình chọn mẫu ngẫu
nhiên, người ta thường chỉ định mỗi trường hợp bằng một con số để sau đó có thể
rút thăm một cách ngẫu nhiên, cũng có thể căn cứ trên các bảng số ngẫu nhiên
(table of random numbers) hay trên các phần mềm SPSS.
Cụ thể hơn, đối với phương pháp này trước
tiên người nghiên cứu cần lập danh sách các đơn vị của tổng thể chung theo một
trật tự nào đó ví dụ như theo tên, theo quy mô hoặc theo địa chỉ,…và đánh số thứ
tự vào danh sách; rồi dùng các phương pháp ngẫu nhiên như rút thăm, dùng bảng số
ngẫu nhiên, dùng hàm random của máy tính để chọn ra từng đơn vị trong tổng thể
chung vào mẫu.
Ưu điểm
của phương pháp này là tránh được thiên lệch và cung cấp các phương tiện thống
kê để đánh giá các sai lệch của việc chọn mẫu
Nhược điểm
là đối với các mẫu lớn, việc chọn mẫu ngẫu nhiên là một công việc rất nặng nhọc,
đòi hỏi nhiều công sức nếu không có máy tính hay phần mềm hỗ trợ.
2) Mẫu
hệ thống (systematic sample):
Đây là loại mẫu mà
trong đó các trường hợp được chọn theo một khoảng cách nhất định, và thông thường
trường hợp đầu tiên được chọn ngẫu nhiên. Trước tiên lập danh sách các đơn vị của
tổng thể chung theo một trật tự quy ước nào đó, sau đó đánh số thứ tự các đơn vị
trong danh sách. Đầu tiên chọn ngẫu nhiên 1 đơn vị trong danh sách; sau đó cứ
cách đều k đơn vị lại chọn ra 1 đơn vị vào mẫu,…cứ như thế cho đến khi chọn đủ
số đơn vị của mẫu.
So với mẫu ngẫu
nhiên, mẫu hệ thống lệ thuộc nhiều hơn vào sự chính xác của khung mẫu, nếu
duy trì trật tự của khung mẫu có thể đưa đến các mẫu không có tính tương trưng.
Ví dụ đối với danh bạ điện thoại hay những danh sách được sắp xếp theo bảng chữ
cái, do đó trường hợp nhóm thiểu số thường tập trung lại thay vì phân tán một cách
ngẫu nhiên nên dễ bị loại ra trong quá trình chọn mẫu. Tóm lại, việc chọn mẫu hệ
thống đòi hỏi khung mẫu phải có tính cách ngẫu nhiên.
3) Mẫu
rút thăm tập trung từng chùm, từng nhóm (cluster sampling):
Phương pháp này có
nghĩa là thay vì rút thăm từng đơn vị người ta rút thăm từng nhóm đơn vị, hay nói
cách khác đơn vị mẫu là tập hợp các yếu tố. Người nghiên cứu sử dụng mẫu này
khi chỉ có bản liệt kê từng nhom đơn vị chứ không có bản liệt kê từng đơn vị. Ví
dụ, trong nghiên cứu sinh viên khi không thể có danh sách sinh viên chỉ có danh
sách lớp, do đó sẽ chọn một số lớp rồi hỏi sinh viên trong lớp đã chọn.
Mẫu rút thăm từng
chùm đôi khi còn được gọi là mẫu rút thăm khu vực (area sampling). Loại mẫu này
thường được sử dụng khi không có thể hay không thực tế, vì việc xây dựng một
khung mẫu trong đó các đơn vị mẫu và các yếu tố mẫu là một. Ví dụ, khi nghiên cứu
trình độ văn hoá trung bình của nam giới ở một quận, người nghiên cứu có thể chọn
mẫu qua nhiều giai đoạn: rút mẫu ngẫu nhiên về các khu vực trong quận, ròi hút thăm
các phường, khu phố, hộ, rồi mưới đến những người nam giới cần nghiên cứu.
Ưu điểm của
phương pháp này cho phép ta tiết kiệm thời gian và tiền bạc,
Hạn chế là
vì phải qua nhiều giai đoạn nên các sai lệch của mẫu sẽ cao lên. Do đó, người
nghiên cứu phải quan tâm đến quy mô của mẫu và tính chính xác của mẫu không chỉ
mojojt lần mà qua các giai đoạn của việc chọn mẫu từng chùm.
4) Mẫu
ngẫu nhiên theo phân lớp (stratified random sampling):
Đây là cách chọn mẫu
theo đó giai đoạn đầu phải chia các đối tượng khảo sát ra thành các phân lớp, ví
dụ: phân các sinh viên theo các khoa, giới tính, lứa tuổi,… Trong giai đoạn thứ
hai, người ta sẽ dùng phương pháp rút thăm để chọn mẫu nghiên cứu. Không nên nhầm
lẫn phương pháp này với phương pháp phân suất (quota sample).
Sự phân chia ra các
phân lớp là một yếu tố không có tính cách ngẫu nhiên, nhưng trong giai đoạn rút
thăm các đơn vị nghiên cứu thì sự lựa chọn này theo phương pháp ngẫu nhiên chứ
không do điều tra viên quyết định.
Ví dụ trong số 1000 doanh nghiệp, số
lượng các doanh nghiệp nhỏ nhiều hơn rất nhiều so với các doanh nghiệp lớn, vì
vậy việc lựa chọn một con số bằng nhau (67) từ nhóm các công ty nhỏ, vừa và lớn
sẽ làm cho các mẫu thu được thiếu đại diện cho toàn bộ 1.000 doanh nghiệp (tức
là, thiên vị cho các công ty lớn khi tỉ lệ hiện diện của chúng trong mẫu cao
hơn nhiều tỉ lệ của các doanh nghiệp nhỏ). Đây được gọi là lấy mẫu phân tầng
phi tỷ lệ (non-proportional stratified sampling) vì tỷ lệ lấy mẫu trong
mỗi nhóm không phản ánh tỷ lệ tổng thể khách thể nghiên cứu vì có trường hợp
nhóm có số lượng ít hơn (ví dụ các công ty có quy mô lớn) được hiện diện trong
mẫu quá nhiều.
Một kỹ thuật khác sẽ được thay thế bằng
cách chọn số lượng các nhóm nhỏ tương ứng với tỉ lệ của chúng trong tổng số lượng
khách thể nghiên cứu. Ví dụ, nếu có 100 doanh nghiệp lớn, 300 doanh nghiệp cỡ vừa
và 600 doanh nghiệp nhỏ, thì 200 doanh nghiệp trong mẫu sẽ bao gồm 20 từ nhóm
"lớn", 60 từ nhóm "trung bình" và 120 từ nhóm "nhỏ".
Trong trường hợp này, sự phân phối tỷ lệ của các doanh nghiệp được giữ lại
trong mẫu và vì thế kỹ thuật này được gọi là lấy mẫu phân tầng tỷ lệ
(proportional stratified sampling).
Phương pháp này làm cho các đơn vị đối
tượng trong mỗi phân lớp thuần nhất hơn, nghĩa là sự khác biệt giữa các đơn vị
trong một phân lớp thì nhỏ hơn do với sự khác biệt giữa các phân lớp. Việc lựa
chọn các phân lớp là tuỳ mục tiêu của người nghiên cứu, hay cũng có thể dựa trên
các phân lớp có sẵn trong các tư liệu thống kê, hay dựa trên các phân lớp do các
cuộc nghiên cứu thăm dò cung cấp.
Ưu điểm của phương pháp là cho phép ta tiết kiệm thời
gian và tiền bạc, còn thấy dược sự tương quan giữa các biến số được phân lớp với
nhau mà ta muốn tìm hiểu,.
Tóm lại các cách phân loại mẫu này không
loại trừ nhau mà người nghiên cứu có thể phối hợp, ví dụ có thể phối hợp chọn mẫu
theo phân lớp và chọn mẫu theo chùm. Trong trường hợp này, người ta tiến hành chọn
các phân lớp trước rồi sau đó tiến hành chọn mẫu từng chùm với từng phân lớp.
Ở bài viết sau chúng ta sẽ cùng tìm hiểu về phương
pháp chọn mẫu không có tính xác suất hay còn gọi là mẫu phi xác suất.
Nhận xét
Đăng nhận xét