Các phương pháp làm sạch dữ liệu trong SPSS

Sau khi xử lí dữ liệu, công việc tiếp theo là làm sạch dữ liệu. Ba lần kiểm tra đơn giản dưới đây sẽ đủ:

Kiểm tra số lượng quan sát. Đôi khi dữ liệu là được nhập hai lần hoặc một điểm dữ liệu có thể bị bỏ qua. Trong ví dụ tại hình dưới đây, tần suất quan sát tại biến Gioitinh có số lượng là 11, trong khi tập dữ liệu có 10 quan sát. Điều đó có nghĩa rằng khả năng một điểm dữ liệu đã bị nhập hai lần, và bạn cần kiểm tra lại dữ liệu này và nhập lại.

Kiểm tra xem giá trị tối đa và tối thiểu, nếu dữ liệu của bạn có giới hạn này không. Ví dụ trong hình dưới đây [xem bảng tần suất], biến nhóm ngành [Nganh] sinh viên là một biến định danh, được mã hóa tương ứng [1 = Kinh tế; 2 = Cơ khí; 3 = Điện; 4 = CNTT], tức là phạm vi dữ liệu phải trong khoảng từ 1 đến 4. Tuy nhiên, một điểm số của 5 đã được tìm thấy trong biến ‘Nganh’ tại hàng thứ 6 cho biết một điểm dữ liệu bị lỗi.

Kiểm tra các trường hợp thiếu giá trị cho các biến. Các giá trị bị thiếu thường có chỉ báo của riêng chúng, chẳng hạn như dấu chấm [.] cho các giá trị số và một khoảng trống cho các giá trị ký tự. Trong hình dưới đây là một chỉ báo giá trị số bị thiếu trong SPSS. Bảng tần suất thể hiện một giá trị bị thiếu của biến ‘điểm cuối kì Toán’. Bạn cũng có thể nhận thấy giá trị số bị thiếu được chỉ báo bằng dấu [.] của biến DiemToan tại hàng thứ 5.

2. Xử lý dữ liệu bị thiếu

Các tập hợp dữ liệu lớn, đặc biệt nếu được thu thập bằng phương pháp bảng hỏi khảo sát, chắc chắn sẽ bị thiếu các giá trị dữ liệu. Tuy nhiên, vấn đề này không chỉ giới hạn trong nghiên cứu khảo sát. Trong các thiết kế thử nghiệm, người tham gia có thể trở nên mệt mỏi, buồn chán hoặc đơn giản là bất hợp tác. Nếu thiếu dữ liệu, nhà nghiên cứu phải quyết định phải làm gì.

Đầu tiên, bạn cần phân biệt rõ là liệu các phản hồi bị thiếu là ngẫu nhiên hay có hệ thống. Làm thế nào để bạn biết liệu dữ liệu bị thiếu có phải là ngẫu nhiên hay không? Về cơ bản, điều này liên quan đến việc xem xét kỹ lưỡng dữ liệu để xác định bất kỳ mô hình mẫu nào trong các giá trị bị thiếu. Không đơn giản chỉ là kiểm tra dữ liệu thô, bạn có thể vẽ một bảng giá trị bị thiếu [ký hiệu là ‘.’], giá trị hợp lệ [ký hiệu là ‘+’ trống] cho tất cả các cấp của biến khả nghi so với các biến quan tâm khác. Nếu không phát hiện bất kì mô hình mẫu nào, tức là không tìm thấy một quy tắc cho dữ liệu bị thiếu, thì dữ liệu bị thiếu là ngẫu nhiên.

Nếu dữ liệu bị thiếu có vẻ không phải là ngẫu nhiên thì những trường hợp thiếu dữ liệu đó nên được giữ lại để điều tra thêm. Nếu dữ liệu bị thiếu dường như là ngẫu nhiên thì tồn tại hai tùy chọn chung, ước tính giá trị bị thiếu hoặc xóa các trường hợp hoặc các biến cụ thể có dữ liệu bị thiếu.

Làm thế nào để bạn quyết định áp dụng chiến lược nào trong hai chiến lược này?

Quy trình triệt để nhất là loại bỏ bất kỳ trường hợp nào có dữ liệu bị thiếu. Đây là tùy chọn mặc định trong nhiều chương trình thống kê. Nếu dữ liệu bị thiếu nằm rải rác ngẫu nhiên trong các trường hợp và biến, việc giảm một số lượng lớn các trường hợp với bất kỳ dữ liệu bị thiếu nào có thể dẫn đến mất một lượng lớn dữ liệu. Hậu quả của các trường hợp mất dữ liệu nghiêm trọng hơn trong một số thiết kế nghiên cứu, ví dụ, thiết kế thử nghiệm cân bằng với số lượng đối tượng nhỏ, hơn là trong các thiết kế khảo sát lớn trong đó biên độ cho mất dữ liệu là được thiết kế vào chiến lược lấy mẫu. Trong những trường hợp này, có thể tốt hơn là ước tính các giá trị còn thiếu miễn là hợp lý.

Nên xóa các trường hợp khi chỉ một vài trường hợp bị thiếu dữ liệu. Xóa biến nhưng giữ lại các trường hợp là một giải pháp thay thế nhưng nói chung chỉ phù hợp khi biến không quan trọng đối với phân tích.

Một giải pháp thay thế khác với xóa trường hợp hoặc loại bỏ biến là thay thế các giá trị bị thiếu bằng ‘ước lượng tốt nhất’. Nói chung, có năm tùy chọn khác nhau về mức độ tinh chỉnh này. Những giá trị này thay thế một giá trị bị thiếu bằng:

một giá trị phỏng đoán tốt nhất;
Một giá trị trung bình tổng thể cho biến đó;
một giá trị trung bình nhóm xác đáng, thích hợp;
một phương trình hồi quy dựa trên dữ liệu đầy đủ để dự đoán các giá trị còn thiếu;
một cách tiếp cận tổng quát dựa trên hàm sác xuất xảy ra.

Lời khuyên khi sử dụng từng tùy chọn này là: [1] Hoàn toàn không sử dụng. [2] và [3] không sử dụng với dữ liệu nhị phân. Ví dụ: nếu biến giới tính được mã hóa là 0 cho nan và 1 cho nữ, sẽ không hợp lý khi thay thế một trung bình. Việc sử dụng giá trị trung bình tổng thể cho một biến làm giảm sự biến thiên [phương sai] của biến đó, đặc biệt nếu thiếu một lượng lớn dữ liệu. Điều này là do giá trị trung bình được thay thế gần với chính nó hơn giá trị bị thiếu [trừ khi giá trị bị thiếu là cùng giá trị với giá trị trung bình tổng thể]. Việc giảm sự biến thiên của một biến có tác động làm giảm mối tương quan giữa biến đó với các biến khác. Điều này có thể có tác động đáng kể trong một số thủ tục thống kê như phân tích nhân tố. Tùy chọn [4] chỉ hữu ích khi các biến khác trong tập dữ liệu có khả năng dự đoán [các] biến có giá trị bị thiếu, biến phụ thuộc. Nếu không có biến độc lập [dự báo] phù hợp thì sử dụng phương án [2] hoặc [3] có lẽ là tốt nhất. Cuối cùng, tùy chọn [5] khá phức tạp và nói chung là không cần thiết. Nó sử dụng thuật toán hai bước lặp lại, kỳ vọng, tối đa hóa để lấy các ước tính khả năng xảy ra tối đa cho các giá trị không đầy đủ.

Các bước làm sạch dữ liệu là điều kiện tiên quyết cần thiết để tiến hành mô tả dữ liệu và phân tích tiếp theo. Mặc dù vậy, nó là một chủ đề bị bỏ quên và được coi là điều hiển nhiên trong hầu hết các sách thống kê. Bất kỳ lỗi dữ liệu nào do lỗi xử lý hoặc các giá trị nằm ngoài phạm vi được ghi lại sẽ làm cho phân tích sau đó không hợp lệ.

Tài liệu tham khảo

Coolican, H. [2018]. Research methods and statistics in psychology. Routledge.
Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. [2012]. Basic statistics for social research [Vol. 38]. John Wiley & Sons.
Jackson, S. L. [2015]. Research methods and statistics: A critical thinking approach. Cengage Learning.
McQueen, R. A., & Knussen, C. [2006]. Introduction to research methods and statistics in psychology. Pearson education.
Peers, I. [2006]. Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
Wagner III, W. E. [2019]. Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.

09/01/2018TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HCMKHOA QUẢN TRỊ - KINH DOANHCHƯƠNG II:LÀM SẠCH DỮ LIỆUFBATRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HCMKHOA QUẢN TRỊ - KINH DOANHCHƯƠNG 2: LÀM SẠCH DỮ LIỆU2.1 LÝ DO2.2 CÁC BIỆN PHÁP NGĂN NGỪA2.3 CÁC PHƯƠNG PHÁP LÀM SẠCH DỮ LIỆU2.3.1 DÙNG BẢNG TẦN SỐ2.3.2 DÙNG BẢNG PHỐI HỢP HAI BIẾN HAY BA BIẾN[BASIC OR GERERAL]TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HCMKHOA QUẢN TRỊ - KINH DOANHCHƯƠNG 2: LÀM SẠCH DỮ LIỆU2.1 LÝ DO Chất lượng của phỏng vấn và đọc soát Nhập liệu sai, sót, thừa109/01/2018TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HCMKHOA QUẢN TRỊ - KINH DOANHCHƯƠNG 2: LÀM SẠCH DỮ LIỆU2.1 CÁC BIỆN PHÁP NGĂN NGỪA Thiết kế bảng câu hỏi rõ ràng. Chọn lọc và huấn luyện phỏng vấn viên kỹ lưỡng.Điều tra thử trước khi tiến hành chính thức. Bảng câu hỏi sau khi phỏng vấn phải được đọckiểm soát lỗi trước khi tiến hành nhập liệu. Việc mã hóa phải tiến hành tập trung và nhất quánvới chuyên gia nhập liệu.TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HCMKHOA QUẢN TRỊ - KINH DOANHCHƯƠNG 2: LÀM SẠCH DỮ LIỆU2.3 Các phương pháp làm sạch dữ liệu2.3.1 Dùng bảng tần sốĐể tìm các lỗi dữ liệu bị nhầm, ta có thể lập bảng tầnsố để tìm dữ liệu sai sót để sửa.Thực hiện: từ cửa sổ Data view AnalyzeDescriptive Statistics  chọn Frequencies  Hộpthoại.Thí dụ: Minh họa bằng data lamsachdulieu.savTRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HCMKHOA QUẢN TRỊ - KINH DOANHCHƯƠNG 2: LÀM SẠCH DỮ LIỆU2.3 Các phương pháp làm sạch dữ liệu2.3.1 Dùng bảng tần số209/01/2018TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HCMKHOA QUẢN TRỊ - KINH DOANHCHƯƠNG 2: LÀM SẠCH DỮ LIỆU2.3 Các phương pháp làm sạch dữ liệu2.3.2 Dùng bảng tần số phối hợp 2 biến hay 3 biến.Thực hiện: từ cửa sổ Data view Analyze DescriptiveStatistics  chọn Frequencies  Hộp thoại.IS- Bước 1: Vào Data  Select Cases..., khi màn hình hiện ra hộp thoạithì ta chọn If Condition is satisfied để nút If hiện ra và ấn vào- Bước 2: Chọn biến Tuoi và biến NgheNghiep bên trái để đưa vàokhung bên phải với điều kiện logic bao=8 & NgheNghiep="2“tiếp đóấn Continue và ấn tiếp OK.- Bước 3: Khi lệnh này được thực hiện, SPSS sẽ tạo ra một biến mới làfilter_$, biến này nhận giá trị 0 tại tất cả các tình huống không thỏamãn và 1 tại tình huống thỏa mãn điều kiện của lệnh If. Những giá trịlà 1 trong biến filter_$ chính là những trường hợp sai mà ta cần tìm đểsửa.- Thí dụ: Minh họa bằng data lamsachdulieu.savTRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HCMKHOA QUẢN TRỊ - KINH DOANHCHƯƠNG 2: LÀM SẠCH DỮ LIỆU2.3 Các phương pháp làm sạch dữ liệu2.3.2 Dùng bảng tần số phối hợp 2 biến hay 3 biến.Chuyển 1 biến dạng phân loại [Category] thành dạngbiến lưỡng phân [Dichotomy]Chuyển 1 biến dạng phân loại [Category] thành dạngbiến lưỡng phân [Dichotomy] Được dùng khi gặp câuhỏi có nhiều trả lới [MA] để tập hợp một thông tinchứa trong các câu trả lời, muốn vậy cần tạo một biếnvới 2 biểu hiện: 1 có thông tin và 0 không có thông tin,đếm 1 sẽ có được thông tin cần quan tâm; cách tiếnhành:Vào Transform \ count. Thí dụ minh họa “baosggp”.3

2. Xử lý dữ liệu bị thiếu

Tài liệu tham khảo

Video liên quan

Bài Viết Liên Quan

Toplist mới

Bài mới nhất

Chủ Đề