Data sạch là gì


Làm sạch dữ liệu là một hoạt động không thể thiếu trong quá trình nghiên cứu nhằm loại bỏ những “lỗi” ở bộ số liệu trước khi đưa vào phân tích. Đơn cử trường hợp tại câu hỏi về giới tính thông tin được điền là nam nhưng câu hỏi liên quan phía sau được trả lời là có tham gia hội phụ nữ. Thông thường, phụ nữ mới có thể trở thành thành viên hội phụ nữ; như vậy ở đây, khả năng sẽ là tối thiểu một trong hai câu ở trên bị sai thông tin. Hoặc ví dụ khác, câu hỏi về giới tính chỉ mặc định 2 phương án: 1. Nữ; 2. Nam, nhưng trong bảng nhập liệu được nhập là 3. Tất cả những vấn đề đó cần phải xem lại để chỉnh sửa hoặc loại bỏ nhằm gia tăng tính logic, khoa học và thuyết phục của bộ số liệu. Có những lỗi tưởng chứng như đơn giản nhưng nếu chúng ta bỏ qua và vô tình đưa vào bộ số liệu nếu bị phát hiện thì trông thật ngớ ngẩn.

Có hai thời điểm quan trọng để tiến hành làm sạch số liệu là trước và sau khi nhập liệu. Bài viết này chỉ dẫn một số thao tác làm sạch số liệu cơ bản từ bộ số liệu sau khi nhập. Quá trình làm sạch dữ liệu gồm 3 bước: phát hiện, kiểm tra, sửa lỗi.

Bước 1, phát hiện, cơ bản nhất có 3 cách:

- Cách thứ nhất, chạy bảng tần suất để kiểm tra những bất thường trong bộ số liệu. Ví dụ: 

Với ví dụ trên, phương án 3 và 13 là những dấu hiệu bất thường -> cần kiểm tra

- Cách thứ hai, chạy bảng crosstabs, ví dụ:

Ở ví dụ trên, những người sinh năm 2010, 2011, 2012 – tức là so với thời điểm hiện tại [năm 2018] thì độ tuổi tương tự là 8, 7, 6 nhưng đã có con [thậm chí có 2 con], điều này là bất thường -> cần kiểm tra.

- Cách thứ ba, kiểm tra giữa 2 lần nhập [cách này chỉ sử dụng cho bảng hỏi nhập 2 lần]. Thông thường việc nhập bảng hỏi 2 lần để so sánh là yêu cầu bắt buộc đối với những bộ số liệu đòi hỏi độ chính xác cao. Epidata là chương trình nhập liệu thích hợp cho cách thứ ba này. Trong Epidata, sau khi dùng lệnh Validate Duplicate Files để đưa 2 file dữ liệu vào, chương trình sẽ đưa ra kết quả 2 cột thông báo đối với những bảng hỏi không khớp nhau -> cần kiểm tra.

Bước 2, kiểm tra:

Đối với ví dụ 1,

Sau khi phát hiện lỗi, chúng ta kiểm tra lỗi nằm ở bảng hỏi nào, các cách để tìm kiếm:

Vào Edit, chọn find, hoặc bấm tổ hợp phím Ctrl F. Đánh giá trị bất thường, chẳng hạn 3 và 13 ở ví dụ 1, sau đó gióng sang mã phiếu câu hỏi.

Hoặc có thể sử dụng lệnh Sort Cases. Với lệnh này, chương trình sẽ sắp xếp theo thứ tự từ cao lên thấp, những giá trị khác với biến mặc định sẽ là bất thường.

Đối với ví dụ 2,

Vào Data, chọn Select Case, chon If. Giao diện hiện ra, đưa hàm lệnh tuổi=15&số con =3. Continue => OK. Chương trình sẽ gạch chéo hết những ô không phải đúng với điều kiện trên.

Đồng thời sẽ xuất hiện 1 câu khác ở phía cuối [kéo thanh ngang chạy về cuối] có tên là filter_$. Những câu không thoả mãn với điều kiện [tuổi=15 và con=3] và bị gạch chéo sẽ nhận giá trị 0. Còn những câu thoả mãn với điều kiện nhận giá trị 1. Như vậy những câu nhận giá trị 1 là câu có lỗi. Tiếp tục tìm kiếm câu có lỗi theo cách như ở ví dụ 1 nêu trên.

Bước 3, sửa lỗi

Những bảng hỏi có vấn đề sau khi tìm kiếm cần được xác định lỗi ở đâu để tiến hành sửa chữa. Quy trình sửa chữa thật đơn giản khi số liệu sai, thiếu logic chỉ là do lỗi nhập liệu, việc sửa chữa chỉ là sai ở đâu sửa ở đấy. Điều khó khăn sẽ xảy ra khi việc nhập liệu là hoàn toàn chính xác nhưng vẫn tồn tại thông tin sai, thiếu logic. Trong trường hợp này, đòi hỏi người thực hiện việc làm sạch phải giàu kinh nghiệm về nghiên cứu và có tư duy tổng hợp logic tốt. Với những thông tin thiếu/để trống sai, có mâu thuẫn, quyết định sửa chữa hay không đều phải tuân thủ nguyên tắc là chỉ thay đổi thông tin khi chắc chắn thông tin đó là chính xác và kiểm chứng được, đối với trường hợp không chắc chắn thì để trống. Với những thông tin sai/thiếu logic, người làm sạch cần dựa vào hàng loạt thông tin khác trong bảng hỏi, thông tin được sửa chữa cần đảm bảo phù hợp logic.

Tóm lại, làm sạch dữ liệu là hoạt động bắt buộc đối với nghiên cứu phân tích dựa trên số liệu thực chứng. Quy trình làm sạch đòi hỏi người thực hiện phải có kinh nghiệm nghiên cứu dự án, phân tích dữ liệu và đặc biệt là cần có tính kiên trì chịu khó khi gặp bộ số liệu có số lượng biến hoặc số lượng trường hợp nghiên cứu nhiều. Số liệu nghiên cứu càng giảm được thông tin thiếu, thông tin không logic thì càng đảm bảo tính khoa học, nhất quán.

Chủ Đề