1. Diễn đàn SEO chất lượng, rao vặt miễn phí có PA, DA cao: chuanmen.edu.vn | batdongsan24h.edu.vn | aiti.edu.vn | vnmu.edu.vn | dhtn.edu.vn
    Dismiss Notice
    • ĐT: 0939 713 069
    • Mail: tanbomarketing@gmail.com
    • Skype: dangtanbo.kiet
    Dismiss Notice

Phương pháp làm sạch dữ liệu bằng SPSS


* Okmen diễn đàn SEO miễn phí
* baophuc.vn Cong ty cửa tự động tại Tp HCM
* Cong ty cổng tự động tại Tp HCM
* Lắp cửa tự động – Cửa cổng tự động châu âu bảo hành 3 năm
* Công ty lắp đặt Cửa Tự Động, Cổng Tự Động tại thành phố Hồ Chí Minh
* Thi công lắp đặt cổng tự động tại hcm
* Đại lý cửa tự động tại Tp. Hồ Chí Minh nhập khẩu chính hãng
* Chuanmen Froum Diễn Đàn Marketing Online Việt Nam | Nơi Chia Sẻ Kiến Thức SEO
* Batdongsan24h Froum Diễn Đàn Rao Vặt, SEO Bất Động Sản Online Việt Nam
* HƯỚNG DẪN CÁCH LẤY MÃ CAPTCHA (ĐĂNG KÝ - ĐĂNG BÀI)

Thảo luận trong 'Rao vặt khác' bắt đầu bởi locph12, 14/9/21.

  1. locph12
    Offline

    locph12 admin

    Dữ liệu sau khi đã được nhập chưa thể đưa ngay vào xử lý, phân tích bởi có thể còn nhiều lỗi cần phải được loại bỏ do:

    • Chất lượng của việc khảo sát: người trả lời hiểu sai câu hỏi dẫn đến dữ liệu thu thập sai; người được khảo sát trả lời qua loa cho xong, không hợp tác để hoàn thành tốt cuộc phỏng vấn; người được khảo sát vì nhiều lý do hoàn thành không đầy đủ phiếu khảo sát; người thực hiện khảo sát ghi chép nhầm,…
    • Lỗi nhập liệu: trong quá trình nhập liệu kết quả từ phiếu khảo sát vào phần mềm, người nhập dữ liệu nhập thiếu, thừa hoặc sai dữ liệu.
    Các lỗi phát sinh có thể đến từ các lý do chủ quan hoặc lý do khách quan. Nếu có quá nhiều lỗi trong dữ liệu, các kết quả thống kê, phân tích sẽ không còn chính xác, thậm chí một số trường hợp lỗi dữ liệu khiến cho toàn bộ dữ liệu khảo sát bị hủy bỏ.

    [​IMG]

    Dưới đây là 2 phương pháp làm sạch dữ liệu phổ biến được các nhà nghiên cứu sử dụng để nhận diện các dữ liệu sai lệch, outlier.

    1. Dùng bảng tần số
    Lập bảng tần số cho tất cả các biến, đọc soát để tìm các giá trị lạ như ví dụ ở mục 3.1. Sau đó, tại các biến có dữ liệu lỗi, sử dụng lệnh tìm kiếm/thay thế Find and Replace để tìm giá trị lỗi và chỉnh sửa. Cách lập bảng tần số các bạn sẽ làm quen ở chương 4, còn cách thức dùng lệnh Find tìm giá trị lỗi tác giả sẽ trình bày ngay dưới đây.

    Ở giao diện Data View, nhấp chuột vào tên biến đầu cột để chọn cột biến có giá trị bị lỗi. Tác giả sẽ thực hành ví dụ với biến Giới tính:

    [​IMG]

    Có sự bất hợp lý ở đây khi biến Giới tính chỉ có 2 giá trị 1, 2 tương ứng với Nam, Nữ nhưng bảng thống kê tần số xuất hiện giá trị 3, 11, 12 và 1 giá trị Missing, cần rà soát lại các dữ liệu lỗi này. Sau khi chọn cột biến Giới tính, vào Edit > Find hoặc nhấn tổ hợp phím Ctrl + F để mở hộp thoại Find and Replace.

    [​IMG]

    Nhập giá trị 11 vào ô Find, nhấp nút Find Next thì vị trí của ô chứa giá trị lỗi 11 sẽ đổi sang màu vàng và các vùng khác sẽ có màu trắng mặc định.

    [​IMG]

    Dò ngược lại số thứ tự hàng, giá trị lỗi 11 vừa tìm được nằm ở hàng số 14, kiểm tra lại phiếu khảo sát số 14 và sửa giá trị lỗi. Nếu có nhiều giá trị 11, các bạn tiếp tục nhấn Find Next để tìm hết các lỗi và chỉnh sửa.

    2. Dùng bảng kết hợp
    Sử dụng bảng kết hợp 2, 3 biến rồi dựa vào các quan hệ hợp lý để tìm ra lỗi. Cách lập bảng kết hợp các bạn sẽ làm quen ở chương 4. Ví dụ như khi lập bảng kết hợp biến tuổi với học vấn, bạn phát hiện có trường hợp tuổi chỉ có 15 tuổi nhưng học vấn lại là sau đại học, tức là hoặc dữ liệu biến tuổi hoặc biến học vấn đã bị nhập sai. Để tìm và sửa lỗi, chúng ta sẽ sử dụng lệnh Select Case trong SPSS. Tác giả sẽ thực hành ví dụ bảng kết hợp giữa biến Độ tuổi và biến Học vấn:

    [​IMG]

    Nhận thấy rằng đang có sự bất hợp lý ở đây khi độ tuổi dưới 18 lại có trình độ học vấn trên đại học, cần kiểm tra lại dữ liệu lỗi này bằng lệnh Select Cases. Vào Data > Select Cases… Hộp thoại Select Cases xuất hiện.

    [​IMG]

    Tích chọn vào mục If condition is sastified, sau đó nhấp vào nút If… ngay bên dưới để mở hộp thoại điều kiện lọc.

    [​IMG]

    Nhập hàm vào khung điều kiện: DoTuoi=1 & HocVan=3 để lọc ra các trường hợp có độ tuổi dưới 18 và học vấn trên đại học. Trong đó DoTuoi, HocVan là tên biến được mã hóa trong file dữ liệu. Mức giá trị 1 của độ tuổi là “Dưới 18 tuổi”, mức giá trị 3 của học vấn là “Trên đại học”. Sau khi đã nhập hàm xong, tiếp tục nhấp vào nút Continue, sau đó chọn OK.

    [​IMG]

    [​IMG]

    Khi lệnh này được thực hiện, SPSS tạo ra một biến mới có tên filter_$, biến này nhận giá trị 0 tại tất cả các tình huống không thỏa mãn và nhận giá trị 1 tại các tình huống thỏa điều kiện của lệnh If, tức là tình huống có sai sót. Lưu ý, biến filter_$ chỉ là biến tạm, khi bạn thực hiện một lệnh Select Cases mới, biến này sẽ mất đi. Bên cạnh đó, các ô thứ tự hàng sẽ được gạch chéo tại các hàng không thỏa điều kiện (giá trị filter_$ là 0), các ô không có dấu gạch chéo nghĩa là hàng này thỏa điều kiện lọc (giá trị filter_$ là 1).

    [​IMG]

    Sau khi đã lọc ra được các hàng theo điều kiện, một vấn đề khác phát sinh đó là nếu số lượng hàng quá lớn thì việc tìm được hàng chứa giá trị lỗi (dòng có giá trị 1 ở cột filter_$ và không bị gạch chéo ô thứ tự hàng) sẽ rất mất thời gian và công sức. Lúc này, bạn cần sử dụng đến sự trợ giúp của lệnh Sort Case bằng cách vào Data > Sort Cases…

    [​IMG]

    Hộp thoại Sort Cases xuất hiện, đưa biến bạn muốn sắp xếp thứ tự vào khung Sort by. Cụ thể trong ví dụ này là biến filter_$. Chọn hình thức sắp xếp tăng dần (Ascending) hoặc giảm dần (Descending). Nếu sắp xếp giảm dần thì những hàng mang giá trị 1 sẽ ở trên cùng và ngược lại. Tiếp tục nhấp vào OK.

    [​IMG]

    Sau khi đã sắp xếp thứ tự giá trị của cột biến filter_$, tiến hành kiểm tra các hàng chứa giá trị nằm trong điều kiện lọc để tìm dữ liệu bị lỗi và chỉnh sửa.

    Cũng cần chú ý rằng, bất cứ khi nào đã thực hiện thành công lệnh Select Cases, bạn phải trở lại giao diện cửa số Select Cases và trả lại trạng thái dữ liệu bình thường All Case, nếu không các lệnh thống kê sau đó sẽ chỉ được thực hiện với những trường hợp được lọc.
     

    Lưu ý: Vui lòng đăng đúng chuyên mục để tránh bị ảnh hưởng khi bài viết bị xoá. Đồng thời bài viết nên có nhiều bình luận càng tốt để tránh ảnh hưởng vì vi phạm DMCA nếu sử dụng nội dung gốc.
    Nguồn: okmen.edu.vn
    Phụ trách truyền thông

    Công ty TNHH Thiết Bị Tự Động Bảo Phúc

    Hệ thống backlink miễn phí 70/500 tên miền edu.vn - Đăng ký ngay khi còn mở GET BACKLINK

Chia sẻ trang này