Hướng dẫn remove outlier python
Nguồn ảnh Outliers (dữ liệu ngoại lai hay là nhiễu) là một trong những thuật ngữ được sử dụng rất rộng rãi trong thế giới data science. Trong quá trình xây dựng các mô hình dự đoán, việc xác định và loại bỏ outliers trong dữ liệu là một bước vô cùng quan trọng. Nó giúp tăng cao độ chính xác cho các mô hình dự đoán. Khi phân tích, chúng ta thường dùng các tham số như là Ở post này tôi sẽ giới thiệu với các bạn cách sử dụng 2 phương pháp thống kê trong R và Python để xác định và loại bỏ outliers trong dữ liệu đó là:
Và ở cuối post tôi sẽ hướng dẫn các bạn viết hàm tự động xác định và loại bỏ outliers từ dữ liệu sử dụng hai phương pháp trên. 1. Tạo dữ liệu để thực hành Để thực hành tôi sử dụng hàm mô phỏng phân phối chuẩn
Với Python thì ta thực hiện như sau: Trước hết cần nạp thư viện
Cụ thể về cách sử dụng thư viện Tạo dữ liệu trong python:
Trong dữ liệu được tạo ra từ phân phối chuẩn sẽ
có một số giá trị nằm cách xa giá trị trung bình Biểu diễn dữ liệu bằng histogam sử dụng hàm
Nhân tiện đây tôi cũng xin giới thiệu một số hàm hỗ trợ cho các tính toán thống kê trong R như: Hàm
Ví dụ sử dụng hàm
Ví dụ sử dụng hàm tính mật độ phân phối chuẩn
Tiếp theo ví dụ trên để ước tính xác suất học sinh có điểm tối thiểu là
Chức năng của các hàm R còn lại cũng như các hàm tương tự trong Python các bạn có thể tự tìm hiểu thêm. 2. Phương pháp STD Nếu như biết được rằng dữ liệu có dạng phân phối Trong phân phối
Vậy nên với dữ liệu dạng Các bước xác định outliers bằng phương pháp Bước 1: Tính
Bước 2: Tính giá trị biên
Bước 3: Xác định và loại bỏ
2. Phương pháp Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Tứ phân vị có
Giá trị Các bước xác định Bước 1: Tính
Bước 2: Tính giá trị biên
Bước 3: Xác định và loại bỏ
3. Xây dựng hàm tự động xác định và loại bỏ Chúng ta có thể tạo một hàm trên R dựa vào các bước ở trên để tự động xác định và xóa outliers như sau:
Tương tự ta có thể tạo hàm xác định
Kiểm tra kết quả thực hiện của hai hàm này:
Đối với Python thì các bạn có thể tạo hàm tương tự sử dụng các bước trên |