Hướng dẫn how do you detect and remove outliers in python? - làm thế nào để bạn phát hiện và loại bỏ các ngoại lệ trong python?
Một ngoại lệ là một mục/đối tượng dữ liệu/đối tượng lệch đáng kể so với phần còn lại của các đối tượng (được gọi là bình thường). Chúng có thể được gây ra bởi các lỗi đo lường hoặc thực hiện. Phân tích để phát hiện ngoại lệ được gọi là khai thác ngoại lệ. Có nhiều cách để phát hiện các ngoại lệ và quy trình loại bỏ là khung dữ liệu giống như xóa mục dữ liệu khỏi khung dữ liệu Panda. Show
Ở đây, khung dữ liệu PANDAS được sử dụng cho một cách tiếp cận thực tế hơn vì trong dự án trong thế giới thực cần phát hiện các ngoại lệ khơi dậy trong bước phân tích dữ liệu, cách tiếp cận tương tự có thể được sử dụng trên danh sách và các đối tượng loại chuỗi. Dataset:Bộ dữ liệu được sử dụng là bộ dữ liệu nhà ở Boston vì nó được tải sẵn trong thư viện Sklearn. Python3
Output: Output: một phần của bộ dữ liệu Phát hiện các ngoại lệCác ngoại lệ có thể được phát hiện bằng cách sử dụng trực quan hóa, thực hiện các công thức toán học trên tập dữ liệu hoặc sử dụng phương pháp thống kê. Tất cả những điều này được thảo luận dưới đây. & NBSP; 1. Trực quan hóa& nbsp; Ví dụ 1: Sử dụng biểu đồ hộpExample 1: Using Box Plot Nó ghi lại bản tóm tắt dữ liệu một cách hiệu quả và hiệu quả chỉ với một hộp và râu ria đơn giản. Boxplot tóm tắt dữ liệu mẫu bằng tỷ lệ phần trăm thứ 25, 50 và 75. Người ta chỉ có thể nhận được những hiểu biết (tứ phân, trung bình và ngoại lệ) vào bộ dữ liệu bằng cách chỉ nhìn vào boxplot của nó. Python3
Output:: BoxPlot- Dis Cột Trong biểu đồ trên, có thể thấy rõ rằng các giá trị trên 10 đang đóng vai trò là ngoại lệ. Python3
Output: Chỉ số ngoại lệ Ví dụ 2: Sử dụng Scatterplot.ScatterPlot. Nó được sử dụng khi bạn đã ghép nối dữ liệu số hoặc khi biến phụ thuộc của bạn có nhiều giá trị cho mỗi biến độc lập đọc hoặc khi cố gắng xác định mối quan hệ giữa hai biến. Trong quá trình sử dụng biểu đồ phân tán, người ta cũng có thể sử dụng nó để phát hiện ngoại lệ. Để vẽ sơ đồ biểu đồ phân tán, người ta yêu cầu hai biến có liên quan đến nhau. Vì vậy, ở đây, tỷ lệ các mẫu kinh doanh phi bán lẻ trên mỗi thị trấn và tỷ lệ thuế tài sản có giá trị đầy đủ trên 10.000 đô la được sử dụng có tên cột là tên của Indus Indus và và thuế. Python3
Output:: Cốt truyện phân tán Nhìn vào biểu đồ có thể tóm tắt rằng hầu hết các điểm dữ liệu nằm ở góc dưới bên trái của biểu đồ nhưng có một vài điểm chính xác, đối diện đó là góc trên bên phải của biểu đồ. Những điểm ở góc trên cùng bên phải có thể được coi là ngoại lệ. Sử dụng xấp xỉ có thể nói tất cả những điểm dữ liệu là x> 20 và y> 600 là ngoại lệ. Mã sau đây có thể lấy vị trí chính xác của tất cả những điểm thỏa mãn các điều kiện này. & NBSP; Python3
Output:: Chỉ số ngoại lệ Ví dụ 2: Sử dụng Scatterplot.Nó được sử dụng khi bạn đã ghép nối dữ liệu số hoặc khi biến phụ thuộc của bạn có nhiều giá trị cho mỗi biến độc lập đọc hoặc khi cố gắng xác định mối quan hệ giữa hai biến. Trong quá trình sử dụng biểu đồ phân tán, người ta cũng có thể sử dụng nó để phát hiện ngoại lệ.
Python3
Cốt truyện phân tán Nhìn vào biểu đồ có thể tóm tắt rằng hầu hết các điểm dữ liệu nằm ở góc dưới bên trái của biểu đồ nhưng có một vài điểm chính xác, đối diện đó là góc trên bên phải của biểu đồ. Những điểm ở góc trên cùng bên phải có thể được coi là ngoại lệ.
Output:: Sử dụng xấp xỉ có thể nói tất cả những điểm dữ liệu là x> 20 và y> 600 là ngoại lệ. Mã sau đây có thể lấy vị trí chính xác của tất cả những điểm thỏa mãn các điều kiện này. & NBSP; 2. Điểm Z. Z- điểm cũng được gọi là điểm tiêu chuẩn. Giá trị/điểm số này giúp hiểu rằng điểm dữ liệu từ giá trị trung bình là bao xa. Và sau khi thiết lập giá trị ngưỡng, người ta có thể sử dụng các giá trị điểm Z của các điểm dữ liệu để xác định các ngoại lệ. Python3ZScore = (data_point -mean) / std. sai lệch
Output: Chỉ số ngoại lệ Ví dụ 2: Sử dụng Scatterplot.Nó được sử dụng khi bạn đã ghép nối dữ liệu số hoặc khi biến phụ thuộc của bạn có nhiều giá trị cho mỗi biến độc lập đọc hoặc khi cố gắng xác định mối quan hệ giữa hai biến. Trong quá trình sử dụng biểu đồ phân tán, người ta cũng có thể sử dụng nó để phát hiện ngoại lệ.
Python3
Cốt truyện phân tán Nhìn vào biểu đồ có thể tóm tắt rằng hầu hết các điểm dữ liệu nằm ở góc dưới bên trái của biểu đồ nhưng có một vài điểm chính xác, đối diện đó là góc trên bên phải của biểu đồ. Những điểm ở góc trên cùng bên phải có thể được coi là ngoại lệ. Cốt truyện phân tán
Output: Để xác định giá trị cơ sở ngoại lệ được xác định ở trên và bên dưới các bộ dữ liệu phạm vi bình thường là giới hạn trên và dưới, xác định giới hạn trên và giới hạn dưới (giá trị 1.5*IQR được xem xét):
Trong công thức trên như theo thống kê, việc tăng 0,5 của IQR (new_iqr = IQR + 0,5*IQR) được thực hiện, để xem xét tất cả dữ liệu giữa độ lệch chuẩn 2.7 trong phân phối Gaussian. Python3‘
Các
Output: Giới hạn được xác định và chỉ mục ngoại lệ tương ứng với giới hạn Loại bỏ các ngoại lệĐể loại bỏ ngoại lệ, người ta phải tuân theo cùng một quá trình xóa một mục từ bộ dữ liệu bằng cách sử dụng vị trí chính xác của nó trong tập dữ liệu vì trong tất cả các phương thức phát hiện kết quả cuối cùng của Outliers là danh sách tất cả các mục dữ liệu đáp ứng định nghĩa ngoại lệ Theo phương pháp được sử dụng. Tài liệu tham khảo: Làm thế nào để xóa chính xác một hàng trong Python?
Mã trên có thể được sử dụng để thả một hàng từ bộ dữ liệu cho ROW_INDEXES bị loại bỏ. Trong đặt = true được sử dụng để nói với Python để thực hiện thay đổi cần thiết trong bộ dữ liệu gốc. ROW_INDEX chỉ có thể là một giá trị hoặc danh sách các giá trị hoặc mảng numpy nhưng nó phải là một chiều. & nbsp; Example:
Mã đầy đủ: Phát hiện các ngoại lệ bằng IQR và xóa chúng.: Detecting the outliers using IQR and removing them. Python3
Is Các
Output:: Làm thế nào để bạn phát hiện các ngoại lệ trong một tập dữ liệu trong Python?Tìm kiếm các ngoại lệ bằng các phương pháp thống kê bằng IQR, các điểm dữ liệu ngoại lệ là các phương pháp giảm xuống dưới Q1 Tiết1.5 IQR hoặc trên Q3 + 1.5 IQR. Q1 là phần trăm thứ 25 và Q3 là phần trăm thứ 75 của bộ dữ liệu và IQR đại diện cho phạm vi liên vùng được tính toán bởi Q3 trừ Q1 (Q3, Q1).Using the IQR, the outlier data points are the ones falling below Q1–1.5 IQR or above Q3 + 1.5 IQR. The Q1 is the 25th percentile and Q3 is the 75th percentile of the dataset, and IQR represents the interquartile range calculated by Q3 minus Q1 (Q3–Q1).
Làm thế nào các ngoại lệ có thể được phát hiện và loại bỏ?Chúng có thể được gây ra bởi các lỗi đo lường hoặc thực hiện. Phân tích để phát hiện ngoại lệ được gọi là khai thác ngoại lệ. Có nhiều cách để phát hiện các ngoại lệ và quy trình loại bỏ là khung dữ liệu giống như xóa mục dữ liệu khỏi khung dữ liệu của Panda.the removal process is the data frame same as removing a data item from the panda's data frame.
Làm thế nào để bạn loại bỏ các ngoại lệ khỏi một âm mưu phân tán trong Python?Sử dụng điểm IQR.. Sắp xếp bộ dữ liệu theo thứ tự tăng .. Tính toán phần tư đầu tiên (Q1) và Bộ tứ thứ ba (Q3). Tìm phạm vi liên vùng (Q3-Q1). Tìm giới hạn dưới - Lower_bound = (Q1 -1.5 * IQR). Tìm giới hạn trên - Upper_bound = (Q3 +1.5 * IQR). Bất cứ điều gì nằm trên hoặc dưới IQR là một ngoại lệ .. Làm thế nào để bạn loại bỏ các ngoại lệ khỏi dữ liệu?Sử dụng phương pháp phát hiện trung bình tạo thời gian biểu của dữ liệu và trực quan hóa dữ liệu để phát hiện các ngoại lệ tiềm năng.Loại bỏ các ngoại lệ trong dữ liệu, trong đó một ngoại lệ được định nghĩa là một điểm nhiều hơn ba độ lệch chuẩn so với giá trị trung bình.Trong cùng một biểu đồ, vẽ sơ đồ dữ liệu gốc và dữ liệu với ngoại lệ bị xóa.
Create a timetable of data, and visualize the data to detect potential outliers. Remove outliers in the data, where an outlier is defined as a point more than three standard deviations from the mean. In the same graph, plot the original data and the data with the outlier removed. |