Hướng dẫn how do you detect and remove outliers in python? - làm thế nào để bạn phát hiện và loại bỏ các ngoại lệ trong python?

Một ngoại lệ là một mục/đối tượng dữ liệu/đối tượng lệch đáng kể so với phần còn lại của các đối tượng (được gọi là bình thường). Chúng có thể được gây ra bởi các lỗi đo lường hoặc thực hiện. Phân tích để phát hiện ngoại lệ được gọi là khai thác ngoại lệ. Có nhiều cách để phát hiện các ngoại lệ và quy trình loại bỏ là khung dữ liệu giống như xóa mục dữ liệu khỏi khung dữ liệu Panda.

Ở đây, khung dữ liệu PANDAS được sử dụng cho một cách tiếp cận thực tế hơn vì trong dự án trong thế giới thực cần phát hiện các ngoại lệ khơi dậy trong bước phân tích dữ liệu, cách tiếp cận tương tự có thể được sử dụng trên danh sách và các đối tượng loại chuỗi.

Dataset:

Bộ dữ liệu được sử dụng là bộ dữ liệu nhà ở Boston vì nó được tải sẵn trong thư viện Sklearn.

Python3

import sklearn

from sklearn.datasets import load_boston

import pandas as pd

import matplotlib.pyplot as plt

sklearn0____11 sklearn2

sklearn3sklearn1 sklearn5

sklearn6sklearn1 sklearn8

sklearn9sklearn1 from1

from2

 Output: Output: 

Hướng dẫn how do you detect and remove outliers in python? - làm thế nào để bạn phát hiện và loại bỏ các ngoại lệ trong python?

một phần của bộ dữ liệu

Phát hiện các ngoại lệ

Các ngoại lệ có thể được phát hiện bằng cách sử dụng trực quan hóa, thực hiện các công thức toán học trên tập dữ liệu hoặc sử dụng phương pháp thống kê. Tất cả những điều này được thảo luận dưới đây. & NBSP;

1. Trực quan hóa

& nbsp; Ví dụ 1: Sử dụng biểu đồ hộpExample 1: Using Box Plot

Nó ghi lại bản tóm tắt dữ liệu một cách hiệu quả và hiệu quả chỉ với một hộp và râu ria đơn giản. Boxplot tóm tắt dữ liệu mẫu bằng tỷ lệ phần trăm thứ 25, 50 và 75. Người ta chỉ có thể nhận được những hiểu biết (tứ phân, trung bình và ngoại lệ) vào bộ dữ liệu bằng cách chỉ nhìn vào boxplot của nó.

Python3

import from4

from5from6from7

Output::

BoxPlot- Dis Cột

Trong biểu đồ trên, có thể thấy rõ rằng các giá trị trên 10 đang đóng vai trò là ngoại lệ.

Python3

from8from9from6sklearn.datasets 1sklearn.datasets 2sklearn.datasets 3

Output:

Chỉ số ngoại lệ

Ví dụ 2: Sử dụng Scatterplot.ScatterPlot.

Nó được sử dụng khi bạn đã ghép nối dữ liệu số hoặc khi biến phụ thuộc của bạn có nhiều giá trị cho mỗi biến độc lập đọc hoặc khi cố gắng xác định mối quan hệ giữa hai biến. Trong quá trình sử dụng biểu đồ phân tán, người ta cũng có thể sử dụng nó để phát hiện ngoại lệ.

Để vẽ sơ đồ biểu đồ phân tán, người ta yêu cầu hai biến có liên quan đến nhau. Vì vậy, ở đây, tỷ lệ các mẫu kinh doanh phi bán lẻ trên mỗi thị trấn và tỷ lệ thuế tài sản có giá trị đầy đủ trên 10.000 đô la được sử dụng có tên cột là tên của Indus Indus và và thuế.

Python3

sklearn.datasets 4sklearn1 sklearn.datasets 6sklearn1 sklearn.datasets 8sklearn.datasets 9import0sklearn.datasets 2sklearn.datasets 3

import3import4import5import6from7

import8import9load_boston0

load_boston1load_boston2load_boston0

load_boston4

Output::

Hướng dẫn how do you detect and remove outliers in python? - làm thế nào để bạn phát hiện và loại bỏ các ngoại lệ trong python?

Cốt truyện phân tán

Nhìn vào biểu đồ có thể tóm tắt rằng hầu hết các điểm dữ liệu nằm ở góc dưới bên trái của biểu đồ nhưng có một vài điểm chính xác, đối diện đó là góc trên bên phải của biểu đồ. Những điểm ở góc trên cùng bên phải có thể được coi là ngoại lệ.

Sử dụng xấp xỉ có thể nói tất cả những điểm dữ liệu là x> 20 và y> 600 là ngoại lệ. Mã sau đây có thể lấy vị trí chính xác của tất cả những điểm thỏa mãn các điều kiện này. & NBSP;

Python3

from8load_boston6import4sklearn.datasets 1load_boston9import0import6sklearn.datasets 1import3import4

Output::

Chỉ số ngoại lệ

Ví dụ 2: Sử dụng Scatterplot.

Nó được sử dụng khi bạn đã ghép nối dữ liệu số hoặc khi biến phụ thuộc của bạn có nhiều giá trị cho mỗi biến độc lập đọc hoặc khi cố gắng xác định mối quan hệ giữa hai biến. Trong quá trình sử dụng biểu đồ phân tán, người ta cũng có thể sử dụng nó để phát hiện ngoại lệ.

Để vẽ sơ đồ biểu đồ phân tán, người ta yêu cầu hai biến có liên quan đến nhau. Vì vậy, ở đây, tỷ lệ các mẫu kinh doanh phi bán lẻ trên mỗi thị trấn và tỷ lệ thuế tài sản có giá trị đầy đủ trên 10.000 đô la được sử dụng có tên cột là tên của Indus Indus và và thuế.

Python3

sklearn.datasets 4sklearn1 sklearn.datasets 6sklearn1 sklearn.datasets 8sklearn.datasets 9import0sklearn.datasets 2sklearn.datasets 3

Cốt truyện phân tán

Nhìn vào biểu đồ có thể tóm tắt rằng hầu hết các điểm dữ liệu nằm ở góc dưới bên trái của biểu đồ nhưng có một vài điểm chính xác, đối diện đó là góc trên bên phải của biểu đồ. Những điểm ở góc trên cùng bên phải có thể được coi là ngoại lệ.

from8pandas as pd9

Output::

Sử dụng xấp xỉ có thể nói tất cả những điểm dữ liệu là x> 20 và y> 600 là ngoại lệ. Mã sau đây có thể lấy vị trí chính xác của tất cả những điểm thỏa mãn các điều kiện này. & NBSP;

2. Điểm Z.

Z- điểm cũng được gọi là điểm tiêu chuẩn. Giá trị/điểm số này giúp hiểu rằng điểm dữ liệu từ giá trị trung bình là bao xa. Và sau khi thiết lập giá trị ngưỡng, người ta có thể sử dụng các giá trị điểm Z của các điểm dữ liệu để xác định các ngoại lệ.

Python3

ZScore = (data_point -mean) / std. sai lệch

from8import4import2sklearn.datasets 3

Output:

Chỉ số ngoại lệ

Ví dụ 2: Sử dụng Scatterplot.

Nó được sử dụng khi bạn đã ghép nối dữ liệu số hoặc khi biến phụ thuộc của bạn có nhiều giá trị cho mỗi biến độc lập đọc hoặc khi cố gắng xác định mối quan hệ giữa hai biến. Trong quá trình sử dụng biểu đồ phân tán, người ta cũng có thể sử dụng nó để phát hiện ngoại lệ.

Để vẽ sơ đồ biểu đồ phân tán, người ta yêu cầu hai biến có liên quan đến nhau. Vì vậy, ở đây, tỷ lệ các mẫu kinh doanh phi bán lẻ trên mỗi thị trấn và tỷ lệ thuế tài sản có giá trị đầy đủ trên 10.000 đô la được sử dụng có tên cột là tên của Indus Indus và và thuế.

Python3

sklearn.datasets 4sklearn1 sklearn.datasets 6sklearn1 sklearn.datasets 8sklearn.datasets 9import0sklearn.datasets 2sklearn.datasets 3

Cốt truyện phân tán

Nhìn vào biểu đồ có thể tóm tắt rằng hầu hết các điểm dữ liệu nằm ở góc dưới bên trái của biểu đồ nhưng có một vài điểm chính xác, đối diện đó là góc trên bên phải của biểu đồ. Những điểm ở góc trên cùng bên phải có thể được coi là ngoại lệ.

Cốt truyện phân tán

sklearn11sklearn1 matplotlib.pyplot as plt9sklearn14 sklearn15

Output:

Để xác định giá trị cơ sở ngoại lệ được xác định ở trên và bên dưới các bộ dữ liệu phạm vi bình thường là giới hạn trên và dưới, xác định giới hạn trên và giới hạn dưới (giá trị 1.5*IQR được xem xét):

trên = q3 +1.5*iqr

Hạ = Q1 - 1.5*IQR

Trong công thức trên như theo thống kê, việc tăng 0,5 của IQR (new_iqr = IQR + 0,5*IQR) được thực hiện, để xem xét tất cả dữ liệu giữa độ lệch chuẩn 2.7 trong phân phối Gaussian.

Python3

from8sklearn.datasets 8sklearn29sklearn30

from8sklearn32

Các

from8sklearn.datasets 8sklearn46sklearn47

from8sklearn49

Output:

Giới hạn được xác định và chỉ mục ngoại lệ tương ứng với giới hạn

Loại bỏ các ngoại lệ

Để loại bỏ ngoại lệ, người ta phải tuân theo cùng một quá trình xóa một mục từ bộ dữ liệu bằng cách sử dụng vị trí chính xác của nó trong tập dữ liệu vì trong tất cả các phương thức phát hiện kết quả cuối cùng của Outliers là danh sách tất cả các mục dữ liệu đáp ứng định nghĩa ngoại lệ Theo phương pháp được sử dụng.

Tài liệu tham khảo: Làm thế nào để xóa chính xác một hàng trong Python?

dataFrame.drop (row_index, inplace = true

Mã trên có thể được sử dụng để thả một hàng từ bộ dữ liệu cho ROW_INDEXES bị loại bỏ. Trong đặt = true được sử dụng để nói với Python để thực hiện thay đổi cần thiết trong bộ dữ liệu gốc. ROW_INDEX chỉ có thể là một giá trị hoặc danh sách các giá trị hoặc mảng numpy nhưng nó phải là một chiều. & nbsp;
 

Example:

df_boston.drop (danh sách [0], inplace = true)

Mã đầy đủ: Phát hiện các ngoại lệ bằng IQR và xóa chúng.: Detecting the outliers using IQR and removing them.

Python3

import sklearn

from sklearn.datasets import load_boston

import pandas as pd

sklearn0____11 sklearn2

sklearn3sklearn1 sklearn5

sklearn6sklearn1 sklearn8

sklearn9sklearn1 from1

from2

import7sklearn1 import9from6matplotlib.pyplot as plt1______92

matplotlib.pyplot as plt4matplotlib.pyplot as plt5sklearn1 matplotlib.pyplot as plt7load_boston0

matplotlib.pyplot as plt9sklearn1 import9from6matplotlib.pyplot as plt1sklearn044040

matplotlib.pyplot as plt4matplotlib.pyplot as plt5sklearn1 matplotlib.pyplot as plt7load_boston0

sklearn11sklearn1 matplotlib.pyplot as plt9sklearn14 sklearn15

from8sklearn.datasets 8from02from03

matplotlib.pyplot as plt9sklearn1 import9from6matplotlib.pyplot as plt1sklearn044040

Is

Các

from26from27from28sklearn1 from30load_boston0

from8sklearn.datasets 8from40from03

Output::


Làm thế nào để bạn phát hiện các ngoại lệ trong một tập dữ liệu trong Python?

Tìm kiếm các ngoại lệ bằng các phương pháp thống kê bằng IQR, các điểm dữ liệu ngoại lệ là các phương pháp giảm xuống dưới Q1 Tiết1.5 IQR hoặc trên Q3 + 1.5 IQR. Q1 là phần trăm thứ 25 và Q3 là phần trăm thứ 75 của bộ dữ liệu và IQR đại diện cho phạm vi liên vùng được tính toán bởi Q3 trừ Q1 (Q3, Q1).Using the IQR, the outlier data points are the ones falling below Q1–1.5 IQR or above Q3 + 1.5 IQR. The Q1 is the 25th percentile and Q3 is the 75th percentile of the dataset, and IQR represents the interquartile range calculated by Q3 minus Q1 (Q3–Q1).

Làm thế nào các ngoại lệ có thể được phát hiện và loại bỏ?

Chúng có thể được gây ra bởi các lỗi đo lường hoặc thực hiện. Phân tích để phát hiện ngoại lệ được gọi là khai thác ngoại lệ. Có nhiều cách để phát hiện các ngoại lệ và quy trình loại bỏ là khung dữ liệu giống như xóa mục dữ liệu khỏi khung dữ liệu của Panda.the removal process is the data frame same as removing a data item from the panda's data frame.

Làm thế nào để bạn loại bỏ các ngoại lệ khỏi một âm mưu phân tán trong Python?

Sử dụng điểm IQR..
Sắp xếp bộ dữ liệu theo thứ tự tăng ..
Tính toán phần tư đầu tiên (Q1) và Bộ tứ thứ ba (Q3).
Tìm phạm vi liên vùng (Q3-Q1).
Tìm giới hạn dưới - Lower_bound = (Q1 -1.5 * IQR).
Tìm giới hạn trên - Upper_bound = (Q3 +1.5 * IQR).
Bất cứ điều gì nằm trên hoặc dưới IQR là một ngoại lệ ..

Làm thế nào để bạn loại bỏ các ngoại lệ khỏi dữ liệu?

Sử dụng phương pháp phát hiện trung bình tạo thời gian biểu của dữ liệu và trực quan hóa dữ liệu để phát hiện các ngoại lệ tiềm năng.Loại bỏ các ngoại lệ trong dữ liệu, trong đó một ngoại lệ được định nghĩa là một điểm nhiều hơn ba độ lệch chuẩn so với giá trị trung bình.Trong cùng một biểu đồ, vẽ sơ đồ dữ liệu gốc và dữ liệu với ngoại lệ bị xóa. Create a timetable of data, and visualize the data to detect potential outliers. Remove outliers in the data, where an outlier is defined as a point more than three standard deviations from the mean. In the same graph, plot the original data and the data with the outlier removed.