Hướng dẫn python find missing values in dataframe - python tìm các giá trị còn thiếu trong khung dữ liệu

Thiếu dữ liệu có thể xảy ra khi không có thông tin nào được cung cấp cho một hoặc nhiều mục hoặc cho toàn bộ đơn vị. Thiếu dữ liệu là một vấn đề rất lớn trong một kịch bản thực tế. Thiếu dữ liệu cũng có thể gọi là giá trị NA [không có sẵn] trong gấu trúc. Trong DataFrame đôi khi nhiều bộ dữ liệu chỉ đơn giản là đến với dữ liệu bị thiếu, vì nó tồn tại và không được thu thập hoặc nó không bao giờ tồn tại. Ví dụ: giả sử người dùng khác nhau được khảo sát có thể chọn không chia sẻ thu nhập của họ, một số người dùng có thể chọn không chia sẻ địa chỉ theo cách này mà nhiều bộ dữ liệu đã bị thiếu. Trong gấu trúc bị thiếu dữ liệu được biểu thị bằng hai giá trị:

In Pandas missing data is represented by two value:

  • Không: Không có đối tượng Singleton Python thường được sử dụng để thiếu dữ liệu trong mã Python.
  • NAN: NAN [từ viết tắt của không phải là số], là một giá trị dấu phẩy động đặc biệt được công nhận bởi tất cả các hệ thống sử dụng biểu diễn điểm nổi tiêu chuẩn của IEEE

Pandas đối xử với không và NAN về cơ bản có thể hoán đổi cho nhau để chỉ ra các giá trị thiếu hoặc null. Để tạo điều kiện cho quy ước này, có một số chức năng hữu ích để phát hiện, loại bỏ và thay thế các giá trị null trong gấu trúc DataFrame:

  • isnull[]
  • notnull[]
  • dropna[]
  • fillna[]
  • replace[]
  • interpolate[]

Trong bài viết này, chúng tôi đang sử dụng tệp CSV, để tải xuống tệp CSV được sử dụng, bấm vào đây.

Kiểm tra các giá trị bị thiếu bằng isnull [] và notnull []

Để kiểm tra các giá trị bị thiếu trong Pandas DataFrame, chúng tôi sử dụng hàm isnull [] và notnull []. Cả hai chức năng trợ giúp trong việc kiểm tra xem một giá trị có phải là NAN hay không. Các chức năng này cũng có thể được sử dụng trong loạt gandas để tìm các giá trị null trong một chuỗi.

Kiểm tra các giá trị bị thiếu bằng isnull []

Để kiểm tra các giá trị null trong pandas dataFrame, chúng tôi sử dụng hàm isnull [] hàm này trả về dataFrame của các giá trị boolean đúng với các giá trị nan. Mã số 1: & NBSP;Code #1: 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

import6import7import8import9import1pandas as pd1import1pandas as pd3pandas as pd4

import6pandas as pd6pandas as pd7pandas as pd8import1import0import1import2import3

import4= import6dictimport8

import9

Đầu ra: & nbsp; & nbsp; mã #2: & nbsp;

  Code #2: 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

numpy as np8

import4= import6dictimport8 As shown in the output image, only the rows having Gender = NULL are displayed.

 

Đầu ra: & nbsp; & nbsp; mã #2: & nbsp;

numpy as np2= numpy as np4Code #3: 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

import4= import6dictimport8

import6pandas as pd6pandas as pd7pandas as pd8import1import0import1import2import3

import4= import6dictimport8

'First Score'7

Đầu ra: & nbsp; & nbsp; mã #2: & nbsp;

  Code #4: 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

numpy as np8

import4= import6dictimport8 As shown in the output image, only the rows having Gender = NOT NULL are displayed.

 

Đầu ra: & nbsp; & nbsp; mã #2: & nbsp;

numpy as np2= numpy as np4Code #1: Filling null values with a single value 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

import4= import6dictimport8

import6pandas as pd6pandas as pd7pandas as pd8import1import0import1import2import3

import4= import6dictimport8

import35import36import8

Đầu ra: & nbsp; & nbsp; mã #2: & nbsp;

  Code #2: Filling null values with the previous ones 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

import6import7import8import9import1pandas as pd1import1pandas as pd3pandas as pd4

import6pandas as pd6pandas as pd7pandas as pd8import1import0import1import2import3

import4= import6dictimport8

import76=import78import8

Đầu ra: & nbsp; & nbsp; mã số 3: điền vào giá trị null với các giá trị tiếp theo & nbsp;

  Code #3: Filling null value with the next ones 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

import6import7import8import9import1pandas as pd1import1pandas as pd3pandas as pd4

import6pandas as pd6pandas as pd7pandas as pd8import1import0import1import2import3

import4= import6dictimport8

import76=pandas as pd20import8

Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;

  Code #4: Filling null values in CSV File 

Python

import pandas as pd

import numpy as np

pandas as pd27pandas as pd28pandas as pd29pandas as pd30pandas as pd31

dict = {'First Score':[import0import1____12import3import4import5

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

pandas as pd41

Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;

Code #5: Filling a null values using replace[] method 

Python

import pandas as pd

import numpy as np

pandas as pd27pandas as pd28pandas as pd29pandas as pd30pandas as pd31

dict = {'First Score':[import0import1____12import3import4import5

Now we are going to replace the all Nan value in the data frame with -99 value. 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;

  Code #6: Using interpolate[] function to fill the missing values using linear method. 

Python

import pandas as pd

import numpy as np

pandas as pd79pandas as pd80pandas as pd75import1pandas as pd83import1pandas as pd85import1pandas as pd87import1pandas as pd75import5

pandas as pd79pandas as pd92pandas as pd93import1pandas as pd95import1pandas as pd75import1pandas as pd87import1import01import5

pandas as pd79import04import05import1pandas as pd87import1pandas as pd75import1pandas as pd75import1import13import14

import15

dict = {'First Score':[import0import1____12import3import4import5

Python

import16=import18import19=import21import8

import pandas as pd

As we can see the output, values in the first row could not get filled as the direction of filling of values is forward and there is no previous value which could have been used in interpolation.  

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5Code #1: Dropping rows with at least 1 null value. 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

import6import7import8import9import3pandas as pd1import1pandas as pd3import5

Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;

import6import59import60import61import3

import4= import6dictimport8

import15

numpy as np2= numpy as np4

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;

import6pandas as pd6:[import50import1pandas as pd8import1import0import1import2import5

import6import59import60import61import3

import4= import6dictimport8

numpy as np14

numpy as np2= numpy as np4

Code #2: Dropping rows if all values in that row are missing. 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

import6import7import8import9import3pandas as pd1import1pandas as pd3import5

import6pandas as pd6:[import50import3import0import1import2import5

import6import59import60import61import3

import4= import6dictimport8

import15

Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0import1____12import3import4import5

import6import7import8import9import3pandas as pd1import1pandas as pd3import5

import6pandas as pd6:[import50import3import0import1import2import5

import6import59import60import61import3

import4= import6dictimport8

numpy as np98= dict00import8

Đầu ra: Mã số 3: Các cột thả với ít nhất 1 giá trị null. & Nbsp;

Code #3: Dropping columns with at least 1 null value. 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0numpy as np25import4import5

import6import7import8import9import3pandas as pd1import1pandas as pd3import5

Các

import6import59:[dict36import1dict38import1dict40import1import61import3

import4= import6dictimport8

import15

Bây giờ chúng tôi bỏ một cột có ít nhất 1 giá trị bị thiếu & nbsp;

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0numpy as np25import4import5

import6import7import8import9import3pandas as pd1import1pandas as pd3import5

import6pandas as pd6:[import50import3import0import1import2import5

import6import59:[dict36import1dict38import1dict40import1import61import3

import4= import6dictimport8

Các

Bây giờ chúng tôi bỏ một cột có ít nhất 1 giá trị bị thiếu & nbsp;

  Code #4: Dropping Rows with at least 1 null value in CSV file 

Python

import pandas as pd

import numpy as np

dict = {'First Score':[import0numpy as np25import4import5

=15

Các

Now we compare sizes of data frames so that we can come to know how many rows had at least 1 Null value 

Python

=16=17=18=19

=16=21=18=23

import pandas as pd

import numpy as np

Old data frame length: 1000
New data frame length: 764
Number of rows with at least 1 NA value:  236

dict = {'First Score':[import0numpy as np25import4import5


Bài Viết Liên Quan

Chủ Đề