Thiếu dữ liệu có thể xảy ra khi không có thông tin nào được cung cấp cho một hoặc nhiều mục hoặc cho toàn bộ đơn vị. Thiếu dữ liệu là một vấn đề rất lớn trong một kịch bản thực tế. Thiếu dữ liệu cũng có thể gọi là giá trị NA [không có sẵn] trong gấu trúc. Trong DataFrame đôi khi nhiều bộ dữ liệu chỉ đơn giản là đến với dữ liệu bị thiếu, vì nó tồn tại và không được thu thập hoặc nó không bao giờ tồn tại. Ví dụ: giả sử người dùng khác nhau được khảo sát có thể chọn không chia sẻ thu nhập của họ, một số người dùng có thể chọn không chia sẻ địa chỉ theo cách này mà nhiều bộ dữ liệu đã bị thiếu. Trong gấu trúc bị thiếu dữ liệu được biểu thị bằng hai giá trị:
- Không: Không có đối tượng Singleton Python thường được sử dụng để thiếu dữ liệu trong mã Python.
- NAN: NAN [từ viết tắt của không phải là số], là một giá trị dấu phẩy động đặc biệt được công nhận bởi tất cả các hệ thống sử dụng biểu diễn điểm nổi tiêu chuẩn của IEEE
Pandas đối xử với không và NAN về cơ bản có thể hoán đổi cho nhau để chỉ ra các giá trị thiếu hoặc null. Để tạo điều kiện cho quy ước này, có một số chức năng hữu ích để phát hiện, loại bỏ và thay thế các giá trị null trong gấu trúc DataFrame:
- isnull[]
- notnull[]
- dropna[]
- fillna[]
- replace[]
- interpolate[]
Trong bài viết này, chúng tôi đang sử dụng tệp CSV, để tải xuống tệp CSV được sử dụng, bấm vào đây.
Kiểm tra các giá trị bị thiếu bằng isnull [] và notnull []
Để kiểm tra các giá trị bị thiếu trong Pandas DataFrame, chúng tôi sử dụng hàm isnull [] và notnull []. Cả hai chức năng trợ giúp trong việc kiểm tra xem một giá trị có phải là NAN hay không. Các chức năng này cũng có thể được sử dụng trong loạt gandas để tìm các giá trị null trong một chuỗi.
Kiểm tra các giá trị bị thiếu bằng isnull []
Để kiểm tra các giá trị null trong pandas dataFrame, chúng tôi sử dụng hàm isnull [] hàm này trả về dataFrame của các giá trị boolean đúng với các giá trị nan. Mã số 1: & NBSP;Code #1:
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
import
6import
7import
8import
9import
1pandas as pd
1import
1pandas as pd
3pandas as pd
4
import
6pandas as pd
6pandas as pd
7pandas as pd
8import
1import
0import
1import
2import
3
import
4=
import
6dict
import
8
import
9
Đầu ra: & nbsp; & nbsp; mã #2: & nbsp;
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
numpy as np
8
import
4=
import
6dict
import
8 As shown in the output image, only the rows having Gender = NULL are displayed.
Đầu ra: & nbsp; & nbsp; mã #2: & nbsp;
numpy as np
2=
numpy as np
4Code #3:
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
import
4=
import
6dict
import
8
import
6pandas as pd
6pandas as pd
7pandas as pd
8import
1import
0import
1import
2import
3
import
4=
import
6dict
import
8
'First Score'
7
Đầu ra: & nbsp; & nbsp; mã #2: & nbsp;
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
numpy as np
8
import
4=
import
6dict
import
8
As shown in the output image, only the rows having Gender = NOT NULL are displayed.
Đầu ra: & nbsp; & nbsp; mã #2: & nbsp;
numpy as np
2=
numpy as np
4Code #1: Filling null values with a single value
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
import
4=
import
6dict
import
8
import
6pandas as pd
6pandas as pd
7pandas as pd
8import
1import
0import
1import
2import
3
import
4=
import
6dict
import
8
import
35import
36import
8
Đầu ra: & nbsp; & nbsp; mã #2: & nbsp;
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
import
6import
7import
8import
9import
1pandas as pd
1import
1pandas as pd
3pandas as pd
4
import
6pandas as pd
6pandas as pd
7pandas as pd
8import
1import
0import
1import
2import
3
import
4=
import
6dict
import
8
import
76=
import
78import
8
Đầu ra: & nbsp; & nbsp; mã số 3: điền vào giá trị null với các giá trị tiếp theo & nbsp;
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
import
6import
7import
8import
9import
1pandas as pd
1import
1pandas as pd
3pandas as pd
4
import
6pandas as pd
6pandas as pd
7pandas as pd
8import
1import
0import
1import
2import
3
import
4=
import
6dict
import
8
import
76=
pandas as pd
20import
8
Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;
Python
import
pandas as pd
import
numpy as np
pandas as pd
27pandas as pd
28pandas as pd
29pandas as pd
30pandas as pd
31
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
pandas as pd
41
Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;
Python
import
pandas as pd
import
numpy as np
pandas as pd
27pandas as pd
28pandas as pd
29pandas as pd
30pandas as pd
31
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;
Python
import
pandas as pd
import
numpy as np
pandas as pd
79pandas as pd
80pandas as pd
75import
1pandas as pd
83import
1pandas as pd
85import
1pandas as pd
87import
1pandas as pd
75import
5
pandas as pd
79pandas as pd
92pandas as pd
93import
1pandas as pd
95import
1pandas as pd
75import
1pandas as pd
87import
1import
01import
5
pandas as pd
79import
04import
05import
1pandas as pd
87import
1pandas as pd
75import
1pandas as pd
75import
1import
13import
14
import
15
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5Python
import
16=
import
18import
19=
import
21import
8
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5Code #1: Dropping rows with at least 1 null value.
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
import
6import
7import
8import
9import
3pandas as pd
1import
1pandas as pd
3import
5
Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;
import
6import
59import
60import
61import
3
import
4=
import
6dict
import
8
import
15
numpy as np
2=
numpy as np
4Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
Đầu ra: & nbsp; & nbsp; mã số 4: điền vào các giá trị null trong tệp CSV & nbsp;
import
6pandas as pd
6:[
import
50import
1pandas as pd
8import
1import
0import
1import
2import
5
import
6import
59import
60import
61import
3
import
4=
import
6dict
import
8
numpy as np
14
numpy as np
2=
numpy as np
4
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
import
6import
7import
8import
9import
3pandas as pd
1import
1pandas as pd
3import
5
import
6pandas as pd
6:[
import
50import
3import
0import
1import
2import
5
import
6import
59import
60import
61import
3
import
4=
import
6dict
import
8
import
15
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0import
1____12import
3import
4import
5
import
6import
7import
8import
9import
3pandas as pd
1import
1pandas as pd
3import
5
import
6pandas as pd
6:[
import
50import
3import
0import
1import
2import
5
import
6import
59import
60import
61import
3
import
4=
import
6dict
import
8
numpy as np
98=
dict
00import
8
Đầu ra: Mã số 3: Các cột thả với ít nhất 1 giá trị null. & Nbsp;
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0numpy as np
25import
4import
5
import
6import
7import
8import
9import
3pandas as pd
1import
1pandas as pd
3import
5
Các
import
6import
59:[
dict
36import
1dict
38import
1dict
40import
1import
61import
3
import
4=
import
6dict
import
8
import
15
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0numpy as np
25import
4import
5
import
6import
7import
8import
9import
3pandas as pd
1import
1pandas as pd
3import
5
import
6pandas as pd
6:[
import
50import
3import
0import
1import
2import
5
import
6import
59:[
dict
36import
1dict
38import
1dict
40import
1import
61import
3
import
4=
import
6dict
import
8
Các
Bây giờ chúng tôi bỏ một cột có ít nhất 1 giá trị bị thiếu & nbsp;
Python
import
pandas as pd
import
numpy as np
dict
=
{
'First Score'
:[
import
0numpy as np
25import
4import
5
=
15
Các
Python
=
16=
17=
18=
19
=
16=
21=
18=
23
import
pandas as pd
import
numpy as np
Old data frame length: 1000 New data frame length: 764 Number of rows with at least 1 NA value: 236
dict
=
{
'First Score'
:[
import
0numpy as np
25import
4import
5