Hướng dẫn how to remove duplicate data in python - cách xóa dữ liệu trùng lặp trong python

DataFrame.drop_duplicates (tập hợp con = none, *, keep = 'first', inplace = false, ond_index = false) [nguồn]#drop_duplicates(subset=None, *, keep='first', inplace=False, ignore_index=False)[source]#

Trả về DataFrame với các hàng trùng lặp bị xóa.

Xem xét các cột nhất định là tùy chọn. Các chỉ mục, bao gồm các chỉ mục thời gian bị bỏ qua.

Nhãn tham sốSubSetColumn hoặc trình tự của nhãn, tùy chọnsubsetcolumn label or sequence of labels, optional

Chỉ xem xét các cột nhất định để xác định các bản sao, theo mặc định, sử dụng tất cả các cột.

Giữ {’đầu tiên,’ cuối cùng, sai}, mặc định ’đầu tiên{‘first’, ‘last’, False}, default ‘first’

Xác định những sao chép (nếu có) để giữ. - first: Drop trùng lặp ngoại trừ lần xuất hiện đầu tiên. - last: Drop trùng lặp ngoại trừ lần xuất hiện cuối cùng. - Sai: Thả tất cả các bản sao.

inplaceBool, mặc định saibool, default False

Có nên sửa đổi DataFrame thay vì tạo một cái mới.

bỏ qua_indexbool, mặc định saibool, default False

Nếu đúng, trục kết quả sẽ được dán nhãn 0, 1,,, n - 1.

Mới trong phiên bản 1.0.0.

Trả về dataFrame hoặc không có

DataFrame với các bản sao được xóa hoặc không có nếu inplace=True.

Ví dụ

Xem xét bộ dữ liệu chứa xếp hạng ramen.

>>> df = pd.DataFrame({
...     'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
...     'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
...     'rating': [4, 4, 3.5, 15, 5]
... })
>>> df
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

Theo mặc định, nó loại bỏ các hàng trùng lặp dựa trên tất cả các cột.

>>> df.drop_duplicates()
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

Để loại bỏ các bản sao trên (các) cột cụ thể, hãy sử dụng subset.

>>> df.drop_duplicates(subset=['brand'])
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5

Để loại bỏ các bản sao và giữ các lần xuất hiện cuối cùng, hãy sử dụng keep.

>>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
    brand style  rating
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
4  Indomie  pack     5.0


Nếu thứ tự của các phần tử không quan trọng, chúng ta có thể loại bỏ các bản sao bằng phương thức đã đặt và hàm độc đáo () numpy. Chúng ta có thể sử dụng các hàm gấu trúc, đặt hàng, giảm hàm (), đặt phương thức + sort () và các phương pháp lặp để giữ thứ tự của các phần tử.


Làm cách nào để xóa dữ liệu trùng lặp?

Loại bỏ các giá trị trùng lặp.

Chọn phạm vi của các ô có giá trị trùng lặp bạn muốn xóa. Mẹo: Xóa bất kỳ phác thảo hoặc phụ nào khỏi dữ liệu của bạn trước khi cố gắng xóa các bản sao ..
mylist = list(dict.fromkeys(mylist))
print(mylist)

Nhấp vào Dữ liệu> Xóa các bản sao, sau đó dưới các cột, kiểm tra hoặc bỏ chọn các cột nơi bạn muốn xóa các bản sao. ....

Bấm OK ..

Tìm hiểu làm thế nào để loại bỏ các bản sao khỏi danh sách trong Python.

Thí dụ

Xóa bất kỳ bản sao nào khỏi danh sách:
mylist = list(dict.fromkeys(mylist))
print(mylist)

mylist = ["a", "b", "a", "c", "c"] mylist = list (dict.fromKeys (mylist)) in (mylist)

Hãy tự mình thử »

Chọn phạm vi của các ô có giá trị trùng lặp bạn muốn xóa. Mẹo: Xóa bất kỳ phác thảo hoặc phụ nào khỏi dữ liệu của bạn trước khi cố gắng xóa các bản sao ..
mylist = list(dict.fromkeys(mylist))
print(mylist)

Nhấp vào Dữ liệu> Xóa các bản sao, sau đó dưới các cột, kiểm tra hoặc bỏ chọn các cột nơi bạn muốn xóa các bản sao. ....

Bấm OK ..

Tìm hiểu làm thế nào để loại bỏ các bản sao khỏi danh sách trong Python.
mylist = list(dict.fromkeys(mylist))
print(mylist)

Thí dụ

Xóa bất kỳ bản sao nào khỏi danh sách:

mylist = ["a", "b", "a", "c", "c"] mylist = list (dict.fromKeys (mylist)) in (mylist)

Hãy tự mình thử »
mylist = list(dict.fromkeys(mylist))
print(mylist)



Ví dụ giải thích

Đầu tiên chúng tôi có một danh sách có chứa các bản sao:

Làm cách nào để xóa dữ liệu trùng lặp?

Loại bỏ các giá trị trùng lặp.
  return list(dict.fromkeys(x))

MYLIST = my_function (["A", "B", "A", "C", "C"]))

In (Mylist)

Nhấp vào Dữ liệu> Xóa các bản sao, sau đó dưới các cột, kiểm tra hoặc bỏ chọn các cột nơi bạn muốn xóa các bản sao. ....

Bấm OK ..

Tìm hiểu làm thế nào để loại bỏ các bản sao khỏi danh sách trong Python.

Ví dụ giải thích

def my_function (x): & nbsp; Danh sách trả lại (Dict.FromKeys (x))
  return list(dict.fromkeys(x))

MYLIST = my_function (["A", "B", "A", "C", "C"]))

In (Mylist)

Gọi chức năng, với danh sách là tham số:

Hãy tự mình thử »

def my_function (x): & nbsp; Danh sách trả lại (Dict.FromKeys (x))
  return list(
dict.fromkeys(x))

MYLIST = my_function (["A", "B", "A", "C", "C"]))

In (Mylist)

Gọi chức năng, với danh sách là tham số:

Bấm OK ..

def my_function (x): & nbsp; Danh sách trả lại (Dict.FromKeys (x))
  return
list(dict.fromkeys(x))

MYLIST = my_function (["A", "B", "A", "C", "C"]))

In (Mylist)

Trả lại danh sách

Danh sách trả lại

def my_function (x): & nbsp; Danh sách trả lại (Dict.FromKeys (x))
 
return list(dict.fromkeys(x))

MYLIST = my_function (["A", "B", "A", "C", "C"]))

In (Mylist)

Gọi chức năng, với danh sách là tham số:

Gọi chức năng

def my_function (x): & nbsp; Danh sách trả về (Dict.FromKeys (x)) mylist = my_function (["a", "b", "a", "c", "c"]) in (mylist)
  return list(dict.fromkeys(x))
mylist = my_function(["a", "b", "a", "c", "c"])print(mylist)

In kết quả:

In kết quả

def my_function (x): & nbsp; Danh sách trả lại (Dict.FromKeys (x))
  return list(dict.fromkeys(x))

MYLIST = my_function (["A", "B", "A", "C", "C"]))

print(mylist)



Làm thế nào để bạn loại bỏ các bản sao trong Python?

Nếu thứ tự của các phần tử không quan trọng, chúng ta có thể loại bỏ các bản sao bằng phương thức đã đặt và hàm độc đáo () numpy.Chúng ta có thể sử dụng các hàm gấu trúc, đặt hàng, giảm hàm (), đặt phương thức + sort () và các phương pháp lặp để giữ thứ tự của các phần tử.using the Set method and the Numpy unique() function. We can use Pandas functions, OrderedDict, reduce() function, Set + sort() method, and iterative approaches to keep the order of elements.

Làm cách nào để xóa dữ liệu trùng lặp?

Loại bỏ các giá trị trùng lặp..
Chọn phạm vi của các ô có giá trị trùng lặp bạn muốn xóa.Mẹo: Xóa bất kỳ phác thảo hoặc phụ nào khỏi dữ liệu của bạn trước khi cố gắng xóa các bản sao ..
Nhấp vào Dữ liệu> Xóa các bản sao, sau đó dưới các cột, kiểm tra hoặc bỏ chọn các cột nơi bạn muốn xóa các bản sao.....
Bấm OK ..