Hướng dẫn how does python handle duplicate rows? - python xử lý các hàng trùng lặp như thế nào?
Phương thức pandas.dataFrame.dplated () được sử dụng để tìm các hàng trùng lặp trong một khung dữ liệu. Nó trả về một chuỗi Boolean xác định xem một hàng là trùng lặp hay duy nhất. Show
Trong bài viết này, bạn sẽ tìm hiểu cách sử dụng phương pháp này để xác định các hàng trùng lặp trong một khung dữ liệu. Bạn cũng sẽ biết một vài mẹo thực tế để sử dụng phương pháp này. Tạo một khung dữ liệu Also Đọc: Tạo và tải DataFrames.Also read: creating and loading DataFrames. pandas.DataFrame.duplicated()
Sử dụng hàm dataFrame.dplicdy ()Khi bạn trực tiếp sử dụng hàm 6, các giá trị mặc định sẽ được chuyển đến các tham số để tìm kiếm các hàng trùng lặp trong DataFrame.
Sử dụng tham số KeepBạn có thể sử dụng tham số Keep để chỉ định phiên bản nào của lặp lại nên được coi là duy nhất và các trường hợp còn lại sẽ được coi là trùng lặp. Cài đặt giữ như ’đầu tiênGiá trị mặc định của tham số Keep là ‘đầu tiên. Điều đó có nghĩa là phương pháp sẽ coi trường hợp đầu tiên của một hàng là duy nhất và các trường hợp còn lại là sao chép. Hãy để cố gắng loại bỏ các hàng trùng lặp.
As Bạn có thể thấy, hàng thứ năm và thứ bảy đã được xác định là trùng lặp. Hàng thứ năm là bản sao của hàng đầu tiên và hàng thứ bảy là bản sao của hàng thứ hai. Do đó, chúng đã bị xóa khỏi DataFrameAs you can see, the fifth and the seventh row have been identified as duplicates. The fifth row is a duplicate of the first row and the seventh row is a duplicate of the second row. Hence, they have been removed from the DataFrame Cài đặt giữ như ’cuối cùngKhi bạn đặt giá trị của tham số này là ‘cuối cùng, phương thức sẽ coi phiên bản cuối cùng của một hàng là duy nhất và các trường hợp còn lại là trùng lặp. Hãy để cố gắng loại bỏ các hàng trùng lặp.
As Bạn có thể thấy, hàng thứ năm và thứ bảy đã được xác định là trùng lặp. Hàng thứ năm là bản sao của hàng đầu tiên và hàng thứ bảy là bản sao của hàng thứ hai. Do đó, chúng đã bị xóa khỏi DataFrameHere, the first and the second rows have been identified as duplicates while the fifth and the seventh rows have been considered to be unique. Cài đặt giữ như ’cuối cùngKhi bạn đặt giá trị của tham số này là ‘cuối cùng, phương thức sẽ coi phiên bản cuối cùng của một hàng là duy nhất và các trường hợp còn lại là trùng lặp. Hãy để cố gắng loại bỏ các hàng trùng lặp.
# Use the keep parameter to consider only the first instance of a duplicate row to be unique
bool_series = df.duplicated(keep='first')
print('Boolean series:')
print(bool_series)
print('\n')
print('DataFrame after keeping only the first instance of the duplicate rows:')
# The `~` sign is used for negation. It changes the boolean value True to False and False to True.
df[~bool_series]
Cài đặt giữ như ’cuối cùng Khi bạn đặt giá trị của tham số này là ‘cuối cùng, phương thức sẽ coi phiên bản cuối cùng của một hàng là duy nhất và các trường hợp còn lại là trùng lặp.
# Use the keep parameter to consider only the first instance of a duplicate row to be unique
bool_series = df.duplicated(keep='first')
print('Boolean series:')
print(bool_series)
print('\n')
print('DataFrame after keeping only the first instance of the duplicate rows:')
# The `~` sign is used for negation. It changes the boolean value True to False and False to True.
df[~bool_series]
Khi bạn đặt giá trị của tham số này là ‘cuối cùng, phương thức sẽ coi phiên bản cuối cùng của một hàng là duy nhất và các trường hợp còn lại là trùng lặp.
HER, hàng thứ nhất và thứ hai đã được xác định là trùng lặp trong khi các hàng thứ năm và thứ bảy được coi là duy nhất.Using the subset parameterCài đặt giữ sai Nếu bạn đặt giá trị của Keep là giá trị boolean sai, thì phương thức sẽ xem xét tất cả các trường hợp của một hàng là trùng lặp. Nhận khóa học Python hoàn thành miễn phíPractical Tips
sử dụng tham số tập hợp con
Tham số tập hợp con được sử dụng để chỉ định các cột trong đó các bản sao sẽ được tìm kiếm. Sau khi bạn đã chỉ định các cột, phương thức sẽ tìm kiếm các hàng trùng lặp bằng cách so sánh các giá trị của các cột được chỉ định giữa các hàng.Điều này cực kỳ hữu ích vì bạn có thể chỉ tìm thấy trong việc tìm kiếm các giá trị trùng lặp chỉ trong một vài cột. The False value for the keep parameter is used to remove all the duplicate rows from the DataFrame. True or False? Answer:
Nếu bạn không sử dụng tham số tập hợp con, thì tất cả các giá trị trong các hàng cần phải được xác định là sao chép. How are the duplicate rows identified when multiple columns are passed to the subset parameter? Answer: Bạn cũng có thể chuyển nhiều cột vào tham số tập hợp con. Tuy nhiên, hãy nhớ rằng, tất cả các giá trị của các cột được chỉ định phải giống nhau trong các hàng để coi chúng là trùng lặp. When multiple columns are passed to the subset parameter, the method will consider a row to be a duplicate only if the values of all the specified columns in that row matches with the values of the specified columns in another row.
Answer: Answer: 7 8Câu 4: Viết mã để xóa tất cả các phiên bản của các hàng trùng lặp khỏi DataFrame DF ngoài phiên bản cuối cùng của các hàng. Write the code to remove all the instances of duplicate rows from the DataFrame df apart from the last instance of the rows. Answer: Answer: 9 8Câu 5: Viết mã để tìm kiếm các giá trị trùng lặp trong các cột COL_1 và COL_2 trong DataFrame DF. Write the code to search for duplicate values in the columns col_1 and col_2 in the DataFrame df. Answer: Trả lời: 1Bài báo được đóng góp bởi Shreyansh B và Shri Varsheni Trong bài viết này, bạn sẽ tìm hiểu cách sử dụng phương pháp này để xác định các hàng trùng lặp trong một khung dữ liệu. Bạn cũng sẽ biết một vài mẹo thực tế để sử dụng phương pháp này. Tạo một khung dữ liệu Also Đọc: Tạo và tải DataFrames.Also read: creating and loading DataFrames. pandas.DataFrame.duplicated()
Sử dụng hàm dataFrame.dplicdy ()Khi bạn trực tiếp sử dụng hàm 6, các giá trị mặc định sẽ được chuyển đến các tham số để tìm kiếm các hàng trùng lặp trong DataFrame.
Sử dụng tham số KeepBạn có thể sử dụng tham số Keep để chỉ định phiên bản nào của lặp lại nên được coi là duy nhất và các trường hợp còn lại sẽ được coi là trùng lặp. Cài đặt giữ như ’đầu tiênGiá trị mặc định của tham số Keep là ‘đầu tiên. Điều đó có nghĩa là phương pháp sẽ coi trường hợp đầu tiên của một hàng là duy nhất và các trường hợp còn lại là sao chép. Hãy để cố gắng loại bỏ các hàng trùng lặp.
As Bạn có thể thấy, hàng thứ năm và thứ bảy đã được xác định là trùng lặp. Hàng thứ năm là bản sao của hàng đầu tiên và hàng thứ bảy là bản sao của hàng thứ hai. Do đó, chúng đã bị xóa khỏi DataFrameAs you can see, the fifth and the seventh row have been identified as duplicates. The fifth row is a duplicate of the first row and the seventh row is a duplicate of the second row. Hence, they have been removed from the DataFrame Cài đặt giữ như ’cuối cùngKhi bạn đặt giá trị của tham số này là ‘cuối cùng, phương thức sẽ coi phiên bản cuối cùng của một hàng là duy nhất và các trường hợp còn lại là trùng lặp. Hãy để cố gắng loại bỏ các hàng trùng lặp.
As Bạn có thể thấy, hàng thứ năm và thứ bảy đã được xác định là trùng lặp. Hàng thứ năm là bản sao của hàng đầu tiên và hàng thứ bảy là bản sao của hàng thứ hai. Do đó, chúng đã bị xóa khỏi DataFrameHere, the first and the second rows have been identified as duplicates while the fifth and the seventh rows have been considered to be unique. Cài đặt giữ như ’cuối cùngKhi bạn đặt giá trị của tham số này là ‘cuối cùng, phương thức sẽ coi phiên bản cuối cùng của một hàng là duy nhất và các trường hợp còn lại là trùng lặp. Hãy để cố gắng loại bỏ các hàng trùng lặp.
As Bạn có thể thấy, hàng thứ năm và thứ bảy đã được xác định là trùng lặp. Hàng thứ năm là bản sao của hàng đầu tiên và hàng thứ bảy là bản sao của hàng thứ hai. Do đó, chúng đã bị xóa khỏi DataFrameUsing the subset parameterCài đặt giữ như ’cuối cùng Khi bạn đặt giá trị của tham số này là ‘cuối cùng, phương thức sẽ coi phiên bản cuối cùng của một hàng là duy nhất và các trường hợp còn lại là trùng lặp.
HER, hàng thứ nhất và thứ hai đã được xác định là trùng lặp trong khi các hàng thứ năm và thứ bảy được coi là duy nhất.Practical Tips
sử dụng tham số tập hợp con
Tham số tập hợp con được sử dụng để chỉ định các cột trong đó các bản sao sẽ được tìm kiếm. Sau khi bạn đã chỉ định các cột, phương thức sẽ tìm kiếm các hàng trùng lặp bằng cách so sánh các giá trị của các cột được chỉ định giữa các hàng.Điều này cực kỳ hữu ích vì bạn có thể chỉ tìm thấy trong việc tìm kiếm các giá trị trùng lặp chỉ trong một vài cột. The False value for the keep parameter is used to remove all the duplicate rows from the DataFrame. True or False? Answer:
Nếu bạn không sử dụng tham số tập hợp con, thì tất cả các giá trị trong các hàng cần phải được xác định là sao chép. How are the duplicate rows identified when multiple columns are passed to the subset parameter? Answer: Bạn cũng có thể chuyển nhiều cột vào tham số tập hợp con. Tuy nhiên, hãy nhớ rằng, tất cả các giá trị của các cột được chỉ định phải giống nhau trong các hàng để coi chúng là trùng lặp. When multiple columns are passed to the subset parameter, the method will consider a row to be a duplicate only if the values of all the specified columns in that row matches with the values of the specified columns in another row.
Answer: Answer: 7 8Câu 4: Viết mã để xóa tất cả các phiên bản của các hàng trùng lặp khỏi DataFrame DF ngoài phiên bản cuối cùng của các hàng. Write the code to remove all the instances of duplicate rows from the DataFrame df apart from the last instance of the rows. Answer: Answer: 9 8Câu 5: Viết mã để tìm kiếm các giá trị trùng lặp trong các cột COL_1 và COL_2 trong DataFrame DF. Write the code to search for duplicate values in the columns col_1 and col_2 in the DataFrame df. Answer: Trả lời: 1
Bài báo được đóng góp bởi Shreyansh B và Shri Varsheni |
Boolean series:
0 False
1 False
2 False
3 False
4 True
5 False
6 True
7 False
dtype: bool
DataFrame after keeping only the first instance of the duplicate rows:
Boolean series:
0 False
1 False
2 False
3 False
4 True
5 False
6 True
7 False
dtype: bool
DataFrame after keeping only the first instance of the duplicate rows: