Hướng dẫn dùng grouping python python

Pandas GroupBy là một hàm mạnh mẽ và linh hoạt trong Python. Nó cho phép bạn chia dữ liệu của mình thành các nhóm riêng biệt để thực hiện các phép tính nhằm phân tích tốt hơn, cũng hoàn toàn tương tự như groupby trong SQL.

Nội dung chính Show

Pandas GroupBy là một hàm mạnh mẽ và linh hoạt trong Python. Nó cho phép bạn chia dữ liệu của mình thành các nhóm riêng biệt để thực hiện các phép tính nhằm phân tích tốt hơn, cũng hoàn toàn tương tự như groupby trong SQL.
Hàm groupby trong pandas còn có nhiều tham số khác để bạn có thể tùy chỉnh:¶
Bài viết liên quan
Liên hệ
TIN NỔI BẬT

Nội dung chính

Pandas GroupBy là một hàm mạnh mẽ và linh hoạt trong Python. Nó cho phép bạn chia dữ liệu của mình thành các nhóm riêng biệt để thực hiện các phép tính nhằm phân tích tốt hơn, cũng hoàn toàn tương tự như groupby trong SQL.
Hàm groupby trong pandas còn có nhiều tham số khác để bạn có thể tùy chỉnh:¶
Bài viết liên quan
Liên hệ
TIN NỔI BẬT

Nội dung chính

Pandas GroupBy là một hàm mạnh mẽ và linh hoạt trong Python. Nó cho phép bạn chia dữ liệu của mình thành các nhóm riêng biệt để thực hiện các phép tính nhằm phân tích tốt hơn, cũng hoàn toàn tương tự như groupby trong SQL.
Hàm groupby trong pandas còn có nhiều tham số khác để bạn có thể tùy chỉnh:¶
Bài viết liên quan
Liên hệ
TIN NỔI BẬT

Hãy để tôi lấy một ví dụ để giải thích rõ hơn về điều này. Giả sử chúng ta có một file Sales.xlsx tổng hợp các đơn hàng trong ngày và chúng ta muốn xem mặt hàng nào có doanh số cao nhất, thấp nhất trong ngày (cột order) thì sẽ làm như sau.

Để làm tất cả các bước trên trong python chỉ cần một câu lệnh groupby đơn giản.¶

Trước hết cần load dữ liệu file Sales lên:

import pandas as pd
Sales = pd.read_excel('Sales.xlsx')
Sales

	account	order	ext price
0	383080	10001	235.83
1	383080	10001	232.32
2	383080	10001	107.97
3	412290	10005	2679.36
4	412290	10005	286.02
5	412290	10005	832.95
6	412290	10005	3472.04
7	412290	10005	915.12
8	218895	10006	3061.12
9	218895	10006	518.65
10	218895	10006	216.90
11	218895	10006	-72.18

Sau đó dùng một câu lệnh groupby đơn giản để nhóm dữ liệu theo cột 'order'

# groupby('order') là cột tiêu chí mà chúng ta muốn nhóm dữ liệu theo tiêu chí đó, có thể có một hoặc nhiều tiêu chí
# agg({'ext price': 'sum'}) là cột dữ liệu mà chúng ta đang muốn nhóm, và nhóm theo kiểu lấy tổng (sum)
Sales_grouped = Sales.groupby(by='order').agg({'ext price': 'sum'})
Sales_grouped

	ext price
order
10001	576.12
10005	8185.49
10006	3724.49

Nếu dữ liệu lớn có thể sắp xếp theo thứ tự tăng hoặc giảm dần để dễ đánh giá

# sort_values(by='ext price', ascending=True) lệnh sắp xếp dữ liệu theo cột 'ext price' theo thứ tự tăng dần (ascending=True), nếu giảm dần thì (ascending=False)
Sales_grouped = Sales.groupby('order',group_keys=False).agg({'ext price': 'sum'}).sort_values(by='ext price', ascending=True)
Sales_grouped

	ext price
order
10001	576.12
10006	3724.49
10005	8185.49

Hàm groupby trong pandas còn có nhiều tham số khác để bạn có thể tùy chỉnh:¶

DataFrame.groupby(by=None, level=None, as_index=True, sort=True, dropna=True)

by : chỉ định tiêu chí, đối tượng cần nhóm, như cột 'order' trong ví dụ trên.
level : kiểu số nguyên hoặc chuỗi: Nếu trục là MultiIndex (phân cấp), thì nhóm theo các cấp cụ thể.
as_index : kiểu bool, default=True: Biến cột tiêu chí thành Index (chỉ số), as_index = False thì giữ nguyên index cũ.
sort : kiểu bool, default=True: Sắp xếp cột tiêu chí theo thứ tự.
dropna : kiểu bool, default=True: Loại bỏ những hàng và cột có giá trị Nan

# Tạo Dataframe
arrays = [['Chim ưng', 'Chim ưng', 'Vẹt', 'Vẹt'],
          ['Được nuôi', 'Hoang dã','Được nuôi', 'Hoang dã']]
index = pd.MultiIndex.from_arrays(arrays, names=('Loài', 'Môi trường sống'))
df = pd.DataFrame({'Vận tốc tối đa (km/h)': [390., 350., 30., 20.]},
                  index=index)
df

		Vận tốc tối đa (km/h)
Loài	Môi trường sống
Chim ưng	Được nuôi	390.0
Hoang dã	350.0
Vẹt	Được nuôi	30.0
Hoang dã	20.0

# Tính vận tốc trung bình của từng loài
df.groupby(level='Loài').mean()

	Vận tốc tối đa (km/h)
Loài
Chim ưng	370.0
Vẹt	25.0

# Tính vận tốc trung bình theo môi trường sống
# level 1 tương ứng với 'Môi trường sống'
df.groupby(level=1).mean()

	Vận tốc tối đa (km/h)
Môi trường sống
Hoang dã	185.0
Được nuôi	210.0

# Tạo Dataframe
array = [[1, 2, 3], [1, None, 4], [2, 1, 3], [1, 2, 2]]
df = pd.DataFrame(array, columns=["a", "b", "c"])
df

	a	b	c
0	1	2.0	3
1	1	NaN	4
2	2	1.0	3
3	1	2.0	2

# dropna mặc định = True, nên nó sẽ loại bỏ hàng có giá trị NaN
df.groupby(by=["b"]).sum()

# Thử với dropna=False
df.groupby(by=["b"], dropna=False).sum()

	a	c
b
1.0	2	3
2.0	2	5
NaN	1	4

Nguồn phát hành: ERX VN

Liên hệ

TIN NỔI BẬT

Không tìm thấy dữ liệu

Hướng dẫn dùng grouping python python

Pandas GroupBy là một hàm mạnh mẽ và linh hoạt trong Python. Nó cho phép bạn chia dữ liệu của mình thành các nhóm riêng biệt để thực hiện các phép tính nhằm phân tích tốt hơn, cũng hoàn toàn tương tự như groupby trong SQL.

Để làm tất cả các bước trên trong python chỉ cần một câu lệnh groupby đơn giản.¶

Hàm groupby trong pandas còn có nhiều tham số khác để bạn có thể tùy chỉnh:¶

Bài viết liên quan

Liên hệ

TIN NỔI BẬT

Bài Viết Liên Quan

Quảng Cáo

Có thể bạn quan tâm

Toplist được quan tâm

Quảng cáo

Xem Nhiều

Quảng cáo

Chúng tôi

Điều khoản

Trợ giúp

Mạng xã hội