Biểu đồ thùng trăn là gì?

Biểu đồ là một công cụ rất hữu ích khi chúng ta muốn xem nhanh hình dạng dữ liệu của mình. Tuy nhiên chúng ta luôn phải chọn số thùng phù hợp

một biểu đồ là gì?

Biểu đồ là biểu diễn phân phối xác suất của tập dữ liệu. Cho trước một chiều rộng thùng, phạm vi của biến được chia thành các khoảng không chồng chéo của chiều rộng đó và…

nhập khẩu cốt truyện. graph_objects khi đi từ cốt truyện. subplots nhập make_subplots x = ['1970-01-01', '1970-01-01', '1970-02-01', '1970-04-01', '1970-01-02', '1972-01 . Biểu đồ [x=x, nbinsx=4] dấu vết1 = đi. Biểu đồ [x=x, nbinsx = 8] dấu vết2 = đi. Biểu đồ [x=x, nbinsx=10] dấu vết3 = đi. Biểu đồ[x=x, xbins=dict[ start='1969-11-15', end='1972-03-31', size='M18'], # M18 là viết tắt của 18 tháng autobinx=False ] dấu vết4 = đi. Biểu đồ [x=x, xbins=dict[ start='1969-11-15', end='1972-03-31', size='M4'], # 4 tháng kích thước thùng autobinx=False ] dấu vết5 = đi. Biểu đồ [x=x, xbins=dict[ start='1969-11-15', end='1972-03-31', size= 'M2'], # 2 tháng autobinx = False ] hình. append_trace[trace0, 1, 1] hình. append_trace[trace1, 1, 2] hình. append_trace[trace2, 2, 1] hình. append_trace[trace3, 2, 2] hình. append_trace[trace4, 3, 1] hình. append_trace[trace5, 3, 2] hình. buổi bieu diễn[]

Biểu đồ là biểu đồ sử dụng các thanh biểu thị tần số giúp trực quan hóa việc phân phối dữ liệu

Trong bài đăng này, bạn sẽ tìm hiểu cách tạo biểu đồ bằng Python, bao gồm Matplotlib và Pandas

Mục lục

  • Video hướng dẫn
  • Biểu đồ là gì?
  • Đang tải tập dữ liệu của chúng tôi
  • Tạo biểu đồ trong Python bằng Matplotlib
  • Xác định kích thước thùng biểu đồ Matplotlib
  • Xác định thùng biểu đồ Matplotlib
  • Giới hạn thùng biểu đồ Matplotlib
  • Biểu đồ Matplotlib Thang logarit
  • Thay đổi giao diện biểu đồ Matplotlib
  • Tạo biểu đồ bằng Python với Pandas
  • Sự kết luận

Video hướng dẫn

Biểu đồ là gì?

Biểu đồ là biểu đồ sử dụng các thanh biểu thị tần số giúp trực quan hóa việc phân phối dữ liệu

Các thanh có thể đại diện cho các giá trị duy nhất hoặc các nhóm số nằm trong phạm vi. Thanh càng cao, càng nhiều dữ liệu rơi vào phạm vi đó

Hình dạng của biểu đồ hiển thị sự trải rộng của một mẫu dữ liệu liên tục

Nếu bạn muốn tìm hiểu cách tạo thùng chứa dữ liệu của riêng mình, bạn có thể xem hướng dẫn của tôi về cách tạo thùng dữ liệu với Pandas

Biểu đồ có thể biến một bảng tần số của dữ liệu được đánh dấu thành một hình ảnh hữu ích

Đang tải tập dữ liệu của chúng tôi

Hãy bắt đầu bằng cách tải các thư viện cần thiết và tập dữ liệu của chúng tôi. Sau đó, chúng ta có thể tạo biểu đồ bằng Python trên cột tuổi để trực quan hóa phân phối của biến đó

import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_excel['//github.com/datagy/Intro-to-Python/raw/master/sportsdata.xls', usecols=['Age']]

print[df.describe[]]

# Returns:
# 	Age
# count 	5000.000000
# mean 	25.012200
# std 	5.013849
# min 	4.000000
# 25% 	22.000000
# 50% 	25.000000
# 75% 	28.000000
# max 	43.000000

Chúng ta có thể thấy từ dữ liệu trên rằng dữ liệu lên tới 43. Có thể hợp lý khi chia dữ liệu theo gia số 5 năm

Tạo biểu đồ trong Python bằng Matplotlib

Để tạo biểu đồ trong Python bằng Matplotlib, bạn có thể sử dụng hàm hist[]

Hàm lịch sử này nhận một số đối số, đối số chính là đối số thùng, chỉ định số lượng thùng có chiều rộng bằng nhau trong phạm vi

Mẹo. Nếu bạn đang làm việc trong môi trường Jupyter, hãy đảm bảo bao gồm ma thuật Jupyter nội tuyến %matplotlib để hiển thị biểu đồ nội tuyến

Cách dễ nhất để tạo biểu đồ bằng Matplotlib, đơn giản là gọi hàm hist

plt.hist[df['Age']]

Điều này trả về biểu đồ với tất cả các tham số mặc định

Biểu đồ Matplotlib đơn giản

Xác định kích thước thùng biểu đồ Matplotlib

Bạn có thể xác định các thùng bằng cách sử dụng đối số bins=. Điều này chấp nhận một số [đối với số lượng thùng] hoặc danh sách [đối với các thùng cụ thể]

Nếu bạn muốn để biểu đồ của mình có 9 thùng, bạn có thể viết

plt.hist[df['Age'], bins=9]

Điều này tạo ra hình ảnh sau đây

Một biểu đồ đơn giản được tạo trong Matplotlib

Xác định thùng biểu đồ Matplotlib

Nếu bạn muốn cụ thể hơn về kích thước của các thùng mà bạn có, bạn có thể xác định chúng hoàn toàn. Ví dụ: nếu bạn muốn thùng rác của mình giảm theo gia số năm năm, bạn có thể viết

plt.hist[df['Age'], bins=[0,5,10,15,20,25,35,40,45,50]]

Điều này cho phép bạn rõ ràng về nơi dữ liệu sẽ rơi. Mã này trả về như sau

Xác định các cạnh thùng trong biểu đồ Matplotlib

Giới hạn thùng biểu đồ Matplotlib

Bạn cũng có thể sử dụng các thùng để loại trừ dữ liệu. Nếu bạn chỉ quan tâm đến độ tuổi trả lại trên một độ tuổi nhất định, bạn chỉ cần loại trừ những độ tuổi đó khỏi danh sách của mình

Ví dụ: nếu bạn muốn loại trừ độ tuổi dưới 20, bạn có thể viết

plt.hist[df['Age'], bins=[20,25,35,40,45,50]]

Không bao gồm các thùng trong Biểu đồ Matplotlib

Biểu đồ Matplotlib Thang logarit

Nếu dữ liệu của bạn có một số thùng chứa nhiều dữ liệu hơn đáng kể so với các thùng khác, thì có thể hữu ích khi trực quan hóa dữ liệu bằng thang logarit. Điều này có thể được thực hiện bằng cách sử dụng đối số log=True

plt.hist[df['Age'], bins=range[0,55,5], log=True]

Điều này trả về hình ảnh sau đây

Thang logarit trong Biểu đồ Matplotlib

Thay đổi giao diện biểu đồ Matplotlib

Để thay đổi giao diện của biểu đồ, có ba đối số quan trọng cần biết

  • căn chỉnh. chấp nhận giữa, phải, trái để chỉ định vị trí các thanh sẽ căn chỉnh liên quan đến điểm đánh dấu của chúng
  • màu sắc. chấp nhận màu Matplotlib, mặc định là màu xanh và
  • màu cạnh. chấp nhận màu Matplotlib và phác thảo các thanh

Để thay đổi căn chỉnh và màu sắc của biểu đồ, chúng ta có thể viết

plt.hist[df['Age'], bins=9, align='right', color='purple', edgecolor='black']

Điều này tạo ra biểu đồ sau

Tùy chỉnh biểu đồ Matplotlib

Để tìm hiểu thêm về hàm lịch sử Matplotlib, hãy xem tài liệu chính thức

Tạo biểu đồ bằng Python với Pandas

Khi làm việc với khung dữ liệu Pandas, thật dễ dàng để tạo biểu đồ. Pandas tích hợp rất nhiều chức năng Matplotlib Pyplot để giúp vẽ đồ thị dễ dàng hơn nhiều

Biểu đồ gấu trúc có thể được áp dụng trực tiếp cho khung dữ liệu, sử dụng. hàm lịch sử []

df.hist[]

Điều này tạo ra biểu đồ bên dưới

Tạo biểu đồ trong Pandas

Chúng tôi có thể tùy chỉnh thêm bằng cách sử dụng các đối số chính bao gồm

  • cột. vì khung dữ liệu của chúng tôi chỉ có một cột nên điều này là không cần thiết
  • lưới. mặc định là True
  • thùng. mặc định là 10

Xem một số hướng dẫn Python khác về datagy, bao gồm hướng dẫn đầy đủ của chúng tôi về cách tạo kiểu cho Pandas và tổng quan toàn diện của chúng tôi về Pivot Tables trong Pandas

Hãy thay đổi mã của chúng tôi để chỉ bao gồm 9 thùng và loại bỏ lưới

________số 8

Điều này trả về khung dữ liệu bên dưới

Sửa đổi biểu đồ trong Pandas

Bạn cũng có thể thêm tiêu đề và nhãn trục bằng cách sử dụng cách sau

df.hist[grid=False, bins=9]
plt.xlabel['Age of Players']
plt.ylabel['# of Players']
plt.title['Age Distribution']

Cái nào trả về sau

Sửa đổi biểu đồ bằng Pandas bằng cách thêm tiêu đề

Tương tự, nếu bạn muốn xác định ranh giới cạnh thực tế, bạn có thể thực hiện việc này bằng cách đưa vào danh sách các giá trị mà bạn muốn ranh giới của mình là

Điều này có thể được tăng tốc bằng cách sử dụng hàm range[]

plt.hist[df['Age']]
0

Điều này trả về như sau

Tùy chỉnh các cạnh thùng trong biểu đồ Pandas

Nếu bạn muốn tìm hiểu thêm về chức năng, hãy xem tài liệu chính thức

Sự kết luận

Trong bài đăng này, bạn đã tìm hiểu biểu đồ tần suất là gì và cách tạo biểu đồ bằng Python, bao gồm sử dụng Matplotlib, Pandas và Seaborn. Mỗi thư viện này đều có những ưu điểm và nhược điểm riêng. Nếu bạn đang tìm kiếm một tùy chọn thân thiện với số liệu thống kê hơn, Seaborn là lựa chọn phù hợp

Thùng có nghĩa là gì trong biểu đồ?

Biểu đồ hiển thị dữ liệu số bằng cách nhóm dữ liệu vào "các ngăn" có chiều rộng bằng nhau . Mỗi ngăn được vẽ dưới dạng một thanh có chiều cao tương ứng với số lượng điểm dữ liệu trong ngăn đó. Các thùng đôi khi còn được gọi là "khoảng", "lớp" hoặc "xô".

Biểu đồ Numpy bin là gì?

bin int hoặc chuỗi vô hướng hoặc str, tùy chọn . Nếu bins là một int, nó xác định số lượng thùng có chiều rộng bằng nhau trong phạm vi đã cho [10, theo mặc định]. Nếu các thùng là một chuỗi, thì nó xác định một mảng tăng dần các cạnh của thùng, bao gồm cả cạnh ngoài cùng bên phải, cho phép độ rộng của các thùng không đồng nhất.

Chủ Đề