Biểu đồ thùng trăn là gì?
Biểu đồ là một công cụ rất hữu ích khi chúng ta muốn xem nhanh hình dạng dữ liệu của mình. Tuy nhiên chúng ta luôn phải chọn số thùng phù hợp Show
Biểu đồ là biểu diễn phân phối xác suất của tập dữ liệu. Cho trước một chiều rộng thùng, phạm vi của biến được chia thành các khoảng không chồng chéo của chiều rộng đó và… nhập khẩu cốt truyện. graph_objects khi đi từ cốt truyện. subplots nhập make_subplots x = ['1970-01-01', '1970-01-01', '1970-02-01', '1970-04-01', '1970-01-02', '1972-01 . Biểu đồ (x=x, nbinsx=4) dấu vết1 = đi. Biểu đồ (x=x, nbinsx = 8) dấu vết2 = đi. Biểu đồ (x=x, nbinsx=10) dấu vết3 = đi. Biểu đồ(x=x, xbins=dict( start='1969-11-15', end='1972-03-31', size='M18'), # M18 là viết tắt của 18 tháng autobinx=False ) dấu vết4 = đi. Biểu đồ (x=x, xbins=dict( start='1969-11-15', end='1972-03-31', size='M4'), # 4 tháng kích thước thùng autobinx=False ) dấu vết5 = đi. Biểu đồ (x=x, xbins=dict( start='1969-11-15', end='1972-03-31', size= 'M2'), # 2 tháng autobinx = False ) hình. append_trace(trace0, 1, 1) hình. append_trace(trace1, 1, 2) hình. append_trace(trace2, 2, 1) hình. append_trace(trace3, 2, 2) hình. append_trace(trace4, 3, 1) hình. append_trace(trace5, 3, 2) hình. buổi bieu diễn()Biểu đồ là biểu đồ sử dụng các thanh biểu thị tần số giúp trực quan hóa việc phân phối dữ liệu Trong bài đăng này, bạn sẽ tìm hiểu cách tạo biểu đồ bằng Python, bao gồm Matplotlib và Pandas Mục lục
Video hướng dẫnBiểu đồ là gì?Biểu đồ là biểu đồ sử dụng các thanh biểu thị tần số giúp trực quan hóa việc phân phối dữ liệu Các thanh có thể đại diện cho các giá trị duy nhất hoặc các nhóm số nằm trong phạm vi. Thanh càng cao, càng nhiều dữ liệu rơi vào phạm vi đó Hình dạng của biểu đồ hiển thị sự trải rộng của một mẫu dữ liệu liên tục Nếu bạn muốn tìm hiểu cách tạo thùng chứa dữ liệu của riêng mình, bạn có thể xem hướng dẫn của tôi về cách tạo thùng dữ liệu với Pandas Biểu đồ có thể biến một bảng tần số của dữ liệu được đánh dấu thành một hình ảnh hữu ích Đang tải tập dữ liệu của chúng tôiHãy bắt đầu bằng cách tải các thư viện cần thiết và tập dữ liệu của chúng tôi. Sau đó, chúng ta có thể tạo biểu đồ bằng Python trên cột tuổi để trực quan hóa phân phối của biến đó import pandas as pd import matplotlib.pyplot as plt df = pd.read_excel('https://github.com/datagy/Intro-to-Python/raw/master/sportsdata.xls', usecols=['Age']) print(df.describe()) # Returns: # Age # count 5000.000000 # mean 25.012200 # std 5.013849 # min 4.000000 # 25% 22.000000 # 50% 25.000000 # 75% 28.000000 # max 43.000000 Chúng ta có thể thấy từ dữ liệu trên rằng dữ liệu lên tới 43. Có thể hợp lý khi chia dữ liệu theo gia số 5 năm Tạo biểu đồ trong Python bằng MatplotlibĐể tạo biểu đồ trong Python bằng Matplotlib, bạn có thể sử dụng hàm hist() Hàm lịch sử này nhận một số đối số, đối số chính là đối số thùng, chỉ định số lượng thùng có chiều rộng bằng nhau trong phạm vi Mẹo. Nếu bạn đang làm việc trong môi trường Jupyter, hãy đảm bảo bao gồm ma thuật Jupyter nội tuyến %matplotlib để hiển thị biểu đồ nội tuyến Cách dễ nhất để tạo biểu đồ bằng Matplotlib, đơn giản là gọi hàm hist plt.hist(df['Age']) Điều này trả về biểu đồ với tất cả các tham số mặc định Xác định kích thước thùng biểu đồ MatplotlibBạn có thể xác định các thùng bằng cách sử dụng đối số bins=. Điều này chấp nhận một số (đối với số lượng thùng) hoặc danh sách (đối với các thùng cụ thể) Nếu bạn muốn để biểu đồ của mình có 9 thùng, bạn có thể viết plt.hist(df['Age'], bins=9) Điều này tạo ra hình ảnh sau đây Xác định thùng biểu đồ MatplotlibNếu bạn muốn cụ thể hơn về kích thước của các thùng mà bạn có, bạn có thể xác định chúng hoàn toàn. Ví dụ: nếu bạn muốn thùng rác của mình giảm theo gia số năm năm, bạn có thể viết plt.hist(df['Age'], bins=[0,5,10,15,20,25,35,40,45,50]) Điều này cho phép bạn rõ ràng về nơi dữ liệu sẽ rơi. Mã này trả về như sau Giới hạn thùng biểu đồ MatplotlibBạn cũng có thể sử dụng các thùng để loại trừ dữ liệu. Nếu bạn chỉ quan tâm đến độ tuổi trả lại trên một độ tuổi nhất định, bạn chỉ cần loại trừ những độ tuổi đó khỏi danh sách của mình Ví dụ: nếu bạn muốn loại trừ độ tuổi dưới 20, bạn có thể viết plt.hist(df['Age'], bins=[20,25,35,40,45,50]) Biểu đồ Matplotlib Thang logaritNếu dữ liệu của bạn có một số thùng chứa nhiều dữ liệu hơn đáng kể so với các thùng khác, thì có thể hữu ích khi trực quan hóa dữ liệu bằng thang logarit. Điều này có thể được thực hiện bằng cách sử dụng đối số log=True plt.hist(df['Age'], bins=range(0,55,5), log=True) Điều này trả về hình ảnh sau đây Thay đổi giao diện biểu đồ MatplotlibĐể thay đổi giao diện của biểu đồ, có ba đối số quan trọng cần biết
Để thay đổi căn chỉnh và màu sắc của biểu đồ, chúng ta có thể viết plt.hist(df['Age'], bins=9, align='right', color='purple', edgecolor='black') Điều này tạo ra biểu đồ sau Để tìm hiểu thêm về hàm lịch sử Matplotlib, hãy xem tài liệu chính thức Tạo biểu đồ bằng Python với PandasKhi làm việc với khung dữ liệu Pandas, thật dễ dàng để tạo biểu đồ. Pandas tích hợp rất nhiều chức năng Matplotlib Pyplot để giúp vẽ đồ thị dễ dàng hơn nhiều Biểu đồ gấu trúc có thể được áp dụng trực tiếp cho khung dữ liệu, sử dụng. hàm lịch sử () df.hist() Điều này tạo ra biểu đồ bên dưới Chúng tôi có thể tùy chỉnh thêm bằng cách sử dụng các đối số chính bao gồm
Xem một số hướng dẫn Python khác về datagy, bao gồm hướng dẫn đầy đủ của chúng tôi về cách tạo kiểu cho Pandas và tổng quan toàn diện của chúng tôi về Pivot Tables trong Pandas Hãy thay đổi mã của chúng tôi để chỉ bao gồm 9 thùng và loại bỏ lưới ________số 8Điều này trả về khung dữ liệu bên dưới Bạn cũng có thể thêm tiêu đề và nhãn trục bằng cách sử dụng cách sau df.hist(grid=False, bins=9) plt.xlabel('Age of Players') plt.ylabel('# of Players') plt.title('Age Distribution') Cái nào trả về sau Tương tự, nếu bạn muốn xác định ranh giới cạnh thực tế, bạn có thể thực hiện việc này bằng cách đưa vào danh sách các giá trị mà bạn muốn ranh giới của mình là Điều này có thể được tăng tốc bằng cách sử dụng hàm range() plt.hist(df['Age'])0 Điều này trả về như sau Nếu bạn muốn tìm hiểu thêm về chức năng, hãy xem tài liệu chính thức Sự kết luậnTrong bài đăng này, bạn đã tìm hiểu biểu đồ tần suất là gì và cách tạo biểu đồ bằng Python, bao gồm sử dụng Matplotlib, Pandas và Seaborn. Mỗi thư viện này đều có những ưu điểm và nhược điểm riêng. Nếu bạn đang tìm kiếm một tùy chọn thân thiện với số liệu thống kê hơn, Seaborn là lựa chọn phù hợp Thùng có nghĩa là gì trong biểu đồ?Biểu đồ hiển thị dữ liệu số bằng cách nhóm dữ liệu vào "các ngăn" có chiều rộng bằng nhau . Mỗi ngăn được vẽ dưới dạng một thanh có chiều cao tương ứng với số lượng điểm dữ liệu trong ngăn đó. Các thùng đôi khi còn được gọi là "khoảng", "lớp" hoặc "xô".
Biểu đồ Numpy bin là gì?bin int hoặc chuỗi vô hướng hoặc str, tùy chọn . Nếu bins là một int, nó xác định số lượng thùng có chiều rộng bằng nhau trong phạm vi đã cho (10, theo mặc định). Nếu các thùng là một chuỗi, thì nó xác định một mảng tăng dần các cạnh của thùng, bao gồm cả cạnh ngoài cùng bên phải, cho phép độ rộng của các thùng không đồng nhất. |