Hướng dẫn how many bins should a histogram have python? - Một biểu đồ nên có bao nhiêu thùng?

Tham số bins cho bạn biết số lượng thùng mà dữ liệu của bạn sẽ được chia thành. Bạn có thể chỉ định nó là một số nguyên hoặc như một danh sách các cạnh bin.

Ví dụ, ở đây chúng tôi yêu cầu 20 thùng:

import numpy as np
import matplotlib.pyplot as plt

x = np.random.randn(1000)
plt.hist(x, bins=20)

Hướng dẫn how many bins should a histogram have python? - Một biểu đồ nên có bao nhiêu thùng?

Và ở đây chúng tôi yêu cầu các cạnh bin tại các vị trí [-4, -3, -2 ... 3, 4].

plt.hist(x, bins=range(-4, 5))

Hướng dẫn how many bins should a histogram have python? - Một biểu đồ nên có bao nhiêu thùng?

Câu hỏi của bạn về cách chọn số lượng thùng "tốt nhất" là một câu hỏi thú vị, và thực sự có một tài liệu khá rộng lớn về chủ đề này. Có một số quy tắc thường được sử dụng đã được đề xuất (ví dụ: quy tắc Freedman-Daconis, quy tắc của Sturges, quy tắc của Scott, quy tắc gốc vuông, v.v.) mỗi quy tắc có điểm mạnh và điểm yếu riêng.

Nếu bạn muốn triển khai Python tốt đẹp của một loạt các quy tắc biểu đồ tự động điều chỉnh này, bạn có thể kiểm tra chức năng biểu đồ trong phiên bản mới nhất của gói Astropy, được mô tả ở đây. Điều này hoạt động giống như plt.hist, nhưng cho phép bạn sử dụng cú pháp như, ví dụ: hist(x, bins='freedman') để chọn thùng thông qua quy tắc Freedman-Diaconis được đề cập ở trên.

Sở thích cá nhân của tôi là "Bayesian Blocks" (bins="blocks"), giải quyết cho Binning tối ưu với chiều rộng bin không đồng đều. Bạn có thể đọc thêm một chút về điều đó ở đây.


EDIT, Tháng 4 năm 2017: Với Matplotlib phiên bản 2.0 trở lên và phiên bản Numpy 1.11 trở lên, giờ đây bạn có thể chỉ định các thùng được xác định tự động trực tiếp trong matplotlib, bằng cách chỉ định, ví dụ: bins='auto'. Điều này sử dụng mức tối đa của sự lựa chọn bin Sturges và Freedman-Diaconis. Bạn có thể đọc thêm về các tùy chọn trong tài liệu numpy.histogram.

Biểu đồ bạn vừa làm có mười thùng. Đây là mặc định của matplotlib. "Quy tắc gốc bậc" là một quy tắc thường được sử dụng để chọn số lượng thùng: Chọn số lượng thùng là căn bậc hai của số lượng mẫu. Vẽ biểu đồ của chiều dài cánh hoa viris Verscolor một lần nữa, lần này sử dụng quy tắc gốc căn bậc hai cho số lượng thùng. Bạn chỉ định số lượng thùng bằng đối số từ khóa bins của plt.hist().

Các tiện ích âm mưu đã được nhập khẩu và các mặc định của Seaborn đã được thiết lập. Biến bạn đã xác định trong bài tập trước,

plt.hist(x, bins=range(-4, 5))
0, đã ở trong không gian tên của bạn.

Thống kê mô tả> Cách chọn kích thước thùng trong thống kê

Contents:

  1. Thùng là gì?
  2. Làm thế nào để chọn kích thước thùng.

Thống kê là gì? Tổng quan

Trong thống kê, dữ liệu thường được sắp xếp theo cách này hay cách khác. Bạn có thể sắp xếp dữ liệu vào các lớp, danh mục, theo phạm vi hoặc vị trí trên dòng số. Một bin Bin đôi khi được gọi là khoảng thời gian lớp là một cách sắp xếp dữ liệu trong biểu đồ. Nó rất giống với ý tưởng đưa dữ liệu vào các danh mục.bin—sometimes called a class interval—is a way of sorting data in a histogram. It’s very similar to the idea of putting data into categories.

Một thùng trong thống kê là gì: Tại sao không sử dụng các danh mục của Cameron thay vì khoảng thời gian của lớp?

Khi bạn đặt dữ liệu vào các danh mục, bạn đã đưa chúng vào các danh mục đó mà không có bất kỳ suy nghĩ nào về cách dữ liệu đó có thể cho bạn biết điều gì đó. Việc sắp xếp cơ bản thành các danh mục như nam/nữ hoặc có/không tồn tại trong các thống kê, nhưng khi nói đến việc tạo một biểu đồ, bạn đã nhắm đến việc tạo biểu đồ cho bạn một số thông tin rất tốt về cách dữ liệu của bạn được truyền bá. Do đó, bạn muốn cẩn thận chọn danh mục/lớp. Bạn có thể nghĩ về một thùng là một thùng vật lý nơi bạn có thể sắp xếp các đối tượng vào.some very good information about how your data is spread out. Therefore you want to carefully choose categories/classes. You can think of a bin as being a physical bin where you might sort objects into.

Hướng dẫn how many bins should a histogram have python? - Một biểu đồ nên có bao nhiêu thùng?

Hãy tưởng tượng bạn làm việc trong một cửa hàng quần áo và muốn biết những mặt hàng giày nào phổ biến nhất trong kho của bạn. Nếu bạn chỉ lấp đầy một thùng, thùng của bạn có thể sẽ tràn khá nhanh và bạn không có thông tin. Bạn có thể thử sử dụng các thùng khác nhau cho căn hộ, giày cao gót, giày thể thao và dép. Điều đó có thể cho bạn một ý tưởng tốt hơn về hàng tồn kho của bạn. Hoặc bạn có thể thêm các thùng cho gót màu đen, giày cao gót màu trắng, v.v. Nó cùng một nguyên tắc khi chọn thùng cho biểu đồ; Bạn muốn chọn đúng số lượng thùng để cung cấp cho bạn thông tin bạn cần.

Thống kê là gì: chọn thùng

Cần trợ giúp với một câu hỏi bài tập về nhà? Kiểm tra trang dạy kèm của chúng tôi! with a homework question? Check out our tutoring page!

Chọn thùng có thể được thực hiện bằng tay cho biểu đồ đơn giản trong hầu hết các trường hợp. Ví dụ: nếu bạn đang thực hiện biểu đồ cho điểm thi, chọn các thùng phù hợp với các lớp (70-79, 80-89, 90-100) là một lựa chọn khá rõ ràng. Bạn có hai số được liên kết với mỗi thùng: can be done by hand for simple histograms in most cases. For example, if you are making a histogram for exam scores, choosing bins that matches grades (70-79, 80-89, 90-100) is a fairly obvious choice. You have two numbers associated with each bin:

  • Giá trị thấp (đôi khi được gọi là Bin thấp), trong ví dụ này sẽ là 70, 80, 90,
  • Giá trị cao (đôi khi được gọi là Bin High) trong ví dụ này là 79 89 100.

Mặc dù vậy, trong hầu hết các trường hợp, việc chọn thùng sẽ đơn giản, đặc biệt là đối với các bộ dữ liệu lớn. Khi xử lý các bộ số lớn, bạn thường tốt hơn khi sử dụng công nghệ như Microsoft Excel để tạo biểu đồ (cách tạo biểu đồ trong Excel), bởi vì nếu lựa chọn thùng của bạn không tạo ra một sơ đồ đẹp, bạn có thể Thay đổi động các giá trị thùng mà không phải vẽ biểu đồ.

Chọn kích thước thùng: Tổng quan

Xem video cho các bước:

Cách chọn kích thước thùng cho biểu đồ

Có thể xem video? Bấm vào đây.

  • BIN nên có cùng kích thước. Ví dụ, các nhóm mười hoặc một trăm.
  • Các thùng nên bao gồm tất cả các dữ liệu, thậm chí các ngoại lệ. Nếu các ngoại lệ của bạn nằm ngoài dữ liệu khác của bạn, hãy xem xét việc đưa chúng vào thùng đầu tiên hoặc cuối cùng của bạn. Điều này tạo ra một biểu đồ thô, chắc chắn bạn lưu ý nơi các ngoại lệ đang được đưa vào.
  • Ranh giới cho các thùng phải hạ cánh ở số lượng toàn bộ bất cứ khi nào có thể (điều này làm cho biểu đồ dễ đọc hơn).
  • Chọn từ 5 đến 20 thùng. Bộ dữ liệu càng lớn, bạn càng muốn có một số lượng lớn thùng. Ví dụ: một bộ 12 phần dữ liệu có thể đảm bảo 5 thùng nhưng một bộ 1000 số có thể sẽ hữu ích hơn với 20 thùng. Số lượng chính xác của thùng thường là một cuộc gọi phán xét.
  • Nếu có thể, hãy cố gắng làm cho dữ liệu của bạn được đặt đều chia đều cho số lượng thùng. Ví dụ: nếu bạn có 10 phần dữ liệu, hãy làm việc với 5 thùng thay vì 6 hoặc 7.

Bước 1: Tìm điểm dữ liệu nhỏ nhất và lớn nhất. Nếu số nhỏ nhất và/hoặc lớn nhất của bạn không phải là số toàn bộ, hãy chuyển sang bước 2. Nếu chúng là số toàn bộ, hãy chuyển sang bước 3.Find the smallest and largest data point. If your smallest and/or largest numbers are not whole numbers, go to Step 2. If they are whole numbers, go to Step 3.

Bước 2: Hạ mức tối thiểu một chút và tăng tối đa một chút. Ví dụ, 1.2 Tối thiểu trở thành 1 và 99,9 khi tối đa trở thành 100.Lower the minimum a little and raise the maximum a little. For example, 1.2 as a minimum becomes 1, and 99.9 as a maximum becomes 100.

Bước 3: Quyết định xem bạn cần bao nhiêu thùng bằng cách sử dụng dự đoán tốt nhất của bạn và sử dụng các hướng dẫn được liệt kê trong đoạn giới thiệu ở trên.Decide how many bins you need using your best guess and using the guidelines listed in the intro paragraph above.

Bước 4: Chia phạm vi của bạn (các số trong tập dữ liệu của bạn) cho kích thước thùng bạn đã chọn trong bước 3. Ví dụ: nếu bạn có các số nằm trong khoảng từ 0 đến 50 và bạn đã chọn 5 thùng, kích thước thùng của bạn là 50/ 5 = 10.Divide your range (the numbers in your data set) by the bin size you chose in Step 3. For example, if you have numbers that range from 0 to 50, and you chose 5 bins, your bin size is 50/5=10.

Bước 5: Tạo ranh giới thùng bằng cách bắt đầu với số nhỏ nhất của bạn (từ bước 1 và 2) và thêm kích thước thùng từ bước 4. Ví dụ: nếu số nhỏ nhất của bạn là 0 và kích thước thùng của bạn là 10 bạn sẽ có ranh giới thùng của 0, 10, 20…Create the bin boundaries by starting with your smallest number (from Steps 1 and 2) and adding the bin size from Step 4. For example, if your smallest number is 0 and your bin size is 10 you would have bin boundaries of 0, 10, 20…

Mẹo: Nếu bạn có một bộ dữ liệu lớn, bạn có thể muốn sử dụng Excel để tìm điểm nhỏ nhất và lớn nhất. Gõ dữ liệu của bạn vào một cột duy nhất và sau đó sử dụng hàm or -sort 'hoặc loại = min (a: a) trong một ô trống trong một cột khác (tức là cột B) và sau đó gõ = max (a: a) để lấy số lớn nhất. If you have a large data set, you may want to use Excel to find the smallest and largest point. Type your data into a single column and then use the “Sort” function or type =MIN(A:A) in a blank cell in a different column (i.e. column B) and then type =MAX(A:A) to get the biggest number.

Chọn kích thước thùng với quy tắc Sturge

Quy tắc Sturge, là một cách khác để chọn kích thước thùng. Mặc dù nó được sử dụng rộng rãi trong các gói thống kê để tạo biểu đồ, nhưng nó đã bị chỉ trích vì âm biểu quá mượt mà (Hyndman, 1995). Do đó, nó có lẽ nên được coi là một quy tắc của ngón tay cái, chứ không phải là một công thức tuyệt đối với giải pháp hoàn hảo.

Công thức là: k = 1 + 3. 322 logn trong đó: k = số khoảng thời gian lớp (thùng). N = số lượng quan sát trong tập hợp. log = logarit của số.
K = 1 + 3. 322 logN
where:
K = number of class intervals (bins).
N = number of observations in the set.
log = logarithm of the number.

Ví dụ

Đối với 10 quan sát trong tập hợp, số khoảng thời gian của lớp là:

  • K = 1 + 3.322 log (10) = 4.322 ≅ 4

Đối với 55 quan sát trong tập hợp, số khoảng thời gian của lớp là:

  • K = 1 + 3.322 log (55) = 6.781 ≅ 7

Khi nào nên sử dụng quy tắc Sturge

Quy tắc Sturge, hoạt động tốt nhất cho dữ liệu liên tục thường được phân phối và đối xứng. Nó giúp chúng tôi chuyển đổi dữ liệu này thành các lớp nhị thức, đối xứng, đối xứng. Miễn là dữ liệu của bạn không bị sai lệch, việc sử dụng quy tắc Sturge sẽ cung cấp cho bạn một biểu đồ đẹp, dễ đọc, thể hiện dữ liệu tốt.

Những gì quy tắc Sturge không tốt cho việc bị sai lệch nghiêm trọng, các bộ dữ liệu không đối xứng hoặc cho một số lượng lớn các quan sát. Tại đây, bạn sẽ muốn sử dụng một trong nhiều lựa chọn thay thế có sẵn. not much good for is severely skewed, non symmetric data sets, or for an extremely large number of observations. Here you’ll want to use one of the many available alternatives.

Công thức nâng cao để chọn kích thước thùng

Những công thức thay thế này không phải là những gì bạn có thể mong đợi tìm thấy trong một lớp thống kê cơ bản; Chúng không được sử dụng thường xuyên.

  • Quy tắc Doane,
  • Quy tắc Scott,
  • Quy tắc gạo,
  • Freedman và Diaconis từ (1981).

Quy tắc Doane từ để chọn kích thước thùng

Phiên bản sửa đổi này của quy tắc Sturge, cũng có thể dẫn đến quá mịn:

Hướng dẫn how many bins should a histogram have python? - Một biểu đồ nên có bao nhiêu thùng?
Công thức Doane sườn (Legg et. Al. 2013)

Quy tắc Scott Scott

Quy tắc của Scott để chọn kích thước thùng dựa trên độ lệch chuẩn () của dữ liệu. Công thức là: 3,49σn 1/3..49σn−1/3.

Rice Rice Quy tắc

Quy tắc lúa gạo được định nghĩa là: (gốc khối của số lượng quan sát) * 2. Đối với 216 quan sát, quy tắc gạo bằng 12 (gốc khối của 216 là 6; 6 * 2 = 12).
For 216 observations, the Rice rule equals 12 (the cubed root of 216 is 6; 6 * 2 = 12).

Quy tắc Freedman-Diaconis

Công thức này sử dụng phạm vi liên vùng (IQR): 2 (IQR) N - 1/3
2(IQR)n−1/3

Chọn Kích thước Bin: Tài liệu tham khảo

Doane, D.P. Phân loại tần số thẩm mỹ. Nhà thống kê người Mỹ, 30, 181 181 183. Truy cập ngày 13 tháng 12 năm 2017 từ http://www.jstor.org/stable/2683757 ngày 13 tháng 12 năm 2017 Gonick, L. (1993). Hướng dẫn hoạt hình để thống kê. Harperper Years. Legg et. Al (2013). Cải thiện độ chính xác và hiệu quả của thông tin lẫn nhau cho đăng ký hình ảnh võng mạc đa phương thức bằng cách sử dụng ước tính mật độ xác suất thích ứng. Hyndman, R. (1995). Vấn đề với quy tắc của Sturges để xây dựng biểu đồ. Truy cập ngày 13 tháng 12 năm 2017 từ: https://robjhyndman.com/papers/sturges.pdf
Gonick, L. (1993). The Cartoon Guide to Statistics. HarperPerennial.
Legg et. al (2013). Improving Accuracy and Efficiency of Mutual Information for Multi-modal Retinal Image Registration using Adaptive Probability Density Estimation.
Hyndman, R. (1995). The problem with Sturges’ rule for constructing histograms. Retrieved December 13, 2017 from: https://robjhyndman.com/papers/sturges.pdf

---------------------------------------------------------- -----------------------------

Cần trợ giúp với một bài tập về nhà hoặc câu hỏi kiểm tra? Với Chegg Study, bạn có thể nhận được các giải pháp từng bước cho các câu hỏi của bạn từ một chuyên gia trong lĩnh vực này. 30 phút đầu tiên của bạn với một gia sư Chegg là miễn phí! With Chegg Study, you can get step-by-step solutions to your questions from an expert in the field. Your first 30 minutes with a Chegg tutor is free!

Bình luận? Cần đăng một sửa chữa? Xin vui lòng liên hệ với chúng tôi. Please Contact Us.

Một số lượng tốt các thùng trong biểu đồ là gì?

Chọn từ 5 đến 20 thùng. Bộ dữ liệu càng lớn, bạn càng muốn có một số lượng lớn thùng. Ví dụ: một bộ 12 phần dữ liệu có thể đảm bảo 5 thùng nhưng một bộ 1000 số có thể sẽ hữu ích hơn với 20 thùng.between 5 and 20 bins. The larger the data set, the more likely you'll want a large number of bins. For example, a set of 12 data pieces might warrant 5 bins but a set of 1000 numbers will probably be more useful with 20 bins.

Làm thế nào để bạn xác định số lượng thùng trong biểu đồ Python?

"Quy tắc gốc bậc" là một quy tắc thường được sử dụng để chọn số lượng thùng: Chọn số lượng thùng là căn bậc hai của số lượng mẫu. Vẽ biểu đồ của chiều dài cánh hoa viris Verscolor một lần nữa, lần này sử dụng quy tắc gốc căn bậc hai cho số lượng thùng.choose the number of bins to be the square root of the number of samples. Plot the histogram of Iris versicolor petal lengths again, this time using the square root rule for the number of bins.

Số lượng thùng ảnh hưởng đến biểu đồ như thế nào?

Nếu bạn có quá nhiều thùng, thì phân phối dữ liệu sẽ trông thô và sẽ rất khó để nhận ra tín hiệu từ nhiễu.Mặt khác, với quá ít thùng, biểu đồ sẽ thiếu các chi tiết cần thiết để nhận ra bất kỳ mẫu hữu ích nào từ dữ liệu.. On the other hand, with too few bins, the histogram will lack the details needed to discern any useful pattern from the data.

Các thùng trong biểu đồ python là gì?

Nó là một loại biểu đồ thanh.Để xây dựng một biểu đồ, bước đầu tiên là về Bin bin, phạm vi của các giá trị - nghĩa là chia toàn bộ phạm vi giá trị thành một loạt các khoảng - và sau đó đếm số lượng giá trị rơi vào mỗi khoảng.Các thùng thường được chỉ định là các khoảng liên tiếp, không chồng chéo của một biến.divide the entire range of values into a series of intervals — and then count how many values fall into each interval. The bins are usually specified as consecutive, non-overlapping intervals of a variable.