Ghi chú.
range[start, stop, step]
13 trả về một dãy số bất biến có thể dễ dàng chuyển đổi thành danh sách, bộ dữ liệu, bộ, v.v.Cú pháp của phạm vi[]
Hàm
range[start, stop, step]
13 có thể nhận tối đa ba đối sốrange[start, stop, step]
Các tham số
range[start, stop, step]
0 và range[start, stop, step]
1 trong range[start, stop, step]
13 là tùy chọnBây giờ, hãy xem cách
range[start, stop, step]
13 hoạt động với số lượng đối số khác nhauví dụ 1. phạm vi [] với Đối số dừng
Nếu chúng ta chuyển một đối số duy nhất cho
range[start, stop, step]
13, điều đó có nghĩa là chúng ta đang chuyển đối số range[start, stop, step]
5Trong trường hợp này,
range[start, stop, step]
13 trả về một dãy số bắt đầu từ 0 cho đến số [nhưng không bao gồm số]# numbers from 0 to 3 [4 is not included]
numbers = range[4]
print[list[numbers]] # [0, 1, 2, 3]
# if 0 or negative number is passed, we get an empty sequence
numbers = range[-4]
print[list[numbers]] # []
ví dụ 2. phạm vi [] với các đối số bắt đầu và dừng
Nếu chúng ta truyền hai đối số cho
range[start, stop, step]
13, điều đó có nghĩa là chúng ta đang truyền các đối số range[start, stop, step]
0 và range[start, stop, step]
5Trong trường hợp này,
range[start, stop, step]
13 trả về một dãy số bắt đầu từ range[start, stop, step]
0 [bao gồm] đến range[start, stop, step]
5 [không bao gồm]# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
ví dụ 3. phạm vi [] với các đối số Bắt đầu, Dừng và Bước
Nếu chúng ta vượt qua cả ba đối số,
- đối số đầu tiên là
0range[start, stop, step]
- đối số thứ hai là
5range[start, stop, step]
- đối số thứ ba là
1range[start, stop, step]
Đối số
range[start, stop, step]
1 chỉ định số tăng giữa hai số trong dãyrange[start, stop, step]
4Ghi chú. Giá trị mặc định của
range[start, stop, step]
0 là 0 và giá trị mặc định của range[start, stop, step]
1 là 1. Đó là lý do tại sao # numbers from 0 to 3 [4 is not included]
numbers = range[4]
print[list[numbers]] # [0, 1, 2, 3]
# if 0 or negative number is passed, we get an empty sequence
numbers = range[-4]
print[list[numbers]] # []
9 tương đương với # numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
0phạm vi [] trong vòng lặp
Hàm
range[start, stop, step]
13 thường được sử dụng trong vòng lặp for để lặp vòng lặp một số lần nhất định. Ví dụ, Trong kỷ nguyên dữ liệu lớn và trí tuệ nhân tạo, khoa học dữ liệu và học máy đã trở nên thiết yếu trong nhiều lĩnh vực khoa học và công nghệ. Một khía cạnh cần thiết khi làm việc với dữ liệu là khả năng mô tả, tóm tắt và biểu diễn dữ liệu một cách trực quan. Các thư viện thống kê của Python là những công cụ toàn diện, phổ biến và được sử dụng rộng rãi sẽ hỗ trợ bạn làm việc với dữ liệu
Trong hướng dẫn này, bạn sẽ học
- Số lượng bằng số nào bạn có thể sử dụng để mô tả và tóm tắt bộ dữ liệu của mình
- Cách tính số liệu thống kê mô tả bằng Python thuần túy
- Cách lấy số liệu thống kê mô tả với các thư viện Python có sẵn
- Cách trực quan hóa bộ dữ liệu của bạn
Tiền thưởng miễn phí. Nhấp vào đây để tải xuống 5 ví dụ về Python + Matplotlib với mã nguồn đầy đủ mà bạn có thể sử dụng làm cơ sở để tạo các biểu đồ và đồ họa của riêng mình
Hiểu thống kê mô tả
Thống kê mô tả là về mô tả và tóm tắt dữ liệu. Nó sử dụng hai cách tiếp cận chính
- Phương pháp định lượng mô tả và tóm tắt dữ liệu bằng số
- Cách tiếp cận trực quan minh họa dữ liệu bằng biểu đồ, sơ đồ, biểu đồ và các biểu đồ khác
Bạn có thể áp dụng thống kê mô tả cho một hoặc nhiều bộ dữ liệu hoặc biến. Khi bạn mô tả và tóm tắt một biến số, bạn đang thực hiện phân tích đơn biến. Khi bạn tìm kiếm các mối quan hệ thống kê giữa một cặp biến, bạn đang thực hiện phân tích hai biến. Tương tự, một phân tích đa biến có liên quan đến nhiều biến cùng một lúc
Loại bỏ các quảng cáoCác loại biện pháp
Trong hướng dẫn này, bạn sẽ tìm hiểu về các loại thước đo sau trong thống kê mô tả
- Xu hướng trung tâm cho bạn biết về các trung tâm của dữ liệu. Các biện pháp hữu ích bao gồm giá trị trung bình, trung bình và chế độ
- Tính khả biến cho bạn biết về sự lan truyền của dữ liệu. Các biện pháp hữu ích bao gồm phương sai và độ lệch chuẩn
- Mối tương quan hoặc độ biến thiên chung cho bạn biết về mối quan hệ giữa một cặp biến trong tập dữ liệu. Các biện pháp hữu ích bao gồm hiệp phương sai và hệ số tương quan
Bạn sẽ học cách hiểu và tính toán các biện pháp này bằng Python
Dân số và mẫu
Trong thống kê, dân số là tập hợp tất cả các phần tử hoặc mục mà bạn quan tâm. Dân số thường rất lớn, khiến chúng không phù hợp để thu thập và phân tích dữ liệu. Đó là lý do tại sao các nhà thống kê thường cố gắng đưa ra một số kết luận về dân số bằng cách chọn và kiểm tra một tập hợp con đại diện của dân số đó
Tập hợp con này của dân số được gọi là một mẫu. Lý tưởng nhất là mẫu nên bảo tồn các đặc điểm thống kê thiết yếu của dân số ở mức độ thỏa đáng. Bằng cách đó, bạn sẽ có thể sử dụng mẫu để thu thập kết luận về dân số
ngoại lệ
Điểm ngoại lệ là một điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu được lấy từ một mẫu hoặc tổng thể. Có nhiều nguyên nhân có thể dẫn đến ngoại lệ, nhưng sau đây là một số nguyên nhân giúp bạn bắt đầu
- Sự thay đổi tự nhiên trong dữ liệu
- Thay đổi hành vi của hệ thống được quan sát
- Sai sót trong thu thập dữ liệu
Lỗi thu thập dữ liệu là một nguyên nhân đặc biệt nổi bật của các ngoại lệ. Ví dụ: các hạn chế của các công cụ hoặc quy trình đo lường có thể có nghĩa là không thể thu được dữ liệu chính xác. Các lỗi khác có thể do tính toán sai, nhiễm dữ liệu, lỗi của con người, v.v.
Không có định nghĩa toán học chính xác về ngoại lệ. Bạn phải dựa vào kinh nghiệm, kiến thức về chủ đề quan tâm và ý thức chung để xác định xem một điểm dữ liệu có phải là điểm bất thường hay không và cách xử lý điểm đó
Chọn thư viện thống kê Python
Có rất nhiều thư viện thống kê Python để bạn làm việc, nhưng trong hướng dẫn này, bạn sẽ tìm hiểu về một số thư viện phổ biến và được sử dụng rộng rãi nhất
Python's
912 là một thư viện Python tích hợp để thống kê mô tả. Bạn có thể sử dụng nó nếu bộ dữ liệu của bạn không quá lớn hoặc nếu bạn không thể dựa vào việc nhập các thư viện khácrange[start, stop, step]
NumPy là thư viện của bên thứ ba dành cho tính toán số, được tối ưu hóa để làm việc với các mảng đơn và đa chiều. Kiểu chính của nó là kiểu mảng có tên là
913. Thư viện này chứa nhiều thói quen để phân tích thống kêrange[start, stop, step]
SciPy là thư viện của bên thứ ba dành cho máy tính khoa học dựa trên NumPy. Nó cung cấp chức năng bổ sung so với NumPy, bao gồm
914 để phân tích thống kêrange[start, stop, step]
Pandas là thư viện của bên thứ ba để tính toán số dựa trên NumPy. Nó vượt trội trong việc xử lý dữ liệu một chiều [1D] được gắn nhãn với các đối tượng
915 và dữ liệu hai chiều [2D] với các đối tượngrange[start, stop, step]
916range[start, stop, step]
Matplotlib là thư viện của bên thứ ba để trực quan hóa dữ liệu. Nó hoạt động tốt khi kết hợp với NumPy, SciPy và Pandas
Lưu ý rằng, trong nhiều trường hợp, các đối tượng
range[start, stop, step]
915 và range[start, stop, step]
916 có thể được sử dụng thay cho mảng NumPy. Thông thường, bạn có thể chuyển chúng đến hàm thống kê NumPy hoặc SciPy. Ngoài ra, bạn có thể lấy dữ liệu chưa được gắn nhãn từ range[start, stop, step]
915 hoặc range[start, stop, step]
916 dưới dạng đối tượng range[start, stop, step]
921 bằng cách gọi range[start, stop, step]
922 hoặc range[start, stop, step]
923Bắt đầu với thư viện thống kê Python
Thư viện Python
range[start, stop, step]
912 tích hợp có một số lượng tương đối nhỏ các hàm thống kê quan trọng nhất. Tài liệu chính thức là một nguồn tài nguyên quý giá để tìm thông tin chi tiết. Nếu bạn bị giới hạn với Python thuần túy, thì thư viện Python range[start, stop, step]
912 có thể là lựa chọn phù hợpMột nơi tốt để bắt đầu tìm hiểu về NumPy là Hướng dẫn sử dụng chính thức, đặc biệt là phần khởi động nhanh và phần cơ bản. Tài liệu tham khảo chính thức có thể giúp bạn làm mới bộ nhớ của mình về các khái niệm NumPy cụ thể. Trong khi bạn đọc hướng dẫn này, bạn cũng có thể muốn xem phần thống kê và tài liệu tham khảo chính thức của
range[start, stop, step]
914Ghi chú
Để tìm hiểu thêm về NumPy, hãy xem các tài nguyên này
- Look Ma, No-Loops. Lập trình mảng với NumPy
- Làm sạch dữ liệu Pythonic với Pandas và NumPy
- NumPy arange[]. Làm thế nào để sử dụng np. sắp xếp[]
Nếu bạn muốn tìm hiểu Pandas, thì trang Bắt đầu chính thức là một nơi tuyệt vời để bắt đầu. Phần giới thiệu về cấu trúc dữ liệu có thể giúp bạn tìm hiểu về các loại dữ liệu cơ bản,
range[start, stop, step]
915 và range[start, stop, step]
916. Tương tự như vậy, hướng dẫn giới thiệu chính thức xuất sắc nhằm mục đích cung cấp cho bạn đủ thông tin để bắt đầu sử dụng Pandas một cách hiệu quả trong thực tếGhi chú
Để tìm hiểu thêm về Pandas, hãy xem các tài nguyên này
- Sử dụng Pandas và Python để khám phá tập dữ liệu của bạn
- Khung dữ liệu gấu trúc 101
- gấu trúc thành ngữ. Thủ thuật & Tính năng có thể bạn chưa biết
- Nhanh chóng, linh hoạt, dễ dàng và trực quan. Cách tăng tốc các dự án Pandas của bạn
range[start, stop, step]
929 có Hướng dẫn sử dụng chính thức toàn diện mà bạn có thể sử dụng để tìm hiểu chi tiết về cách sử dụng thư viện. Anatomy of Matplotlib là một tài nguyên tuyệt vời cho những người mới bắt đầu muốn bắt đầu làm việc với range[start, stop, step]
929 và các thư viện liên quan của nóGhi chú
Để tìm hiểu thêm về trực quan hóa dữ liệu, hãy xem các tài nguyên này
- Vẽ sơ đồ Python với Matplotlib [Hướng dẫn]
- Vẽ biểu đồ Python. NumPy, Matplotlib, Pandas và Seaborn
- Trực quan hóa dữ liệu tương tác trong Python với Bokeh
- Âm mưu với gấu trúc. Trực quan hóa dữ liệu Python cho người mới bắt đầu
Hãy bắt đầu sử dụng các thư viện thống kê Python này
Loại bỏ các quảng cáoTính toán thống kê mô tả
Bắt đầu bằng cách nhập tất cả các gói bạn cần
>>>
range[start, stop, step]
8Đây là tất cả các gói bạn cần để tính toán thống kê Python. Thông thường, bạn sẽ không sử dụng gói
range[start, stop, step]
931 tích hợp sẵn của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập range[start, stop, step]
932 để trực quan hóa dữ liệuHãy tạo một số dữ liệu để làm việc với. Bạn sẽ bắt đầu với các danh sách Python chứa một số dữ liệu số tùy ý
>>>
range[start, stop, step]
9Bây giờ bạn có danh sách ________ 1933 và ________ 1934. Chúng gần như giống nhau, với điểm khác biệt là
range[start, stop, step]
934 chứa giá trị range[start, stop, step]
936. Điều quan trọng là phải hiểu hành vi của các quy trình thống kê Python khi chúng bắt gặp một giá trị không phải là số [range[start, stop, step]
936]. Trong khoa học dữ liệu, các giá trị bị thiếu là phổ biến và bạn sẽ thường thay thế chúng bằng range[start, stop, step]
936Ghi chú. Làm thế nào để bạn nhận được một giá trị
range[start, stop, step]
936?Trong Python, bạn có thể sử dụng bất kỳ cách nào sau đây
940range[start, stop, step]
941range[start, stop, step]
942range[start, stop, step]
Bạn có thể sử dụng tất cả các chức năng này thay thế cho nhau
>>>
range[start, stop, step]
2Bạn có thể thấy rằng các chức năng đều tương đương nhau. Tuy nhiên, xin lưu ý rằng so sánh hai giá trị
range[start, stop, step]
936 cho đẳng thức trả về range[start, stop, step]
944. Nói cách khác, range[start, stop, step]
945 là range[start, stop, step]
944Bây giờ, tạo các đối tượng ________ 1921 và ________ 1948 tương ứng với ________ 1933 và ________ 1934
>>>
range[start, stop, step]
1Bây giờ bạn có hai mảng NumPy [
range[start, stop, step]
951 và range[start, stop, step]
952] và hai Pandas range[start, stop, step]
915 [range[start, stop, step]
954 và range[start, stop, step]
955]. Tất cả đều là các chuỗi giá trị 1DGhi chú. Mặc dù bạn sẽ sử dụng các danh sách trong suốt hướng dẫn này, nhưng xin lưu ý rằng, trong hầu hết các trường hợp, bạn có thể sử dụng các bộ dữ liệu theo cùng một cách
Bạn có thể tùy chọn chỉ định nhãn cho từng giá trị trong
range[start, stop, step]
954 và range[start, stop, step]
955Biện pháp của xu hướng trung ương
Các biện pháp của xu hướng trung tâm hiển thị các giá trị trung tâm hoặc giữa của bộ dữ liệu. Có một số định nghĩa về những gì được coi là trung tâm của tập dữ liệu. Trong hướng dẫn này, bạn sẽ học cách xác định và tính toán các thước đo xu hướng trung tâm này
- Bần tiện
- trung bình có trọng số
- trung bình hình học
- điều hòa trung bình
- Trung bình
- Cách thức
Bần tiện
Giá trị trung bình mẫu, còn được gọi là giá trị trung bình số học mẫu hoặc đơn giản là giá trị trung bình, là giá trị trung bình cộng của tất cả các mục trong tập dữ liệu. Giá trị trung bình của tập dữ liệu 𝑥 được biểu thị bằng toán học là Σᵢ𝑥ᵢ/𝑛, trong đó 𝑖 = 1, 2, …, 𝑛. Nói cách khác, nó là tổng của tất cả các phần tử 𝑥ᵢ chia cho số phần tử trong tập dữ liệu 𝑥
Hình này minh họa giá trị trung bình của một mẫu có năm điểm dữ liệu
Các chấm màu xanh lá cây đại diện cho các điểm dữ liệu 1, 2. 5, 4, 8 và 28. Đường đứt nét màu đỏ là giá trị trung bình của chúng, hoặc [1 + 2. 5 + 4 + 8 + 28] / 5 = 8. 7
Bạn có thể tính giá trị trung bình bằng Python thuần bằng cách sử dụng
range[start, stop, step]
958 và range[start, stop, step]
959 mà không cần nhập thư viện>>>
range[start, stop, step]
1Mặc dù điều này rõ ràng và thanh lịch, nhưng bạn cũng có thể áp dụng các hàm thống kê Python tích hợp
>>>
range[start, stop, step]
2Bạn đã gọi các hàm
range[start, stop, step]
960 và range[start, stop, step]
961 từ thư viện Python range[start, stop, step]
912 tích hợp và nhận được kết quả tương tự như bạn đã làm với Python thuần túy. range[start, stop, step]
961 được giới thiệu trong Python 3. 8 như một giải pháp thay thế nhanh hơn cho range[start, stop, step]
960. Nó luôn trả về một số dấu phẩy độngTuy nhiên, nếu có các giá trị
range[start, stop, step]
936 trong dữ liệu của bạn, thì range[start, stop, step]
966 và range[start, stop, step]
967 sẽ trả về range[start, stop, step]
936 làm đầu ra>>>
range[start, stop, step]
2Kết quả này phù hợp với hành vi của
range[start, stop, step]
958, bởi vì range[start, stop, step]
970 cũng trả về range[start, stop, step]
936Nếu bạn sử dụng NumPy, thì bạn có thể lấy giá trị trung bình bằng
range[start, stop, step]
972>>>
range[start, stop, step]
7Trong ví dụ trên,
range[start, stop, step]
960 là một hàm, nhưng bạn cũng có thể sử dụng phương thức tương ứng range[start, stop, step]
974>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
0Hàm
range[start, stop, step]
960 và phương thức range[start, stop, step]
974 từ NumPy trả về kết quả giống như range[start, stop, step]
966. Đây cũng là trường hợp khi có các giá trị range[start, stop, step]
936 trong dữ liệu của bạn>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
5Do đó, bạn thường không cần nhận giá trị ________ 1936. Nếu bạn muốn bỏ qua các giá trị
range[start, stop, step]
936, thì bạn có thể sử dụng range[start, stop, step]
981>>>
range[start, stop, step]
90range[start, stop, step]
982 đơn giản là bỏ qua tất cả các giá trị của range[start, stop, step]
936. Nó trả về cùng một giá trị như range[start, stop, step]
960 nếu bạn áp dụng nó cho tập dữ liệu mà không có giá trị range[start, stop, step]
936Các đối tượng
range[start, stop, step]
948 cũng có phương thức range[start, stop, step]
974>>>
range[start, stop, step]
91Như bạn có thể thấy, nó được sử dụng tương tự như trong trường hợp của NumPy. Tuy nhiên,
range[start, stop, step]
974 từ Pandas mặc định bỏ qua giá trị range[start, stop, step]
936>>>
range[start, stop, step]
92Hành vi này là kết quả của giá trị mặc định của tham số tùy chọn
range[start, stop, step]
990. Bạn có thể thay đổi tham số này để sửa đổi hành vitrung bình có trọng số
Giá trị trung bình có trọng số, còn được gọi là giá trị trung bình số học có trọng số hoặc trung bình có trọng số, là tổng quát hóa của giá trị trung bình số học cho phép bạn xác định mức độ đóng góp tương đối của từng điểm dữ liệu vào kết quả
Bạn xác định một trọng số 𝑤ᵢ cho mỗi điểm dữ liệu 𝑥ᵢ của tập dữ liệu 𝑥, trong đó 𝑖 = 1, 2, …, 𝑛 và 𝑛 là số mục trong 𝑥. Sau đó, bạn nhân từng điểm dữ liệu với trọng số tương ứng, tính tổng tất cả các tích và chia tổng thu được cho tổng trọng số. Σᵢ[𝑤ᵢ𝑥ᵢ] / Σᵢ𝑤ᵢ
Ghi chú. Thuận tiện [và thường là như vậy] khi tất cả các trọng số đều không âm, 𝑤ᵢ ≥ 0 và tổng của chúng bằng một hoặc Σᵢ𝑤ᵢ = 1
Giá trị trung bình có trọng số rất tiện dụng khi bạn cần giá trị trung bình của tập dữ liệu chứa các mục xuất hiện với tần số tương đối nhất định. Ví dụ: giả sử bạn có một tập hợp trong đó 20% tổng số mục là 2, 50% mục là 4 và 30% mục còn lại là 8. Bạn có thể tính giá trị trung bình của một tập hợp như thế này
>>>
range[start, stop, step]
93Ở đây, bạn tính đến tần số với trọng số. Với phương pháp này, bạn không cần biết tổng số mặt hàng
Bạn có thể triển khai giá trị trung bình có trọng số trong Python thuần túy bằng cách kết hợp
range[start, stop, step]
958 với range[start, stop, step]
992 hoặc range[start, stop, step]
993>>>
range[start, stop, step]
94Một lần nữa, đây là một triển khai sạch sẽ và thanh lịch, nơi bạn không cần nhập bất kỳ thư viện nào
Tuy nhiên, nếu bạn có bộ dữ liệu lớn, thì NumPy có thể cung cấp giải pháp tốt hơn. Bạn có thể sử dụng
range[start, stop, step]
994 để lấy giá trị trung bình của mảng NumPy hoặc Pandas range[start, stop, step]
915>>>
range[start, stop, step]
95Kết quả giống như trong trường hợp triển khai Python thuần túy. Bạn cũng có thể sử dụng phương pháp này trên các danh sách và bộ thông thường
Một giải pháp khác là sử dụng tích từng phần tử
range[start, stop, step]
996 với range[start, stop, step]
997 hoặc range[start, stop, step]
998>>>
range[start, stop, step]
96Đó là nó. Bạn đã tính giá trị trung bình có trọng số
Tuy nhiên, hãy cẩn thận nếu tập dữ liệu của bạn chứa các giá trị
range[start, stop, step]
936>>>
range[start, stop, step]
97Trong trường hợp này,
range[start, stop, step]
200 trả về range[start, stop, step]
936, phù hợp với range[start, stop, step]
972trung bình điều hòa
Giá trị trung bình điều hòa là nghịch đảo của giá trị trung bình của các nghịch đảo của tất cả các mục trong tập dữ liệu. 𝑛 / Σᵢ[1/𝑥ᵢ], trong đó 𝑖 = 1, 2, …, 𝑛 và 𝑛 là số phần tử trong tập dữ liệu 𝑥. Một biến thể của việc triển khai Python thuần túy của ý nghĩa điều hòa là đây
>>>
range[start, stop, step]
98Nó hoàn toàn khác với giá trị của trung bình cộng cho cùng một dữ liệu
range[start, stop, step]
933, mà bạn đã tính là 8. 7Bạn cũng có thể tính số đo này với
range[start, stop, step]
204>>>
range[start, stop, step]
99Ví dụ trên cho thấy một triển khai của
range[start, stop, step]
204. Nếu bạn có giá trị range[start, stop, step]
936 trong tập dữ liệu, thì giá trị đó sẽ trả về range[start, stop, step]
936. Nếu có ít nhất một range[start, stop, step]
208, thì nó sẽ trả về range[start, stop, step]
208. Nếu bạn cung cấp ít nhất một số âm thì bạn sẽ nhận được range[start, stop, step]
210>>>
range[start, stop, step]
20Hãy ghi nhớ ba tình huống này khi bạn đang sử dụng phương pháp này
Cách thứ ba để tính trung bình điều hòa là sử dụng
range[start, stop, step]
211>>>
range[start, stop, step]
21Một lần nữa, đây là một thực hiện khá đơn giản. Tuy nhiên, nếu tập dữ liệu của bạn chứa
range[start, stop, step]
936, range[start, stop, step]
208, số âm hoặc bất kỳ số nào khác ngoài số dương, thì bạn sẽ nhận được một số range[start, stop, step]
214trung bình hình học
Giá trị trung bình hình học là căn bậc 𝑛 của tích tất cả 𝑛 phần tử 𝑥ᵢ trong tập dữ liệu 𝑥. ⁿ√[Πᵢ𝑥ᵢ], trong đó 𝑖 = 1, 2, …, 𝑛. Hình dưới đây minh họa các phương tiện số học, điều hòa và hình học của một tập dữ liệu
Một lần nữa, các chấm màu xanh lá cây đại diện cho các điểm dữ liệu 1, 2. 5, 4, 8 và 28. Đường đứt nét màu đỏ là giá trị trung bình. Đường đứt nét màu xanh lam là giá trị trung bình điều hòa và đường đứt nét màu vàng là giá trị trung bình hình học
Bạn có thể triển khai ý nghĩa hình học bằng Python thuần túy như thế này
>>>
range[start, stop, step]
22Như bạn có thể thấy, giá trị của trung bình hình học, trong trường hợp này, khác biệt đáng kể so với các giá trị của số học [8. 7] và điều hòa [2. 76] có nghĩa là cho cùng một tập dữ liệu
range[start, stop, step]
933Trăn 3. 8 đã giới thiệu
range[start, stop, step]
216, chuyển đổi tất cả các giá trị thành số dấu phẩy động và trả về giá trị trung bình hình học của chúng>>>
range[start, stop, step]
23Bạn đã có kết quả giống như trong ví dụ trước, nhưng với lỗi làm tròn tối thiểu
Nếu bạn truyền dữ liệu với các giá trị _______ 1936, thì
range[start, stop, step]
216 sẽ hoạt động giống như hầu hết các hàm tương tự và trả về ________ 1936>>>
range[start, stop, step]
24Thật vậy, điều này phù hợp với hành vi của
range[start, stop, step]
966, range[start, stop, step]
967 và range[start, stop, step]
204. Nếu có số 0 hoặc số âm trong dữ liệu của bạn, thì range[start, stop, step]
216 sẽ tăng range[start, stop, step]
210Bạn cũng có thể lấy giá trị trung bình hình học với
range[start, stop, step]
225>>>
range[start, stop, step]
25Bạn đã thu được kết quả tương tự như khi triển khai Python thuần túy
Nếu bạn có các giá trị
range[start, stop, step]
936 trong tập dữ liệu, thì range[start, stop, step]
227 sẽ trả về range[start, stop, step]
936. Nếu có ít nhất một range[start, stop, step]
208, thì nó sẽ trả về range[start, stop, step]
230 và đưa ra cảnh báo. Nếu bạn cung cấp ít nhất một số âm thì bạn sẽ nhận được range[start, stop, step]
936 và cảnh báoTrung bình
Trung vị mẫu là phần tử ở giữa của tập dữ liệu được sắp xếp. Tập dữ liệu có thể được sắp xếp theo thứ tự tăng hoặc giảm. Nếu số phần tử 𝑛 của tập dữ liệu là số lẻ thì trung vị là giá trị ở vị trí chính giữa. 0. 5[𝑛 + 1]. Nếu 𝑛 chẵn thì trung vị là trung bình cộng của hai giá trị ở giữa, tức là các phần tử ở vị trí 0. 5𝑛 và 0. 5𝑛 + 1
Ví dụ: nếu bạn có các điểm dữ liệu 2, 4, 1, 8 và 9 thì giá trị trung bình là 4, nằm ở giữa tập dữ liệu đã sắp xếp [1, 2, 4, 8, 9]. Nếu các điểm dữ liệu là 2, 4, 1 và 8 thì trung vị là 3, là trung bình cộng của hai phần tử ở giữa của dãy đã sắp xếp [2 và 4]. Hình dưới đây minh họa điều này
Các điểm dữ liệu là các chấm màu xanh lá cây và các đường màu tím hiển thị giá trị trung bình cho từng tập dữ liệu. Giá trị trung bình cho tập dữ liệu trên [1, 2. 5, 4, 8 và 28] là 4. Nếu bạn loại bỏ giá trị ngoại lệ 28 khỏi tập dữ liệu thấp hơn, thì trung vị sẽ trở thành trung bình cộng giữa 2. 5 và 4, đó là 3. 25
Hình dưới đây cho thấy cả giá trị trung bình và trung vị của các điểm dữ liệu 1, 2. 5, 4, 8 và 28
Một lần nữa, giá trị trung bình là đường đứt nét màu đỏ, trong khi trung vị là đường màu tím
Sự khác biệt chính giữa hành vi của giá trị trung bình và trung bình có liên quan đến các giá trị ngoại lệ hoặc cực trị của tập dữ liệu. Giá trị trung bình bị ảnh hưởng nặng nề bởi các giá trị ngoại lệ, nhưng giá trị trung bình chỉ phụ thuộc vào các giá trị ngoại lệ một chút hoặc hoàn toàn không. Xét hình sau
Tập dữ liệu trên lại có các mục 1, 2. 5, 4, 8 và 28. Ý nghĩa của nó là 8. 7, và trung bình là 5, như bạn đã thấy trước đó. Tập dữ liệu bên dưới hiển thị điều gì đang xảy ra khi bạn di chuyển điểm ngoài cùng bên phải với giá trị 28
- Nếu bạn tăng giá trị của nó [di chuyển nó sang phải], thì giá trị trung bình sẽ tăng, nhưng giá trị trung vị sẽ không bao giờ thay đổi
- Nếu bạn giảm giá trị của nó [di chuyển nó sang trái], thì giá trị trung bình sẽ giảm, nhưng trung vị sẽ giữ nguyên cho đến khi giá trị của điểm di chuyển lớn hơn hoặc bằng 4
Bạn có thể so sánh giá trị trung bình và trung vị như một cách để phát hiện các giá trị ngoại lệ và bất đối xứng trong dữ liệu của mình. Giá trị trung bình hay giá trị trung bình hữu ích hơn cho bạn tùy thuộc vào ngữ cảnh của vấn đề cụ thể của bạn
Đây là một trong nhiều triển khai Python thuần túy có thể có của trung vị
>>>
range[start, stop, step]
26Hai bước quan trọng nhất của việc thực hiện này như sau
- Sắp xếp các phần tử của tập dữ liệu
- Tìm [các] phần tử ở giữa trong tập dữ liệu đã sắp xếp
Bạn có thể lấy trung bình với
range[start, stop, step]
232>>>
range[start, stop, step]
27Phiên bản được sắp xếp của
range[start, stop, step]
933 là range[start, stop, step]
234, vì vậy phần tử ở giữa là range[start, stop, step]
235. Phiên bản đã sắp xếp của range[start, stop, step]
236, là range[start, stop, step]
933 không có mục cuối cùng range[start, stop, step]
238, là range[start, stop, step]
239. Bây giờ, có hai phần tử ở giữa, range[start, stop, step]
240 và range[start, stop, step]
235. trung bình của họ là range[start, stop, step]
242range[start, stop, step]
243 và range[start, stop, step]
244 là hai hàm khác liên quan đến trung vị trong thư viện Python range[start, stop, step]
912. Chúng luôn trả về một phần tử từ tập dữ liệu- Nếu số phần tử là số lẻ, thì sẽ có một giá trị ở giữa, vì vậy các hàm này hoạt động giống như
246range[start, stop, step]
- Nếu số phần tử là số chẵn thì có hai giá trị ở giữa. Trong trường hợp này,
243 trả về giá trị thấp hơn vàrange[start, stop, step]
244 trả về giá trị trung bình cao hơnrange[start, stop, step]
Bạn có thể sử dụng các chức năng này giống như bạn sử dụng
range[start, stop, step]
246>>>
range[start, stop, step]
28Một lần nữa, phiên bản được sắp xếp của
range[start, stop, step]
236 là range[start, stop, step]
239. Hai phần tử ở giữa là range[start, stop, step]
240 [thấp] và range[start, stop, step]
235 [cao]Không giống như hầu hết các hàm khác từ thư viện Python
range[start, stop, step]
912, range[start, stop, step]
246, range[start, stop, step]
243 và range[start, stop, step]
244 không trả về range[start, stop, step]
936 khi có các giá trị range[start, stop, step]
936 trong số các điểm dữ liệu>>>
range[start, stop, step]
29Hãy coi chừng hành vi này vì nó có thể không phải là điều bạn muốn
Bạn cũng có thể lấy số trung bình với
range[start, stop, step]
260>>>
range[start, stop, step]
10Bạn đã nhận được các giá trị giống nhau với
range[start, stop, step]
232 và range[start, stop, step]
260Tuy nhiên, nếu có giá trị
range[start, stop, step]
936 trong tập dữ liệu của bạn, thì range[start, stop, step]
260 đưa ra giá trị range[start, stop, step]
265 và trả về range[start, stop, step]
936. Nếu hành vi này không phải là điều bạn muốn, thì bạn có thể sử dụng range[start, stop, step]
267 để bỏ qua tất cả các giá trị range[start, stop, step]
936>>>
range[start, stop, step]
11Kết quả thu được giống như với
range[start, stop, step]
232 và range[start, stop, step]
260 áp dụng cho bộ dữ liệu range[start, stop, step]
933 và range[start, stop, step]
951Các đối tượng của Pandas
range[start, stop, step]
915 có phương thức range[start, stop, step]
274 bỏ qua các giá trị range[start, stop, step]
936 theo mặc định>>>
range[start, stop, step]
12Hành vi của
range[start, stop, step]
274 phù hợp với range[start, stop, step]
974 trong Pandas. Bạn có thể thay đổi hành vi này bằng tham số tùy chọn range[start, stop, step]
990Cách thức
Chế độ mẫu là giá trị trong tập dữ liệu xảy ra thường xuyên nhất. Nếu không có một giá trị nào như vậy, thì tập hợp đó là đa phương thức vì nó có nhiều giá trị phương thức. Ví dụ: trong tập hợp có các điểm 2, 3, 2, 8 và 12, số 2 là chế độ vì nó xảy ra hai lần, không giống như các mục khác chỉ xảy ra một lần
Đây là cách bạn có thể lấy chế độ bằng Python thuần túy
>>>
range[start, stop, step]
13Bạn sử dụng
range[start, stop, step]
279 để lấy số lần xuất hiện của từng mục trong range[start, stop, step]
280. Mục có số lần xuất hiện tối đa là chế độ. Lưu ý rằng bạn không phải sử dụng range[start, stop, step]
281. Thay vào đó, bạn có thể thay thế nó bằng chỉ range[start, stop, step]
280 và lặp lại trên toàn bộ danh sáchGhi chú.
range[start, stop, step]
281 trả về một bộ Python với tất cả các mục duy nhất trong range[start, stop, step]
280. Bạn có thể sử dụng thủ thuật này để tối ưu hóa làm việc với dữ liệu lớn hơn, đặc biệt khi bạn muốn thấy nhiều bản saoBạn có thể có được chế độ với
range[start, stop, step]
285 và range[start, stop, step]
286>>>
range[start, stop, step]
14Như bạn có thể thấy,
range[start, stop, step]
287 trả về một giá trị duy nhất, trong khi range[start, stop, step]
288 trả về danh sách chứa kết quả. Tuy nhiên, đây không phải là sự khác biệt duy nhất giữa hai chức năng. Nếu có nhiều hơn một giá trị phương thức, thì range[start, stop, step]
287 tăng range[start, stop, step]
290, trong khi range[start, stop, step]
288 trả về danh sách có tất cả các phương thức>>>
range[start, stop, step]
15Bạn nên đặc biệt chú ý đến tình huống này và cẩn thận khi lựa chọn giữa hai chức năng này
range[start, stop, step]
285 và range[start, stop, step]
286 xử lý các giá trị range[start, stop, step]
936 dưới dạng giá trị thông thường và có thể trả về range[start, stop, step]
936 làm giá trị phương thức>>>
range[start, stop, step]
16Trong ví dụ đầu tiên ở trên, số
range[start, stop, step]
296 xuất hiện hai lần và là giá trị phương thức. Trong ví dụ thứ hai, range[start, stop, step]
936 là giá trị phương thức vì nó xuất hiện hai lần, trong khi các giá trị khác chỉ xuất hiện một lầnGhi chú.
range[start, stop, step]
286 được giới thiệu trong Python 3. 8Bạn cũng có thể nhận chế độ với
range[start, stop, step]
299>>>
range[start, stop, step]
17Hàm này trả về đối tượng với giá trị phương thức và số lần nó xảy ra. Nếu có nhiều giá trị phương thức trong tập dữ liệu, thì chỉ giá trị nhỏ nhất được trả về
Bạn có thể lấy chế độ và số lần xuất hiện của nó dưới dạng mảng NumPy với ký hiệu dấu chấm
>>>
range[start, stop, step]
18Mã này sử dụng
range[start, stop, step]
100 để trả về chế độ nhỏ nhất [range[start, stop, step]
101] trong mảng range[start, stop, step]
102 và range[start, stop, step]
103 để trả về số lần nó xảy ra [range[start, stop, step]
104]. range[start, stop, step]
299 cũng linh hoạt với các giá trị range[start, stop, step]
936. Nó cho phép bạn xác định hành vi mong muốn với tham số tùy chọn range[start, stop, step]
107. Tham số này có thể nhận các giá trị range[start, stop, step]
108, range[start, stop, step]
109 [lỗi] hoặc range[start, stop, step]
110Các đối tượng
range[start, stop, step]
915 của Pandas có phương thức range[start, stop, step]
112 xử lý tốt các giá trị đa phương thức và bỏ qua các giá trị range[start, stop, step]
936 theo mặc định>>>
range[start, stop, step]
19Như bạn có thể thấy,
range[start, stop, step]
112 trả về một range[start, stop, step]
948 mới chứa tất cả các giá trị phương thức. Nếu bạn muốn range[start, stop, step]
112 tính đến các giá trị của range[start, stop, step]
936, thì chỉ cần chuyển đối số tùy chọn range[start, stop, step]
118Loại bỏ các quảng cáoCác biện pháp thay đổi
Các biện pháp của xu hướng trung tâm không đủ để mô tả dữ liệu. Bạn cũng sẽ cần các biện pháp thay đổi để định lượng mức độ lan truyền của các điểm dữ liệu. Trong phần này, bạn sẽ học cách xác định và tính toán các thước đo độ biến thiên sau
- phương sai
- Độ lệch chuẩn
- độ lệch
- phần trăm
- Các dãy
phương sai
Phương sai mẫu định lượng mức độ lan truyền của dữ liệu. Nó hiển thị bằng số các điểm dữ liệu cách giá trị trung bình bao xa. Bạn có thể biểu thị phương sai mẫu của tập dữ liệu 𝑥 với 𝑛 phần tử dưới dạng toán học là 𝑠² = Σᵢ[𝑥ᵢ − mean[𝑥]]² / [𝑛 − 1], trong đó 𝑖 = 1, 2, …, 𝑛 và mean[𝑥] là . Nếu bạn muốn hiểu sâu hơn tại sao bạn chia tổng cho 𝑛 − 1 thay vì 𝑛, thì bạn có thể tìm hiểu sâu hơn về hiệu chỉnh của Bessel
Hình dưới đây cho bạn thấy lý do tại sao điều quan trọng là phải xem xét phương sai khi mô tả bộ dữ liệu
Có hai bộ dữ liệu trong hình này
- chấm xanh. Tập dữ liệu này có phương sai nhỏ hơn hoặc chênh lệch trung bình nhỏ hơn so với giá trị trung bình. Nó cũng có phạm vi nhỏ hơn hoặc chênh lệch nhỏ hơn giữa mục lớn nhất và mục nhỏ nhất
- chấm trắng. Tập dữ liệu này có phương sai lớn hơn hoặc chênh lệch trung bình lớn hơn so với giá trị trung bình. Nó cũng có phạm vi lớn hơn hoặc sự khác biệt lớn hơn giữa mục lớn nhất và mục nhỏ nhất
Lưu ý rằng hai bộ dữ liệu này có cùng giá trị trung bình và trung bình, mặc dù chúng có vẻ khác nhau đáng kể. Cả giá trị trung bình và trung vị đều không thể mô tả sự khác biệt này. Đó là lý do tại sao bạn cần các biện pháp thay đổi
Đây là cách bạn có thể tính phương sai mẫu bằng Python thuần túy
>>>
range[start, stop, step]
10Cách tiếp cận này là đủ và tính toán phương sai mẫu tốt. Tuy nhiên, giải pháp ngắn gọn và thanh lịch hơn là gọi hàm hiện có
range[start, stop, step]
119>>>
range[start, stop, step]
11Bạn đã thu được kết quả tương tự cho phương sai như trên.
range[start, stop, step]
120 có thể tránh tính giá trị trung bình nếu bạn cung cấp giá trị trung bình một cách rõ ràng làm đối số thứ hai. range[start, stop, step]
121Nếu bạn có các giá trị
range[start, stop, step]
936 trong dữ liệu của mình, thì range[start, stop, step]
119 sẽ trả về range[start, stop, step]
936>>>
range[start, stop, step]
12Hành vi này phù hợp với
range[start, stop, step]
960 và hầu hết các chức năng khác từ thư viện Python range[start, stop, step]
912Bạn cũng có thể tính phương sai mẫu với NumPy. Bạn nên sử dụng hàm
range[start, stop, step]
127 hoặc phương thức tương ứng range[start, stop, step]
128>>>
range[start, stop, step]
13Điều rất quan trọng là chỉ định tham số
range[start, stop, step]
129. Đó là cách bạn đặt bậc tự do delta thành range[start, stop, step]
130. Tham số này cho phép tính đúng 𝑠², với [𝑛 − 1] ở mẫu số thay vì 𝑛Nếu bạn có các giá trị
range[start, stop, step]
936 trong tập dữ liệu, thì range[start, stop, step]
127 và range[start, stop, step]
128 sẽ trả về range[start, stop, step]
936>>>
range[start, stop, step]
14Điều này phù hợp với
range[start, stop, step]
972 và range[start, stop, step]
994. Nếu bạn muốn bỏ qua giá trị ________ 1936, thì bạn nên sử dụng ________ 6138>>>
range[start, stop, step]
15range[start, stop, step]
138 bỏ qua giá trị range[start, stop, step]
936. Nó cũng cần bạn chỉ định range[start, stop, step]
129Các đối tượng
range[start, stop, step]
948 có phương thức range[start, stop, step]
128 bỏ qua các giá trị range[start, stop, step]
936 theo mặc định>>>
range[start, stop, step]
16Nó cũng có tham số là
range[start, stop, step]
145 nhưng giá trị mặc định của nó là range[start, stop, step]
130 nên bạn có thể bỏ qua. Nếu bạn muốn một hành vi khác liên quan đến các giá trị range[start, stop, step]
936, thì hãy sử dụng tham số tùy chọn range[start, stop, step]
990Bạn tính phương sai dân số tương tự như phương sai mẫu. Tuy nhiên, bạn phải sử dụng 𝑛 ở mẫu số thay vì 𝑛 − 1. Σᵢ[𝑥ᵢ − nghĩa là[𝑥]]² / 𝑛. Trong trường hợp này, 𝑛 là số phần tử trong toàn bộ tổng thể. Bạn có thể nhận được phương sai dân số tương tự như phương sai mẫu, với những khác biệt sau
- Thay thế
149 bằngrange[start, stop, step]
150 trong triển khai Python thuần túyrange[start, stop, step]
- Sử dụng
151 thay vìrange[start, stop, step]
119range[start, stop, step]
- Chỉ định tham số
153 nếu bạn sử dụng NumPy hoặc Pandas. Trong NumPy, bạn có thể bỏ quarange[start, stop, step]
145 vì giá trị mặc định của nó làrange[start, stop, step]
208range[start, stop, step]
Lưu ý rằng bạn phải luôn biết liệu bạn đang làm việc với một mẫu hay toàn bộ dân số bất cứ khi nào bạn tính phương sai
Độ lệch chuẩn
Độ lệch chuẩn của mẫu là một thước đo khác của sự lan truyền dữ liệu. Nó được kết nối với phương sai mẫu, vì độ lệch chuẩn, 𝑠, là căn bậc hai dương của phương sai mẫu. Độ lệch chuẩn thường thuận tiện hơn phương sai vì nó có cùng đơn vị với các điểm dữ liệu. Khi bạn nhận được phương sai, bạn có thể tính độ lệch chuẩn bằng Python thuần túy
>>>
range[start, stop, step]
17Mặc dù giải pháp này hiệu quả nhưng bạn cũng có thể sử dụng
range[start, stop, step]
156>>>
range[start, stop, step]
18Tất nhiên, kết quả vẫn giống như trước đây. Giống như
range[start, stop, step]
120, range[start, stop, step]
158 không tính giá trị trung bình nếu bạn cung cấp nó một cách rõ ràng làm đối số thứ hai. range[start, stop, step]
159Bạn có thể nhận được độ lệch chuẩn với NumPy theo cùng một cách. Bạn có thể sử dụng hàm
range[start, stop, step]
160 và phương thức tương ứng range[start, stop, step]
161 để tính độ lệch chuẩn. Nếu có các giá trị range[start, stop, step]
936 trong tập dữ liệu, thì chúng sẽ trả về range[start, stop, step]
936. Để bỏ qua các giá trị range[start, stop, step]
936, bạn nên sử dụng range[start, stop, step]
165. Bạn sử dụng range[start, stop, step]
160, range[start, stop, step]
161 và range[start, stop, step]
168 từ NumPy như cách bạn sử dụng range[start, stop, step]
169, range[start, stop, step]
128 và range[start, stop, step]
171>>>
range[start, stop, step]
19Đừng quên thiết lập bậc tự do của delta là
range[start, stop, step]
130Các đối tượng
range[start, stop, step]
948 cũng có phương thức range[start, stop, step]
161 bỏ qua range[start, stop, step]
936 theo mặc định>>>
range[start, stop, step]
20Tham số
range[start, stop, step]
145 mặc định là range[start, stop, step]
130 nên bạn có thể bỏ qua. Một lần nữa, nếu bạn muốn xử lý các giá trị range[start, stop, step]
936 theo cách khác, thì hãy áp dụng tham số range[start, stop, step]
990Độ lệch chuẩn dân số đề cập đến toàn bộ dân số. Đó là căn bậc hai dương của phương sai dân số. Bạn có thể tính toán nó giống như độ lệch chuẩn mẫu, với sự khác biệt sau
- Tìm căn bậc hai của phương sai dân số trong triển khai Python thuần túy
- Sử dụng
180 thay vìrange[start, stop, step]
156range[start, stop, step]
- Chỉ định tham số
153 nếu bạn sử dụng NumPy hoặc Pandas. Trong NumPy, bạn có thể bỏ quarange[start, stop, step]
145 vì giá trị mặc định của nó làrange[start, stop, step]
208range[start, stop, step]
Như bạn có thể thấy, bạn có thể xác định độ lệch chuẩn trong Python, NumPy và Pandas gần giống như cách bạn xác định phương sai. Bạn sử dụng các hàm và phương thức khác nhau nhưng tương tự nhau với cùng các đối số
độ lệch
Độ lệch của mẫu đo lường sự bất đối xứng của mẫu dữ liệu
Có một số định nghĩa toán học về độ lệch. Một biểu thức phổ biến để tính độ lệch của tập dữ liệu 𝑥 với 𝑛 phần tử là [𝑛² / [[𝑛 − 1][𝑛 − 2]]] [Σᵢ[𝑥ᵢ − mean[𝑥]]³ / [𝑛𝑠³]]. Một biểu thức đơn giản hơn là Σᵢ[𝑥ᵢ − mean[𝑥]]³ 𝑛 / [[𝑛 − 1][𝑛 − 2]𝑠³], trong đó 𝑖 = 1, 2, …, 𝑛 và mean[𝑥] là trung bình mẫu của . Độ lệch được xác định như thế này được gọi là hệ số mômen tiêu chuẩn Fisher-Pearson đã điều chỉnh
Hình trước cho thấy hai bộ dữ liệu khá đối xứng. Nói cách khác, điểm của họ có khoảng cách tương tự từ giá trị trung bình. Ngược lại, hình ảnh sau đây minh họa hai bộ bất đối xứng
Bộ đầu tiên được biểu thị bằng các chấm màu xanh lá cây và bộ thứ hai có các chấm màu trắng. Thông thường, các giá trị độ lệch âm cho biết rằng có một đuôi chiếm ưu thế ở phía bên trái mà bạn có thể nhìn thấy với tập hợp đầu tiên. Các giá trị độ lệch dương tương ứng với phần đuôi dài hơn hoặc mập hơn ở phía bên phải mà bạn có thể thấy trong tập hợp thứ hai. Nếu độ lệch gần bằng 0 [ví dụ: giữa −0. 5 và 0. 5], thì bộ dữ liệu được coi là khá đối xứng
Khi bạn đã tính toán kích thước của tập dữ liệu
range[start, stop, step]
150, giá trị trung bình của mẫu là range[start, stop, step]
186 và độ lệch chuẩn range[start, stop, step]
187, bạn có thể lấy độ lệch của mẫu bằng Python thuần túy>>>
range[start, stop, step]
21Độ lệch là dương, vì vậy
range[start, stop, step]
933 có đuôi bên phảiBạn cũng có thể tính toán độ lệch của mẫu với
range[start, stop, step]
189>>>
range[start, stop, step]
22Kết quả thu được giống như triển khai Python thuần túy. Tham số
range[start, stop, step]
190 được đặt thành range[start, stop, step]
944 để cho phép hiệu chỉnh độ lệch thống kê. Tham số tùy chọn range[start, stop, step]
107 có thể nhận các giá trị range[start, stop, step]
108, range[start, stop, step]
109 hoặc range[start, stop, step]
110. Nó cho phép bạn kiểm soát cách bạn sẽ xử lý các giá trị range[start, stop, step]
936Các đối tượng của Pandas
range[start, stop, step]
915 có phương thức range[start, stop, step]
198 cũng trả về độ lệch của tập dữ liệu>>>
range[start, stop, step]
23Giống như các phương pháp khác, theo mặc định,
range[start, stop, step]
198 bỏ qua các giá trị range[start, stop, step]
936, vì giá trị mặc định của tham số tùy chọn range[start, stop, step]
990phần trăm
𝑝 phần trăm mẫu là phần tử trong tập dữ liệu sao cho 𝑝% phần tử trong tập dữ liệu nhỏ hơn hoặc bằng giá trị đó. Ngoài ra, [100 − 𝑝]% phần tử lớn hơn hoặc bằng giá trị đó. Nếu có hai phần tử như vậy trong tập dữ liệu, thì phân vị 𝑝 mẫu là trung bình cộng của chúng. Mỗi tập dữ liệu có ba phần tư, là phần trăm chia tập dữ liệu thành bốn phần
- Phần tư thứ nhất là phần trăm thứ 25 của mẫu. Nó phân chia khoảng 25% các mục nhỏ nhất từ phần còn lại của tập dữ liệu
- Phần tư thứ hai là phần trăm thứ 50 của mẫu hoặc trung vị. Khoảng 25% các mục nằm giữa phần tư thứ nhất và thứ hai và 25% khác giữa phần tư thứ hai và thứ ba
- Phần tư thứ ba là phần trăm thứ 75 của mẫu. Nó phân chia khoảng 25% các mục lớn nhất từ phần còn lại của tập dữ liệu
Mỗi phần có số lượng vật phẩm xấp xỉ nhau. Nếu bạn muốn chia dữ liệu của mình thành nhiều khoảng thời gian, thì bạn có thể sử dụng
range[start, stop, step]
102>>>
range[start, stop, step]
24Trong ví dụ này,
range[start, stop, step]
103 là trung vị của range[start, stop, step]
933, trong khi range[start, stop, step]
105 và range[start, stop, step]
106 lần lượt là phân vị thứ 25 và 75 của mẫu. Tham số range[start, stop, step]
150 xác định số phần trăm xác suất bằng nhau thu được và range[start, stop, step]
108 xác định cách tính toán chúngGhi chú.
range[start, stop, step]
102 được giới thiệu trong Python 3. 8Bạn cũng có thể sử dụng
range[start, stop, step]
110 để xác định bất kỳ phần trăm mẫu nào trong tập dữ liệu của mình. Ví dụ: đây là cách bạn có thể tìm phần trăm thứ 5 và 95>>>
range[start, stop, step]
25range[start, stop, step]
111 có một số đối số. Bạn phải cung cấp tập dữ liệu làm đối số đầu tiên và giá trị phần trăm làm đối số thứ hai. Tập dữ liệu có thể ở dạng mảng NumPy, danh sách, bộ dữ liệu hoặc cấu trúc dữ liệu tương tự. Phần trăm có thể là một số từ 0 đến 100 như trong ví dụ trên, nhưng nó cũng có thể là một dãy số>>>
range[start, stop, step]
26Mã này tính toán tất cả các phân vị thứ 25, 50 và 75 cùng một lúc. Nếu giá trị phần trăm là một chuỗi, thì
range[start, stop, step]
111 trả về một mảng NumPy với các kết quả. Câu lệnh đầu tiên trả về mảng tứ phân vị. Câu lệnh thứ hai trả về giá trị trung bình, vì vậy bạn có thể xác nhận rằng nó bằng với phân vị thứ 50, là range[start, stop, step]
103Nếu bạn muốn bỏ qua các giá trị
range[start, stop, step]
936, hãy sử dụng range[start, stop, step]
115 để thay thế>>>
range[start, stop, step]
27Đó là cách bạn có thể tránh các giá trị
range[start, stop, step]
936NumPy cũng cung cấp cho bạn chức năng rất giống trong
range[start, stop, step]
117 và range[start, stop, step]
118. Nếu bạn sử dụng chúng, thì bạn sẽ cần cung cấp các giá trị lượng tử dưới dạng các số từ 0 đến 1 thay vì phần trăm>>>
range[start, stop, step]
28Các kết quả giống như trong các ví dụ trước, nhưng ở đây các đối số của bạn nằm trong khoảng từ 0 đến 1. Nói cách khác, bạn đã vượt qua
range[start, stop, step]
119 thay vì range[start, stop, step]
120 và range[start, stop, step]
121 thay vì range[start, stop, step]
122Các đối tượng
range[start, stop, step]
948 có phương thức range[start, stop, step]
124>>>
range[start, stop, step]
29range[start, stop, step]
124 cũng cần bạn cung cấp giá trị lượng tử làm đối số. Giá trị này có thể là một số từ 0 đến 1 hoặc một dãy số. Trong trường hợp đầu tiên, range[start, stop, step]
124 trả về một giá trị vô hướng. Trong trường hợp thứ hai, nó trả về một range[start, stop, step]
915 mới giữ kết quảCác dãy
Phạm vi dữ liệu là sự khác biệt giữa phần tử tối đa và tối thiểu trong tập dữ liệu. Bạn có thể lấy nó bằng chức năng
range[start, stop, step]
128>>>
range[start, stop, step]
20Hàm này trả về ________ 1936 nếu có giá trị ________ 1936 trong mảng NumPy của bạn. Nếu bạn sử dụng một đối tượng Pandas
range[start, stop, step]
915, thì nó sẽ trả về một sốNgoài ra, bạn có thể sử dụng các hàm và phương thức Python, NumPy hoặc Pandas tích hợp để tính toán cực đại và cực tiểu của các chuỗi
132 vàrange[start, stop, step]
133 từ thư viện chuẩn Pythonrange[start, stop, step]
134 vàrange[start, stop, step]
135 từ NumPyrange[start, stop, step]
136 vàrange[start, stop, step]
137 từ NumPy để bỏ qua các giá trịrange[start, stop, step]
936range[start, stop, step]
139 vàrange[start, stop, step]
140 từ NumPyrange[start, stop, step]
139 vàrange[start, stop, step]
140 từ Pandas để bỏ qua các giá trịrange[start, stop, step]
936 theo mặc địnhrange[start, stop, step]
Dưới đây là một số ví dụ về cách bạn sẽ sử dụng các thói quen này
>>>
range[start, stop, step]
21Đó là cách bạn có được phạm vi dữ liệu
Phạm vi liên vùng là sự khác biệt giữa phần tư thứ nhất và thứ ba. Khi bạn tính toán các phần tư, bạn có thể lấy sự khác biệt của chúng
>>>
range[start, stop, step]
22Lưu ý rằng bạn truy cập các giá trị trong đối tượng Pandas
range[start, stop, step]
915 có nhãn range[start, stop, step]
145 và range[start, stop, step]
146Loại bỏ các quảng cáoTóm tắt thống kê mô tả
SciPy và Pandas cung cấp các quy trình hữu ích để nhanh chóng nhận được số liệu thống kê mô tả với một lệnh gọi hàm hoặc phương thức duy nhất. Bạn có thể sử dụng. số liệu thống kê. mô tả[] như thế này
>>>
range[start, stop, step]
23Bạn phải cung cấp tập dữ liệu làm đối số đầu tiên. Đối số có thể là một mảng NumPy, danh sách, bộ dữ liệu hoặc cấu trúc dữ liệu tương tự. Bạn có thể bỏ qua
range[start, stop, step]
129 vì nó là giá trị mặc định và chỉ quan trọng khi bạn tính phương sai. Bạn có thể vượt qua range[start, stop, step]
148 để buộc sửa độ lệch và độ nhọn cho sai lệch thống kêGhi chú. Tham số tùy chọn
range[start, stop, step]
107 có thể nhận các giá trị range[start, stop, step]
108 [mặc định], range[start, stop, step]
109 [lỗi] hoặc range[start, stop, step]
110. Tham số này cho phép bạn kiểm soát những gì đang xảy ra khi có giá trị range[start, stop, step]
936range[start, stop, step]
154 trả về một đối tượng chứa các số liệu thống kê mô tả sau
155. số lượng quan sát hoặc thành phần trong tập dữ liệu của bạnrange[start, stop, step]
156. bộ dữ liệu với các giá trị tối thiểu và tối đa của tập dữ liệu của bạnrange[start, stop, step]
157. giá trị trung bình của tập dữ liệu của bạnrange[start, stop, step]
158. phương sai của tập dữ liệu của bạnrange[start, stop, step]
159. độ lệch của tập dữ liệu của bạnrange[start, stop, step]
160. độ nhọn của tập dữ liệu của bạnrange[start, stop, step]
Bạn có thể truy cập các giá trị cụ thể bằng ký hiệu dấu chấm
>>>
range[start, stop, step]
24Với SciPy, bạn chỉ cần một lệnh gọi hàm để có được bản tóm tắt thống kê mô tả cho tập dữ liệu của mình
Pandas có chức năng tương tự, nếu không muốn nói là tốt hơn. Các đối tượng
range[start, stop, step]
915 có phương thức range[start, stop, step]
162>>>
range[start, stop, step]
25Nó trả về một
range[start, stop, step]
915 mới chứa thông tin sau
164. số lượng phần tử trong tập dữ liệu của bạnrange[start, stop, step]
157. giá trị trung bình của tập dữ liệu của bạnrange[start, stop, step]
166. độ lệch chuẩn của tập dữ liệu của bạnrange[start, stop, step]
167 vàrange[start, stop, step]
168. giá trị tối thiểu và tối đa của tập dữ liệu của bạnrange[start, stop, step]
169,range[start, stop, step]
170 vàrange[start, stop, step]
171. các phần tư của tập dữ liệu của bạnrange[start, stop, step]
Nếu bạn muốn đối tượng
range[start, stop, step]
915 kết quả chứa các phần trăm khác, thì bạn nên chỉ định giá trị của tham số tùy chọn range[start, stop, step]
173. Bạn có thể truy cập từng mục của range[start, stop, step]
174 bằng nhãn của nó>>>
range[start, stop, step]
26Đó là cách bạn có thể nhận được số liệu thống kê mô tả về đối tượng
range[start, stop, step]
915 bằng một lệnh gọi phương thức duy nhất bằng PandasCác biện pháp tương quan giữa các cặp dữ liệu
Bạn sẽ thường xuyên cần kiểm tra mối quan hệ giữa các phần tử tương ứng của hai biến trong tập dữ liệu. Giả sử có hai biến, 𝑥 và 𝑦, với số phần tử bằng nhau, 𝑛. Đặt 𝑥₁ từ 𝑥 tương ứng với 𝑦₁ từ 𝑦, 𝑥₂ từ 𝑥 đến 𝑦₂ từ 𝑦, v.v. Khi đó bạn có thể nói rằng có 𝑛 cặp phần tử tương ứng. [𝑥₁, 𝑦₁], [𝑥₂, 𝑦₂], v.v.
Bạn sẽ thấy các biện pháp tương quan giữa các cặp dữ liệu sau đây
- Tương quan dương tồn tại khi giá trị lớn hơn của 𝑥 tương ứng với giá trị lớn hơn của 𝑦 và ngược lại
- Tương quan nghịch tồn tại khi giá trị lớn hơn của 𝑥 tương ứng với giá trị nhỏ hơn của 𝑦 và ngược lại
- Tương quan yếu hoặc không tồn tại nếu không có mối quan hệ rõ ràng như vậy
Hình dưới đây cho thấy các ví dụ về mối tương quan tiêu cực, yếu và tích cực
Biểu đồ bên trái với các chấm đỏ cho thấy mối tương quan tiêu cực. Biểu đồ ở giữa với các chấm màu xanh lá cây cho thấy mối tương quan yếu. Cuối cùng, biểu đồ bên phải với các chấm màu xanh cho thấy mối tương quan tích cực
Ghi chú. Có một điều quan trọng mà bạn phải luôn ghi nhớ khi làm việc với mối tương quan giữa một cặp biến, đó là mối tương quan đó không phải là thước đo hay chỉ báo về quan hệ nhân quả, mà chỉ là mối liên hệ.
Hai thống kê đo lường mối tương quan giữa các tập dữ liệu là hiệp phương sai và hệ số tương quan. Hãy xác định một số dữ liệu để làm việc với các biện pháp này. Bạn sẽ tạo hai danh sách Python và sử dụng chúng để lấy các mảng và Pandas NumPy tương ứng
range[start, stop, step]
915>>>
range[start, stop, step]
27Bây giờ bạn đã có hai biến, bạn có thể bắt đầu khám phá mối quan hệ giữa chúng
hiệp phương sai
Hiệp phương sai mẫu là thước đo định lượng độ mạnh và hướng của mối quan hệ giữa một cặp biến
- Nếu tương quan dương thì hiệp phương sai cũng dương. Một mối quan hệ mạnh mẽ hơn tương ứng với một giá trị cao hơn của hiệp phương sai
- Nếu tương quan âm, thì hiệp phương sai cũng âm. Mối quan hệ mạnh hơn tương ứng với giá trị thấp hơn [hoặc cao hơn tuyệt đối] của hiệp phương sai
- Nếu mối tương quan yếu, thì hiệp phương sai gần bằng không
Hiệp phương sai của các biến 𝑥 và 𝑦 được định nghĩa về mặt toán học là 𝑠ˣʸ = Σᵢ [𝑥ᵢ − mean[𝑥]] [𝑦ᵢ − mean[𝑦]] / [𝑛 − 1], trong đó 𝑖 = 1, 2, …, 𝑛, nghĩa là . Theo đó, hiệp phương sai của hai biến giống hệt nhau thực sự là phương sai. 𝑠ˣˣ = Σᵢ[𝑥ᵢ − mean[𝑥]]² / [𝑛 − 1] = [𝑠ˣ]² và 𝑠ʸʸ = Σᵢ[𝑦ᵢ − mean[𝑦]]² / [𝑛 − 1] = [𝑠ʸ]²
Đây là cách bạn có thể tính toán hiệp phương sai trong Python thuần túy
>>>
range[start, stop, step]
28Đầu tiên, bạn phải tìm giá trị trung bình của
range[start, stop, step]
933 và range[start, stop, step]
951. Sau đó, bạn áp dụng công thức toán học cho hiệp phương saiNumPy có hàm
range[start, stop, step]
179 trả về ma trận hiệp phương sai>>>
range[start, stop, step]
29Lưu ý rằng
range[start, stop, step]
179 có các tham số tùy chọn range[start, stop, step]
190, mặc định là range[start, stop, step]
944 và range[start, stop, step]
145, mặc định là range[start, stop, step]
184. Các giá trị mặc định của chúng phù hợp để lấy ma trận hiệp phương sai mẫu. Phần tử phía trên bên trái của ma trận hiệp phương sai là hiệp phương sai của range[start, stop, step]
933 và range[start, stop, step]
933, hoặc phương sai của range[start, stop, step]
933. Tương tự, phần tử phía dưới bên phải là hiệp phương sai của range[start, stop, step]
951 và range[start, stop, step]
951, hoặc phương sai của range[start, stop, step]
951. Bạn có thể kiểm tra xem điều này có đúng không>>>
range[start, stop, step]
70Như bạn có thể thấy, phương sai của
range[start, stop, step]
933 và range[start, stop, step]
951 lần lượt bằng với range[start, stop, step]
193 và range[start, stop, step]
194Hai yếu tố khác của ma trận hiệp phương sai bằng nhau và đại diện cho hiệp phương sai thực tế giữa
range[start, stop, step]
933 và range[start, stop, step]
951>>>
range[start, stop, step]
71Bạn đã thu được cùng một giá trị của hiệp phương sai với
range[start, stop, step]
197 như với Python thuần túyPandas
range[start, stop, step]
915 có phương pháp range[start, stop, step]
199 mà bạn có thể sử dụng để tính toán hiệp phương sai>>>
range[start, stop, step]
72Tại đây, bạn gọi
range[start, stop, step]
199 trên một đối tượng range[start, stop, step]
915 và chuyển đối tượng kia làm đối số đầu tiênHệ số tương quan
Hệ số tương quan, hay hệ số tương quan thời điểm sản phẩm Pearson, được biểu thị bằng ký hiệu 𝑟. Hệ số là một phép đo khác về mối tương quan giữa dữ liệu. Bạn có thể nghĩ về nó như một hiệp phương sai chuẩn hóa. Dưới đây là một số sự kiện quan trọng về nó
- Giá trị 𝑟 > 0 biểu thị tương quan dương
- Giá trị 𝑟 < 0 biểu thị tương quan âm
- Giá trị r = 1 là giá trị lớn nhất có thể có của 𝑟. Nó tương ứng với một mối quan hệ tuyến tính tích cực hoàn hảo giữa các biến
- Giá trị r = −1 là giá trị nhỏ nhất có thể có của 𝑟. Nó tương ứng với một mối quan hệ tuyến tính tiêu cực hoàn hảo giữa các biến
- Giá trị r ≈ 0, hoặc khi 𝑟 quanh 0, có nghĩa là mối tương quan giữa các biến yếu
Công thức toán học của hệ số tương quan là 𝑟 = 𝑠ˣʸ / [𝑠ˣ𝑠ʸ] trong đó 𝑠ˣ và 𝑠ʸ lần lượt là độ lệch chuẩn của 𝑥 và 𝑦. Nếu bạn có phương tiện [
range[start, stop, step]
202 và range[start, stop, step]
203] và độ lệch chuẩn [range[start, stop, step]
204, range[start, stop, step]
205] cho bộ dữ liệu range[start, stop, step]
933 và range[start, stop, step]
951, cũng như hiệp phương sai của chúng range[start, stop, step]
208, thì bạn có thể tính toán hệ số tương quan bằng Python thuần túy>>>
range[start, stop, step]
73Bạn đã có biến
range[start, stop, step]
209 đại diện cho hệ số tương quanrange[start, stop, step]
914 có quy trình range[start, stop, step]
211 tính toán hệ số tương quan và giá trị 𝑝>>>
range[start, stop, step]
74range[start, stop, step]
211 trả về một bộ có hai số. Cái đầu tiên là 𝑟 và cái thứ hai là giá trị 𝑝Tương tự như trường hợp của ma trận hiệp phương sai, bạn có thể áp dụng
range[start, stop, step]
213 với range[start, stop, step]
214 và range[start, stop, step]
215 làm đối số và nhận ma trận hệ số tương quan>>>
range[start, stop, step]
75Phần tử phía trên bên trái là hệ số tương quan giữa
range[start, stop, step]
214 và range[start, stop, step]
214. Phần tử phía dưới bên phải là hệ số tương quan giữa range[start, stop, step]
215 và range[start, stop, step]
215. Giá trị của chúng bằng với range[start, stop, step]
220. Hai phần tử còn lại bằng nhau và biểu thị hệ số tương quan thực tế giữa range[start, stop, step]
214 và range[start, stop, step]
215>>>
range[start, stop, step]
76Tất nhiên, kết quả cũng giống như với Python thuần túy và
range[start, stop, step]
211Bạn có thể lấy hệ số tương quan với
range[start, stop, step]
224>>>
range[start, stop, step]
77range[start, stop, step]
225 lấy range[start, stop, step]
214 và range[start, stop, step]
215, thực hiện hồi quy tuyến tính và trả về kết quả. range[start, stop, step]
228 và range[start, stop, step]
229 xác định phương trình của đường hồi quy, trong khi range[start, stop, step]
230 là hệ số tương quan. Để truy cập các giá trị cụ thể từ kết quả của range[start, stop, step]
225, bao gồm cả hệ số tương quan, hãy sử dụng ký hiệu dấu chấm>>>
range[start, stop, step]
78Đó là cách bạn có thể thực hiện hồi quy tuyến tính và thu được hệ số tương quan
Pandas
range[start, stop, step]
915 có phương pháp range[start, stop, step]
233 để tính hệ số tương quan>>>
range[start, stop, step]
79Bạn nên gọi
range[start, stop, step]
233 trên một đối tượng range[start, stop, step]
915 và chuyển đối tượng kia làm đối số đầu tiênLoại bỏ các quảng cáoLàm việc với dữ liệu 2D
Các nhà thống kê thường làm việc với dữ liệu 2D. Dưới đây là một số ví dụ về định dạng dữ liệu 2D
- bảng cơ sở dữ liệu
- tệp CSV
- Bảng tính Excel, Calc và Google
NumPy và SciPy cung cấp phương tiện toàn diện để làm việc với dữ liệu 2D. Pandas có lớp
range[start, stop, step]
916 đặc biệt để xử lý dữ liệu được dán nhãn 2Dtrục
Bắt đầu bằng cách tạo một mảng 2D NumPy
>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
00Bây giờ bạn có tập dữ liệu 2D mà bạn sẽ sử dụng trong phần này. Bạn có thể áp dụng các hàm và phương thức thống kê Python cho nó giống như cách bạn làm với dữ liệu 1D
>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
01Như bạn có thể thấy, bạn nhận được số liệu thống kê [như giá trị trung bình, trung bình hoặc phương sai] trên tất cả dữ liệu trong mảng
range[start, stop, step]
237. Đôi khi, hành vi này là những gì bạn muốn, nhưng trong một số trường hợp, bạn sẽ muốn các số lượng này được tính cho từng hàng hoặc cột trong mảng 2D của mìnhCác hàm và phương pháp bạn đã sử dụng cho đến nay có một tham số tùy chọn có tên là
range[start, stop, step]
238, tham số này rất cần thiết để xử lý dữ liệu 2D. range[start, stop, step]
238 có thể nhận bất kỳ giá trị nào sau đây
240 nói để tính toán số liệu thống kê trên tất cả dữ liệu trong mảng. Các ví dụ trên hoạt động như thế này. Hành vi này thường là mặc định trong NumPyrange[start, stop, step]
241 nói để tính toán số liệu thống kê trên tất cả các hàng, tức là cho từng cột của mảng. Hành vi này thường là mặc định cho các chức năng thống kê SciPyrange[start, stop, step]
242 nói để tính toán số liệu thống kê trên tất cả các cột, tức là cho mỗi hàng của mảngrange[start, stop, step]
Hãy xem
range[start, stop, step]
241 hoạt động với range[start, stop, step]
972>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
02Hai câu lệnh trên trả về các mảng NumPy mới với giá trị trung bình cho mỗi cột là
range[start, stop, step]
237. Trong ví dụ này, giá trị trung bình của cột đầu tiên là range[start, stop, step]
246. Cột thứ hai có giá trị trung bình là range[start, stop, step]
247, trong khi cột thứ ba có giá trị là range[start, stop, step]
248Nếu bạn cung cấp
range[start, stop, step]
242 đến range[start, stop, step]
960, thì bạn sẽ nhận được kết quả cho mỗi hàng>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
03Như bạn có thể thấy, hàng đầu tiên của
range[start, stop, step]
237 có giá trị trung bình là range[start, stop, step]
220, hàng thứ hai là range[start, stop, step]
253, v.v.Ghi chú. Bạn có thể mở rộng các quy tắc này sang mảng nhiều chiều, nhưng điều đó nằm ngoài phạm vi của hướng dẫn này. Hãy tự mình đi sâu vào chủ đề này
Tham số
range[start, stop, step]
238 hoạt động tương tự với các hàm và phương thức NumPy khác>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
04Bạn đã có trung vị và biến thể mẫu cho tất cả các cột [
range[start, stop, step]
241] và hàng [range[start, stop, step]
242] của mảng range[start, stop, step]
237Điều này rất giống khi bạn làm việc với các hàm thống kê SciPy. Nhưng hãy nhớ rằng trong trường hợp này, giá trị mặc định cho
range[start, stop, step]
238 là range[start, stop, step]
208>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
05Nếu bạn bỏ qua
range[start, stop, step]
238 hoặc cung cấp range[start, stop, step]
241, thì bạn sẽ nhận được kết quả trên tất cả các hàng, tức là cho từng cột. Ví dụ: cột đầu tiên của range[start, stop, step]
237 có giá trị trung bình hình học là range[start, stop, step]
263, v.v.Nếu bạn chỉ định
range[start, stop, step]
242, thì bạn sẽ nhận được các phép tính trên tất cả các cột, tức là cho mỗi hàng>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
06Trong ví dụ này, giá trị trung bình hình học của hàng đầu tiên của
range[start, stop, step]
237 là range[start, stop, step]
220. Đối với hàng thứ hai, đó là khoảng range[start, stop, step]
267, v.v.Nếu bạn muốn thống kê cho toàn bộ tập dữ liệu, thì bạn phải cung cấp
range[start, stop, step]
240>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
07Giá trị trung bình hình học của tất cả các mục trong mảng
range[start, stop, step]
237 là khoảng range[start, stop, step]
270Bạn có thể nhận được bản tóm tắt thống kê Python bằng một lệnh gọi hàm duy nhất cho dữ liệu 2D với scipy. số liệu thống kê. mô tả[]. Nó hoạt động tương tự như mảng 1D, nhưng bạn phải cẩn thận với tham số
range[start, stop, step]
238>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
08Khi bạn cung cấp
range[start, stop, step]
240, bạn sẽ nhận được bản tóm tắt trên tất cả dữ liệu. Hầu hết các kết quả là vô hướng. Nếu bạn đặt range[start, stop, step]
241 hoặc bỏ qua nó, thì giá trị trả về là tóm tắt cho từng cột. Vì vậy, hầu hết các kết quả là các mảng có cùng số mục với số cột. Nếu bạn đặt range[start, stop, step]
242, thì range[start, stop, step]
154 sẽ trả về tóm tắt cho tất cả các hàngBạn có thể nhận được một giá trị cụ thể từ bản tóm tắt bằng ký hiệu dấu chấm
>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
09Đó là cách bạn có thể xem tóm tắt thống kê cho mảng 2D với một lệnh gọi hàm duy nhất
Loại bỏ các quảng cáokhung dữ liệu
Lớp
range[start, stop, step]
916 là một trong những kiểu dữ liệu cơ bản của Pandas. Nó rất thoải mái khi làm việc vì nó có nhãn cho các hàng và cột. Sử dụng mảng range[start, stop, step]
237 và tạo một range[start, stop, step]
916>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
50Trong thực tế, tên của các cột quan trọng và phải mang tính mô tả. Tên của các hàng đôi khi được chỉ định tự động là
range[start, stop, step]
208, range[start, stop, step]
130, v.v. Bạn có thể chỉ định chúng một cách rõ ràng bằng tham số range[start, stop, step]
281, mặc dù bạn có thể bỏ qua range[start, stop, step]
281 nếu muốnPhương pháp
range[start, stop, step]
916 rất giống với phương pháp range[start, stop, step]
915, mặc dù hành vi khác nhau. Nếu bạn gọi các phương thức thống kê của Python mà không có đối số, thì range[start, stop, step]
916 sẽ trả về kết quả cho từng cột>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
51Những gì bạn nhận được là một
range[start, stop, step]
915 mới chứa kết quả. Trong trường hợp này, range[start, stop, step]
915 giữ giá trị trung bình và phương sai cho mỗi cột. Nếu bạn muốn kết quả cho từng hàng, thì chỉ cần chỉ định tham số range[start, stop, step]
242>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
52Kết quả là một
range[start, stop, step]
915 với số lượng mong muốn cho mỗi hàng. Các nhãn ________ 7290, ________ 7291, v.v. đề cập đến các hàng khác nhauBạn có thể cô lập từng cột của
range[start, stop, step]
916 như thế này>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
53Bây giờ, bạn có cột
range[start, stop, step]
293 ở dạng đối tượng range[start, stop, step]
915 và bạn có thể áp dụng các phương pháp thích hợp>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
54Đó là cách bạn có thể lấy số liệu thống kê cho một cột
Đôi khi, bạn có thể muốn sử dụng
range[start, stop, step]
916 làm mảng NumPy và áp dụng một số chức năng cho nó. Có thể lấy tất cả dữ liệu từ một range[start, stop, step]
916 với range[start, stop, step]
922 hoặc range[start, stop, step]
923>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
55range[start, stop, step]
299 và range[start, stop, step]
200 cung cấp cho bạn một mảng NumPy với tất cả các mục từ range[start, stop, step]
916 không có nhãn hàng và cột. Lưu ý rằng range[start, stop, step]
200 linh hoạt hơn vì bạn có thể chỉ định loại dữ liệu của các mục và liệu bạn muốn sử dụng hay sao chép dữ liệu hiện cóGiống như các đối tượng
range[start, stop, step]
915, range[start, stop, step]
916 có phương thức range[start, stop, step]
162 trả về một range[start, stop, step]
916 khác với tóm tắt thống kê cho tất cả các cột>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
56Tóm tắt chứa các kết quả sau
164. số lượng các mục trong mỗi cộtrange[start, stop, step]
157. trung bình của mỗi cộtrange[start, stop, step]
166. độ lệch chuẩnrange[start, stop, step]
167 vàrange[start, stop, step]
168. giá trị tối thiểu và tối đarange[start, stop, step]
169,range[start, stop, step]
170 vàrange[start, stop, step]
171. phần trămrange[start, stop, step]
Nếu bạn muốn đối tượng
range[start, stop, step]
916 kết quả chứa các phần trăm khác, thì bạn nên chỉ định giá trị của tham số tùy chọn range[start, stop, step]
173Bạn có thể truy cập từng mục của bản tóm tắt như thế này
>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
57Đó là cách bạn có thể nhận được số liệu thống kê Python mô tả trong một đối tượng
range[start, stop, step]
915 bằng một lệnh gọi phương thức PandasLoại bỏ các quảng cáoTrực quan hóa dữ liệu
Ngoài việc tính toán các đại lượng số như giá trị trung bình, trung vị hoặc phương sai, bạn có thể sử dụng các phương pháp trực quan để trình bày, mô tả và tóm tắt dữ liệu. Trong phần này, bạn sẽ tìm hiểu cách trình bày dữ liệu của mình một cách trực quan bằng các biểu đồ sau
- ô hộp
- biểu đồ
- Biểu đồ hình tròn
- biểu đồ thanh
- lô XY
- Bản đồ nhiệt
range[start, stop, step]
932 là một thư viện rất tiện lợi và được sử dụng rộng rãi, mặc dù đây không phải là thư viện Python duy nhất có sẵn cho mục đích này. Bạn có thể nhập nó như thế này>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
58Bây giờ, bạn đã nhập
range[start, stop, step]
932 và sẵn sàng để sử dụng. Câu lệnh thứ hai đặt kiểu cho các ô của bạn bằng cách chọn màu, độ rộng của đường và các yếu tố kiểu dáng khác. Bạn có thể bỏ qua những thứ này nếu bạn hài lòng với cài đặt kiểu mặc địnhGhi chú. Phần này tập trung vào việc trình bày dữ liệu và giữ các cài đặt phong cách ở mức tối thiểu. Bạn sẽ thấy các liên kết đến tài liệu chính thức cho các thói quen đã sử dụng từ
range[start, stop, step]
932, vì vậy bạn có thể khám phá các tùy chọn mà bạn sẽ không thấy ở đâyBạn sẽ sử dụng các số giả ngẫu nhiên để làm việc với dữ liệu. Bạn không cần kiến thức về số ngẫu nhiên để có thể hiểu phần này. Bạn chỉ cần một số số tùy ý và trình tạo giả ngẫu nhiên là một công cụ thuận tiện để lấy chúng. Mô-đun
range[start, stop, step]
221 tạo các mảng số giả ngẫu nhiên- Các số được phân phối thông thường được tạo bằng
222range[start, stop, step]
- Các số nguyên phân bố đều được tạo bằng
223range[start, stop, step]
NumPy 1. 17 đã giới thiệu một mô-đun khác để tạo số giả ngẫu nhiên. Để tìm hiểu thêm về nó, hãy kiểm tra tài liệu chính thức
ô vuông
Biểu đồ hộp là một công cụ tuyệt vời để thể hiện trực quan các số liệu thống kê mô tả của một tập dữ liệu nhất định. Nó có thể hiển thị phạm vi, phạm vi liên vùng, trung bình, chế độ, ngoại lệ và tất cả các phần tư. Đầu tiên, tạo một số dữ liệu để biểu diễn bằng biểu đồ hộp
>>>
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]] # [2, 3, 4]
# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]
print[list[numbers]] # [-2, -1, 0, 1, 2, 3]
# returns an empty sequence of numbers
numbers = range[4, 2]
print[list[numbers]] # []
59Câu lệnh đầu tiên đặt hạt giống của trình tạo số ngẫu nhiên NumPy bằng
range[start, stop, step]
224, vì vậy bạn có thể nhận được kết quả giống nhau mỗi khi chạy mã. Bạn không cần phải đặt giá trị gốc, nhưng nếu bạn không chỉ định giá trị này thì mỗi lần bạn sẽ nhận được các kết quả khác nhauCác câu lệnh khác tạo ba mảng NumPy với các số giả ngẫu nhiên được phân phối bình thường. ________ 1933 đề cập đến mảng có 1000 mục, ________ 1951 có 100 và
range[start, stop, step]
954 chứa 10 mục. Bây giờ bạn đã có dữ liệu để làm việc, bạn có thể áp dụng range[start, stop, step]
228 để lấy biểu đồ hộprange[start, stop, step]
900Các tham số của
range[start, stop, step]
228 xác định như sau
933 là dữ liệu của bạnrange[start, stop, step]
231 đặt hướng ô theo chiều ngang khirange[start, stop, step]
944. Hướng mặc định là dọcrange[start, stop, step]
233 hiển thị giá trị trung bình của dữ liệu của bạn khirange[start, stop, step]
234range[start, stop, step]
235 đại diện cho giá trị trung bình dưới dạng một dòng khirange[start, stop, step]
234. Biểu diễn mặc định là một điểmrange[start, stop, step]
237. nhãn dữ liệu của bạnrange[start, stop, step]
238 xác định cách vẽ biểu đồrange[start, stop, step]
239 biểu thị các thuộc tính của dòng đại diện cho trung vịrange[start, stop, step]
240 chỉ ra các thuộc tính của dòng hoặc dấu chấm đại diện cho giá trị trung bìnhrange[start, stop, step]
Có các tham số khác, nhưng phân tích của chúng nằm ngoài phạm vi của hướng dẫn này
Đoạn mã trên tạo ra một hình ảnh như thế này
Bạn có thể thấy ba ô hộp. Mỗi người trong số họ tương ứng với một bộ dữ liệu duy nhất [
range[start, stop, step]
933, range[start, stop, step]
951 hoặc range[start, stop, step]
954] và hiển thị như sau- Giá trị trung bình là đường đứt nét màu đỏ
- Đường trung tuyến là đường màu tím
- Phần tư đầu tiên là cạnh trái của hình chữ nhật màu xanh
- Phần tư thứ ba là cạnh phải của hình chữ nhật màu xanh
- Phạm vi liên vùng là chiều dài của hình chữ nhật màu xanh
- Phạm vi chứa mọi thứ từ trái sang phải
- Các ngoại lệ là các dấu chấm ở bên trái và bên phải
Biểu đồ hộp có thể hiển thị rất nhiều thông tin trong một hình
Loại bỏ các quảng cáobiểu đồ
Biểu đồ đặc biệt hữu ích khi có một số lượng lớn các giá trị duy nhất trong tập dữ liệu. Biểu đồ chia các giá trị từ một tập dữ liệu được sắp xếp thành các khoảng, còn được gọi là các thùng. Thông thường, tất cả các thùng đều có chiều rộng bằng nhau, mặc dù điều này không nhất thiết phải đúng như vậy. Các giá trị của giới hạn dưới và trên của một ngăn được gọi là các cạnh của ngăn
Tần số là một giá trị duy nhất tương ứng với mỗi ngăn. Đó là số phần tử của tập dữ liệu với các giá trị nằm giữa các cạnh của thùng. Theo quy ước, tất cả các ngăn trừ ngăn ngoài cùng bên phải đều được mở một nửa. Chúng bao gồm các giá trị bằng giới hạn dưới, nhưng loại trừ các giá trị bằng giới hạn trên. Thùng ngoài cùng bên phải bị đóng vì nó bao gồm cả hai giới hạn. Nếu bạn chia tập dữ liệu với các cạnh ngăn 0, 5, 10 và 15, thì có ba ngăn
- Ngăn đầu tiên và ngoài cùng bên trái chứa các giá trị lớn hơn hoặc bằng 0 và nhỏ hơn 5
- Ngăn thứ hai chứa các giá trị lớn hơn hoặc bằng 5 và nhỏ hơn 10
- Ngăn thứ ba và ngoài cùng bên phải chứa các giá trị lớn hơn hoặc bằng 10 và nhỏ hơn hoặc bằng 15
Hàm
range[start, stop, step]
244 là một cách thuận tiện để lấy dữ liệu cho biểu đồ>>>
range[start, stop, step]
901Nó lấy mảng với dữ liệu của bạn và số lượng [hoặc cạnh] của các thùng và trả về hai mảng NumPy
245 chứa tần suất hoặc số lượng vật phẩm tương ứng với mỗi ngănrange[start, stop, step]
246 chứa các cạnh hoặc giới hạn của thùngrange[start, stop, step]
Những gì
range[start, stop, step]
247 tính toán, range[start, stop, step]
248 có thể hiển thị bằng đồ họarange[start, stop, step]
902Đối số đầu tiên của
range[start, stop, step]
248 là chuỗi có dữ liệu của bạn. Đối số thứ hai xác định các cạnh của thùng. Thứ ba vô hiệu hóa tùy chọn tạo biểu đồ với các giá trị tích lũy. Đoạn mã trên tạo ra một con số như thế nàyBạn có thể thấy các cạnh thùng trên trục hoành và tần số trên trục tung
Có thể lấy biểu đồ với số mục tích lũy nếu bạn cung cấp đối số
range[start, stop, step]
250 đến range[start, stop, step]
248range[start, stop, step]
903Mã này mang lại con số sau
Nó hiển thị biểu đồ với các giá trị tích lũy. Tần suất xuất hiện của thùng đầu tiên và ngoài cùng bên trái là số mục trong thùng này. Tần suất xuất hiện của ngăn thứ hai là tổng số mục trong ngăn thứ nhất và ngăn thứ hai. Các thùng khác theo cùng một mô hình này. Cuối cùng, tần suất của ngăn cuối cùng và ngoài cùng bên phải là tổng số mục trong tập dữ liệu [trong trường hợp này là 1000]. Bạn cũng có thể trực tiếp vẽ biểu đồ với
range[start, stop, step]
252 bằng cách sử dụng range[start, stop, step]
929 ở chế độ nềnBiểu đồ hình tròn
Biểu đồ hình tròn biểu thị dữ liệu có số lượng nhãn nhỏ và tần số tương đối nhất định. Chúng hoạt động tốt ngay cả với các nhãn không thể đặt hàng [như dữ liệu danh nghĩa]. Biểu đồ hình tròn là một hình tròn được chia thành nhiều lát. Mỗi lát tương ứng với một nhãn riêng biệt từ tập dữ liệu và có diện tích tỷ lệ với tần số tương đối được liên kết với nhãn đó
Hãy xác định dữ liệu được liên kết với ba nhãn
>>>
range[start, stop, step]
904Bây giờ, hãy tạo một biểu đồ hình tròn với
range[start, stop, step]
254range[start, stop, step]
905Đối số đầu tiên của
range[start, stop, step]
254 là dữ liệu của bạn và đối số thứ hai là chuỗi các nhãn tương ứng. range[start, stop, step]
256 xác định định dạng của các tần số tương đối được hiển thị trên hình. Bạn sẽ nhận được một con số trông như thế nàyBiểu đồ hình tròn hiển thị ________ 1933 là phần nhỏ nhất của hình tròn, ________ 1951 là phần lớn nhất tiếp theo và sau đó là
range[start, stop, step]
954 là phần lớn nhất. Tỷ lệ phần trăm biểu thị kích thước tương đối của từng giá trị so với tổng của chúngLoại bỏ các quảng cáoBiểu đồ thanh
Biểu đồ thanh cũng minh họa dữ liệu tương ứng với các nhãn đã cho hoặc các giá trị số rời rạc. Họ có thể hiển thị các cặp dữ liệu từ hai bộ dữ liệu. Các mục của một tập hợp là nhãn, trong khi các mục tương ứng của tập hợp kia là tần số của chúng. Theo tùy chọn, chúng cũng có thể hiển thị các lỗi liên quan đến tần số
Biểu đồ thanh hiển thị các hình chữ nhật song song được gọi là thanh. Mỗi thanh tương ứng với một nhãn và có chiều cao tỷ lệ với tần số hoặc tần số tương đối của nhãn của nó. Hãy tạo ba bộ dữ liệu, mỗi bộ có 21 mục
>>>
range[start, stop, step]
906Bạn sử dụng
range[start, stop, step]
260 để lấy range[start, stop, step]
933 hoặc mảng các số nguyên liên tiếp từ range[start, stop, step]
208 đến range[start, stop, step]
263. Bạn sẽ sử dụng điều này để đại diện cho các nhãn. range[start, stop, step]
951 là một mảng các số nguyên ngẫu nhiên được phân phối đồng đều, cũng nằm trong khoảng từ range[start, stop, step]
208 đến range[start, stop, step]
263. Mảng này sẽ đại diện cho các tần số. range[start, stop, step]
267 chứa các số dấu phẩy động được phân phối bình thường, là các lỗi. Các giá trị này là tùy chọnBạn có thể tạo biểu đồ thanh với
range[start, stop, step]
268 nếu bạn muốn thanh dọc hoặc range[start, stop, step]
269 nếu bạn muốn thanh ngangrange[start, stop, step]
907Mã này sẽ tạo ra hình sau
Chiều cao của các thanh màu đỏ tương ứng với tần số ________ 1951, trong khi độ dài của các đường màu đen hiển thị các lỗi ________ 8267. Nếu không muốn gộp lỗi thì bỏ qua tham số
range[start, stop, step]
272 của range[start, stop, step]
268Lô XY
Biểu đồ x-y hoặc biểu đồ phân tán biểu thị các cặp dữ liệu từ hai bộ dữ liệu. Trục x nằm ngang hiển thị các giá trị từ tập hợp
range[start, stop, step]
933, trong khi trục dọc y hiển thị các giá trị tương ứng từ tập hợp range[start, stop, step]
951. Bạn có thể tùy ý thêm đường hồi quy và hệ số tương quan. Hãy tạo hai bộ dữ liệu và thực hiện hồi quy tuyến tính với range[start, stop, step]
224>>>
range[start, stop, step]
908Bộ dữ liệu
range[start, stop, step]
933 lại là mảng có các số nguyên từ 0 đến 20. range[start, stop, step]
951 được tính như một hàm tuyến tính của range[start, stop, step]
933 bị biến dạng với một số nhiễu ngẫu nhiênrange[start, stop, step]
280 trả về một số giá trị. Bạn sẽ cần range[start, stop, step]
228 và range[start, stop, step]
229 của đường hồi quy, cũng như hệ số tương quan range[start, stop, step]
209. Sau đó, bạn có thể áp dụng range[start, stop, step]
284 để lấy biểu đồ x-yrange[start, stop, step]
909Kết quả của đoạn mã trên là con số này
Bạn có thể thấy các điểm dữ liệu [cặp x-y] dưới dạng hình vuông màu đỏ, cũng như đường hồi quy màu xanh lam
Bản đồ nhiệt
Một bản đồ nhiệt có thể được sử dụng để hiển thị trực quan một ma trận. Màu sắc đại diện cho các số hoặc các phần tử của ma trận. Bản đồ nhiệt đặc biệt hữu ích để minh họa ma trận hiệp phương sai và tương quan. Bạn có thể tạo bản đồ nhiệt cho ma trận hiệp phương sai với
range[start, stop, step]
285range[start, stop, step]
910Ở đây, bản đồ nhiệt chứa các nhãn
range[start, stop, step]
286 và range[start, stop, step]
287 cũng như các số từ ma trận hiệp phương sai. Bạn sẽ có được một con số như thế nàyTrường màu vàng đại diện cho phần tử lớn nhất từ ma trận
range[start, stop, step]
288, trong khi trường màu tím tương ứng với phần tử nhỏ nhất range[start, stop, step]
289. Các ô vuông màu xanh ở giữa được liên kết với giá trị range[start, stop, step]
290Bạn có thể lấy bản đồ nhiệt cho ma trận hệ số tương quan theo logic tương tự
range[start, stop, step]
911Kết quả là hình bên dưới
Màu vàng đại diện cho giá trị
range[start, stop, step]
220 và màu tím hiển thị range[start, stop, step]
292Loại bỏ các quảng cáoSự kết luận
Bây giờ bạn đã biết các đại lượng mô tả và tóm tắt các bộ dữ liệu cũng như cách tính toán chúng trong Python. Có thể lấy số liệu thống kê mô tả bằng mã Python thuần túy, nhưng điều đó hiếm khi cần thiết. Thông thường, bạn sẽ sử dụng một số thư viện được tạo riêng cho mục đích này
- Sử dụng
912 của Python cho các hàm thống kê quan trọng nhất của Pythonrange[start, stop, step]
- Sử dụng NumPy để xử lý mảng hiệu quả
- Sử dụng SciPy cho các thói quen thống kê Python bổ sung cho mảng NumPy
- Sử dụng Pandas để làm việc với bộ dữ liệu được gắn nhãn
- Sử dụng Matplotlib để trực quan hóa dữ liệu bằng sơ đồ, biểu đồ và biểu đồ
Trong thời đại dữ liệu lớn và trí tuệ nhân tạo, bạn phải biết cách tính các thước đo thống kê mô tả. Bây giờ bạn đã sẵn sàng tìm hiểu sâu hơn về thế giới khoa học dữ liệu và máy học. Nếu bạn có câu hỏi hoặc nhận xét, xin vui lòng đặt chúng trong phần bình luận bên dưới
Đánh dấu là đã hoàn thành
🐍 Thủ thuật Python 💌
Nhận một Thủ thuật Python ngắn và hấp dẫn được gửi đến hộp thư đến của bạn vài ngày một lần. Không có thư rác bao giờ. Hủy đăng ký bất cứ lúc nào. Được quản lý bởi nhóm Real Python
Gửi cho tôi thủ thuật Python »
Giới thiệu về Mirko Stojiljković
Mirko có bằng tiến sĩ. D. trong Kỹ thuật cơ khí và làm việc như một giáo sư đại học. Anh là một Pythonista, người áp dụng các phương pháp tối ưu hóa kết hợp và máy học để hỗ trợ ra quyết định trong lĩnh vực năng lượng
» Thông tin thêm về MirkoMỗi hướng dẫn tại Real Python được tạo bởi một nhóm các nhà phát triển để nó đáp ứng các tiêu chuẩn chất lượng cao của chúng tôi. Các thành viên trong nhóm đã làm việc trong hướng dẫn này là
Aldren
Geir Arne
Jaya
Joanna
Kyle
Bậc thầy Kỹ năng Python trong thế giới thực Với quyền truy cập không giới hạn vào Python thực
Tham gia với chúng tôi và có quyền truy cập vào hàng nghìn hướng dẫn, khóa học video thực hành và cộng đồng các Pythonistas chuyên gia
Nâng cao kỹ năng Python của bạn »
Bậc thầy Kỹ năng Python trong thế giới thực
Với quyền truy cập không giới hạn vào Python thực
Tham gia với chúng tôi và có quyền truy cập vào hàng ngàn hướng dẫn, khóa học video thực hành và cộng đồng Pythonistas chuyên gia
Nâng cao kỹ năng Python của bạn »
Bạn nghĩ sao?
Đánh giá bài viết này
Tweet Chia sẻ Chia sẻ EmailBài học số 1 hoặc điều yêu thích mà bạn đã học được là gì?
Mẹo bình luận. Những nhận xét hữu ích nhất là những nhận xét được viết với mục đích học hỏi hoặc giúp đỡ các sinh viên khác. Nhận các mẹo để đặt câu hỏi hay và nhận câu trả lời cho các câu hỏi phổ biến trong cổng thông tin hỗ trợ của chúng tôi