Phạm vi thống kê trăn

Ghi chú.

range[start, stop, step]
13 trả về một dãy số bất biến có thể dễ dàng chuyển đổi thành danh sách, bộ dữ liệu, bộ, v.v.

Cú pháp của phạm vi[]

Hàm

range[start, stop, step]
13 có thể nhận tối đa ba đối số

range[start, stop, step]

Các tham số

range[start, stop, step]
0 và
range[start, stop, step]
1 trong
range[start, stop, step]
13 là tùy chọn

Bây giờ, hãy xem cách

range[start, stop, step]
13 hoạt động với số lượng đối số khác nhau

ví dụ 1. phạm vi [] với Đối số dừng

Nếu chúng ta chuyển một đối số duy nhất cho

range[start, stop, step]
13, điều đó có nghĩa là chúng ta đang chuyển đối số
range[start, stop, step]
5

Trong trường hợp này,

range[start, stop, step]
13 trả về một dãy số bắt đầu từ 0 cho đến số [nhưng không bao gồm số]

# numbers from 0 to 3 [4 is not included]
numbers = range[4]
print[list[numbers]]    # [0, 1, 2, 3]

# if 0 or negative number is passed, we get an empty sequence
numbers = range[-4]
print[list[numbers]]    # []

ví dụ 2. phạm vi [] với các đối số bắt đầu và dừng

Nếu chúng ta truyền hai đối số cho

range[start, stop, step]
13, điều đó có nghĩa là chúng ta đang truyền các đối số
range[start, stop, step]
0 và
range[start, stop, step]
5

Trong trường hợp này,

range[start, stop, step]
13 trả về một dãy số bắt đầu từ
range[start, stop, step]
0 [bao gồm] đến
range[start, stop, step]
5 [không bao gồm]

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []

ví dụ 3. phạm vi [] với các đối số Bắt đầu, Dừng và Bước

Nếu chúng ta vượt qua cả ba đối số,

  • đối số đầu tiên là
    range[start, stop, step]
    0
  • đối số thứ hai là
    range[start, stop, step]
    5
  • đối số thứ ba là
    range[start, stop, step]
    1

Đối số

range[start, stop, step]
1 chỉ định số tăng giữa hai số trong dãy

range[start, stop, step]
4

Ghi chú. Giá trị mặc định của

range[start, stop, step]
0 là 0 và giá trị mặc định của
range[start, stop, step]
1 là 1. Đó là lý do tại sao
# numbers from 0 to 3 [4 is not included]
numbers = range[4]
print[list[numbers]]    # [0, 1, 2, 3]

# if 0 or negative number is passed, we get an empty sequence
numbers = range[-4]
print[list[numbers]]    # []
9 tương đương với
# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
0

phạm vi [] trong vòng lặp

Hàm

range[start, stop, step]
13 thường được sử dụng trong vòng lặp for để lặp vòng lặp một số lần nhất định. Ví dụ,

Trong kỷ nguyên dữ liệu lớn và trí tuệ nhân tạo, khoa học dữ liệu và học máy đã trở nên thiết yếu trong nhiều lĩnh vực khoa học và công nghệ. Một khía cạnh cần thiết khi làm việc với dữ liệu là khả năng mô tả, tóm tắt và biểu diễn dữ liệu một cách trực quan. Các thư viện thống kê của Python là những công cụ toàn diện, phổ biến và được sử dụng rộng rãi sẽ hỗ trợ bạn làm việc với dữ liệu

Trong hướng dẫn này, bạn sẽ học

  • Số lượng bằng số nào bạn có thể sử dụng để mô tả và tóm tắt bộ dữ liệu của mình
  • Cách tính số liệu thống kê mô tả bằng Python thuần túy
  • Cách lấy số liệu thống kê mô tả với các thư viện Python có sẵn
  • Cách trực quan hóa bộ dữ liệu của bạn

Tiền thưởng miễn phí. Nhấp vào đây để tải xuống 5 ví dụ về Python + Matplotlib với mã nguồn đầy đủ mà bạn có thể sử dụng làm cơ sở để tạo các biểu đồ và đồ họa của riêng mình

Hiểu thống kê mô tả

Thống kê mô tả là về mô tả và tóm tắt dữ liệu. Nó sử dụng hai cách tiếp cận chính

  1. Phương pháp định lượng mô tả và tóm tắt dữ liệu bằng số
  2. Cách tiếp cận trực quan minh họa dữ liệu bằng biểu đồ, sơ đồ, biểu đồ và các biểu đồ khác

Bạn có thể áp dụng thống kê mô tả cho một hoặc nhiều bộ dữ liệu hoặc biến. Khi bạn mô tả và tóm tắt một biến số, bạn đang thực hiện phân tích đơn biến. Khi bạn tìm kiếm các mối quan hệ thống kê giữa một cặp biến, bạn đang thực hiện phân tích hai biến. Tương tự, một phân tích đa biến có liên quan đến nhiều biến cùng một lúc

Loại bỏ các quảng cáo

Các loại biện pháp

Trong hướng dẫn này, bạn sẽ tìm hiểu về các loại thước đo sau trong thống kê mô tả

  • Xu hướng trung tâm cho bạn biết về các trung tâm của dữ liệu. Các biện pháp hữu ích bao gồm giá trị trung bình, trung bình và chế độ
  • Tính khả biến cho bạn biết về sự lan truyền của dữ liệu. Các biện pháp hữu ích bao gồm phương sai và độ lệch chuẩn
  • Mối tương quan hoặc độ biến thiên chung cho bạn biết về mối quan hệ giữa một cặp biến trong tập dữ liệu. Các biện pháp hữu ích bao gồm hiệp phương sai và hệ số tương quan

Bạn sẽ học cách hiểu và tính toán các biện pháp này bằng Python

Dân số và mẫu

Trong thống kê, dân số là tập hợp tất cả các phần tử hoặc mục mà bạn quan tâm. Dân số thường rất lớn, khiến chúng không phù hợp để thu thập và phân tích dữ liệu. Đó là lý do tại sao các nhà thống kê thường cố gắng đưa ra một số kết luận về dân số bằng cách chọn và kiểm tra một tập hợp con đại diện của dân số đó

Tập hợp con này của dân số được gọi là một mẫu. Lý tưởng nhất là mẫu nên bảo tồn các đặc điểm thống kê thiết yếu của dân số ở mức độ thỏa đáng. Bằng cách đó, bạn sẽ có thể sử dụng mẫu để thu thập kết luận về dân số

ngoại lệ

Điểm ngoại lệ là một điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu được lấy từ một mẫu hoặc tổng thể. Có nhiều nguyên nhân có thể dẫn đến ngoại lệ, nhưng sau đây là một số nguyên nhân giúp bạn bắt đầu

  • Sự thay đổi tự nhiên trong dữ liệu
  • Thay đổi hành vi của hệ thống được quan sát
  • Sai sót trong thu thập dữ liệu

Lỗi thu thập dữ liệu là một nguyên nhân đặc biệt nổi bật của các ngoại lệ. Ví dụ: các hạn chế của các công cụ hoặc quy trình đo lường có thể có nghĩa là không thể thu được dữ liệu chính xác. Các lỗi khác có thể do tính toán sai, nhiễm dữ liệu, lỗi của con người, v.v.

Không có định nghĩa toán học chính xác về ngoại lệ. Bạn phải dựa vào kinh nghiệm, kiến ​​thức về chủ đề quan tâm và ý thức chung để xác định xem một điểm dữ liệu có phải là điểm bất thường hay không và cách xử lý điểm đó

Chọn thư viện thống kê Python

Có rất nhiều thư viện thống kê Python để bạn làm việc, nhưng trong hướng dẫn này, bạn sẽ tìm hiểu về một số thư viện phổ biến và được sử dụng rộng rãi nhất

  • Python's

    range[start, stop, step]
    912 là một thư viện Python tích hợp để thống kê mô tả. Bạn có thể sử dụng nó nếu bộ dữ liệu của bạn không quá lớn hoặc nếu bạn không thể dựa vào việc nhập các thư viện khác

  • NumPy là thư viện của bên thứ ba dành cho tính toán số, được tối ưu hóa để làm việc với các mảng đơn và đa chiều. Kiểu chính của nó là kiểu mảng có tên là

    range[start, stop, step]
    913. Thư viện này chứa nhiều thói quen để phân tích thống kê

  • SciPy là thư viện của bên thứ ba dành cho máy tính khoa học dựa trên NumPy. Nó cung cấp chức năng bổ sung so với NumPy, bao gồm

    range[start, stop, step]
    914 để phân tích thống kê

  • Pandas là thư viện của bên thứ ba để tính toán số dựa trên NumPy. Nó vượt trội trong việc xử lý dữ liệu một chiều [1D] được gắn nhãn với các đối tượng

    range[start, stop, step]
    915 và dữ liệu hai chiều [2D] với các đối tượng
    range[start, stop, step]
    916

  • Matplotlib là thư viện của bên thứ ba để trực quan hóa dữ liệu. Nó hoạt động tốt khi kết hợp với NumPy, SciPy và Pandas

Lưu ý rằng, trong nhiều trường hợp, các đối tượng

range[start, stop, step]
915 và
range[start, stop, step]
916 có thể được sử dụng thay cho mảng NumPy. Thông thường, bạn có thể chuyển chúng đến hàm thống kê NumPy hoặc SciPy. Ngoài ra, bạn có thể lấy dữ liệu chưa được gắn nhãn từ
range[start, stop, step]
915 hoặc
range[start, stop, step]
916 dưới dạng đối tượng
range[start, stop, step]
921 bằng cách gọi
range[start, stop, step]
922 hoặc
range[start, stop, step]
923

Bắt đầu với thư viện thống kê Python

Thư viện Python

range[start, stop, step]
912 tích hợp có một số lượng tương đối nhỏ các hàm thống kê quan trọng nhất. Tài liệu chính thức là một nguồn tài nguyên quý giá để tìm thông tin chi tiết. Nếu bạn bị giới hạn với Python thuần túy, thì thư viện Python
range[start, stop, step]
912 có thể là lựa chọn phù hợp

Một nơi tốt để bắt đầu tìm hiểu về NumPy là Hướng dẫn sử dụng chính thức, đặc biệt là phần khởi động nhanh và phần cơ bản. Tài liệu tham khảo chính thức có thể giúp bạn làm mới bộ nhớ của mình về các khái niệm NumPy cụ thể. Trong khi bạn đọc hướng dẫn này, bạn cũng có thể muốn xem phần thống kê và tài liệu tham khảo chính thức của

range[start, stop, step]
914

Ghi chú

Để tìm hiểu thêm về NumPy, hãy xem các tài nguyên này

  • Look Ma, No-Loops. Lập trình mảng với NumPy
  • Làm sạch dữ liệu Pythonic với Pandas và NumPy
  • NumPy arange[]. Làm thế nào để sử dụng np. sắp xếp[]

Nếu bạn muốn tìm hiểu Pandas, thì trang Bắt đầu chính thức là một nơi tuyệt vời để bắt đầu. Phần giới thiệu về cấu trúc dữ liệu có thể giúp bạn tìm hiểu về các loại dữ liệu cơ bản,

range[start, stop, step]
915 và
range[start, stop, step]
916. Tương tự như vậy, hướng dẫn giới thiệu chính thức xuất sắc nhằm mục đích cung cấp cho bạn đủ thông tin để bắt đầu sử dụng Pandas một cách hiệu quả trong thực tế

Ghi chú

Để tìm hiểu thêm về Pandas, hãy xem các tài nguyên này

  • Sử dụng Pandas và Python để khám phá tập dữ liệu của bạn
  • Khung dữ liệu gấu trúc 101
  • gấu trúc thành ngữ. Thủ thuật & Tính năng có thể bạn chưa biết
  • Nhanh chóng, linh hoạt, dễ dàng và trực quan. Cách tăng tốc các dự án Pandas của bạn

range[start, stop, step]
929 có Hướng dẫn sử dụng chính thức toàn diện mà bạn có thể sử dụng để tìm hiểu chi tiết về cách sử dụng thư viện. Anatomy of Matplotlib là một tài nguyên tuyệt vời cho những người mới bắt đầu muốn bắt đầu làm việc với
range[start, stop, step]
929 và các thư viện liên quan của nó

Ghi chú

Để tìm hiểu thêm về trực quan hóa dữ liệu, hãy xem các tài nguyên này

  • Vẽ sơ đồ Python với Matplotlib [Hướng dẫn]
  • Vẽ biểu đồ Python. NumPy, Matplotlib, Pandas và Seaborn
  • Trực quan hóa dữ liệu tương tác trong Python với Bokeh
  • Âm mưu với gấu trúc. Trực quan hóa dữ liệu Python cho người mới bắt đầu

Hãy bắt đầu sử dụng các thư viện thống kê Python này

Loại bỏ các quảng cáo

Tính toán thống kê mô tả

Bắt đầu bằng cách nhập tất cả các gói bạn cần

>>>

range[start, stop, step]
8

Đây là tất cả các gói bạn cần để tính toán thống kê Python. Thông thường, bạn sẽ không sử dụng gói

range[start, stop, step]
931 tích hợp sẵn của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập
range[start, stop, step]
932 để trực quan hóa dữ liệu

Hãy tạo một số dữ liệu để làm việc với. Bạn sẽ bắt đầu với các danh sách Python chứa một số dữ liệu số tùy ý

>>>

range[start, stop, step]
9

Bây giờ bạn có danh sách ________ 1933 và ________ 1934. Chúng gần như giống nhau, với điểm khác biệt là

range[start, stop, step]
934 chứa giá trị
range[start, stop, step]
936. Điều quan trọng là phải hiểu hành vi của các quy trình thống kê Python khi chúng bắt gặp một giá trị không phải là số [
range[start, stop, step]
936]. Trong khoa học dữ liệu, các giá trị bị thiếu là phổ biến và bạn sẽ thường thay thế chúng bằng
range[start, stop, step]
936

Ghi chú. Làm thế nào để bạn nhận được một giá trị

range[start, stop, step]
936?

Trong Python, bạn có thể sử dụng bất kỳ cách nào sau đây

  • range[start, stop, step]
    940
  • range[start, stop, step]
    941
  • range[start, stop, step]
    942

Bạn có thể sử dụng tất cả các chức năng này thay thế cho nhau

>>>

range[start, stop, step]
2

Bạn có thể thấy rằng các chức năng đều tương đương nhau. Tuy nhiên, xin lưu ý rằng so sánh hai giá trị

range[start, stop, step]
936 cho đẳng thức trả về
range[start, stop, step]
944. Nói cách khác,
range[start, stop, step]
945 là
range[start, stop, step]
944

Bây giờ, tạo các đối tượng ________ 1921 và ________ 1948 tương ứng với ________ 1933 và ________ 1934

>>>

range[start, stop, step]
1

Bây giờ bạn có hai mảng NumPy [

range[start, stop, step]
951 và
range[start, stop, step]
952] và hai Pandas
range[start, stop, step]
915 [
range[start, stop, step]
954 và
range[start, stop, step]
955]. Tất cả đều là các chuỗi giá trị 1D

Ghi chú. Mặc dù bạn sẽ sử dụng các danh sách trong suốt hướng dẫn này, nhưng xin lưu ý rằng, trong hầu hết các trường hợp, bạn có thể sử dụng các bộ dữ liệu theo cùng một cách

Bạn có thể tùy chọn chỉ định nhãn cho từng giá trị trong

range[start, stop, step]
954 và
range[start, stop, step]
955

Biện pháp của xu hướng trung ương

Các biện pháp của xu hướng trung tâm hiển thị các giá trị trung tâm hoặc giữa của bộ dữ liệu. Có một số định nghĩa về những gì được coi là trung tâm của tập dữ liệu. Trong hướng dẫn này, bạn sẽ học cách xác định và tính toán các thước đo xu hướng trung tâm này

  • Bần tiện
  • trung bình có trọng số
  • trung bình hình học
  • điều hòa trung bình
  • Trung bình
  • Cách thức

Bần tiện

Giá trị trung bình mẫu, còn được gọi là giá trị trung bình số học mẫu hoặc đơn giản là giá trị trung bình, là giá trị trung bình cộng của tất cả các mục trong tập dữ liệu. Giá trị trung bình của tập dữ liệu 𝑥 được biểu thị bằng toán học là Σᵢ𝑥ᵢ/𝑛, trong đó 𝑖 = 1, 2, …, 𝑛. Nói cách khác, nó là tổng của tất cả các phần tử 𝑥ᵢ chia cho số phần tử trong tập dữ liệu 𝑥

Hình này minh họa giá trị trung bình của một mẫu có năm điểm dữ liệu

Các chấm màu xanh lá cây đại diện cho các điểm dữ liệu 1, 2. 5, 4, 8 và 28. Đường đứt nét màu đỏ là giá trị trung bình của chúng, hoặc [1 + 2. 5 + 4 + 8 + 28] / 5 = 8. 7

Bạn có thể tính giá trị trung bình bằng Python thuần bằng cách sử dụng

range[start, stop, step]
958 và
range[start, stop, step]
959 mà không cần nhập thư viện

>>>

range[start, stop, step]
1

Mặc dù điều này rõ ràng và thanh lịch, nhưng bạn cũng có thể áp dụng các hàm thống kê Python tích hợp

>>>

range[start, stop, step]
2

Bạn đã gọi các hàm

range[start, stop, step]
960 và
range[start, stop, step]
961 từ thư viện Python
range[start, stop, step]
912 tích hợp và nhận được kết quả tương tự như bạn đã làm với Python thuần túy.
range[start, stop, step]
961 được giới thiệu trong Python 3. 8 như một giải pháp thay thế nhanh hơn cho
range[start, stop, step]
960. Nó luôn trả về một số dấu phẩy động

Tuy nhiên, nếu có các giá trị

range[start, stop, step]
936 trong dữ liệu của bạn, thì
range[start, stop, step]
966 và
range[start, stop, step]
967 sẽ trả về
range[start, stop, step]
936 làm đầu ra

>>>

range[start, stop, step]
2

Kết quả này phù hợp với hành vi của

range[start, stop, step]
958, bởi vì
range[start, stop, step]
970 cũng trả về
range[start, stop, step]
936

Nếu bạn sử dụng NumPy, thì bạn có thể lấy giá trị trung bình bằng

range[start, stop, step]
972

>>>

range[start, stop, step]
7

Trong ví dụ trên,

range[start, stop, step]
960 là một hàm, nhưng bạn cũng có thể sử dụng phương thức tương ứng
range[start, stop, step]
974

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
0

Hàm

range[start, stop, step]
960 và phương thức
range[start, stop, step]
974 từ NumPy trả về kết quả giống như
range[start, stop, step]
966. Đây cũng là trường hợp khi có các giá trị
range[start, stop, step]
936 trong dữ liệu của bạn

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
5

Do đó, bạn thường không cần nhận giá trị ________ 1936. Nếu bạn muốn bỏ qua các giá trị

range[start, stop, step]
936, thì bạn có thể sử dụng
range[start, stop, step]
981

>>>

range[start, stop, step]
90

range[start, stop, step]
982 đơn giản là bỏ qua tất cả các giá trị của
range[start, stop, step]
936. Nó trả về cùng một giá trị như
range[start, stop, step]
960 nếu bạn áp dụng nó cho tập dữ liệu mà không có giá trị
range[start, stop, step]
936

Các đối tượng

range[start, stop, step]
948 cũng có phương thức
range[start, stop, step]
974

>>>

range[start, stop, step]
91

Như bạn có thể thấy, nó được sử dụng tương tự như trong trường hợp của NumPy. Tuy nhiên,

range[start, stop, step]
974 từ Pandas mặc định bỏ qua giá trị
range[start, stop, step]
936

>>>

range[start, stop, step]
92

Hành vi này là kết quả của giá trị mặc định của tham số tùy chọn

range[start, stop, step]
990. Bạn có thể thay đổi tham số này để sửa đổi hành vi

trung bình có trọng số

Giá trị trung bình có trọng số, còn được gọi là giá trị trung bình số học có trọng số hoặc trung bình có trọng số, là tổng quát hóa của giá trị trung bình số học cho phép bạn xác định mức độ đóng góp tương đối của từng điểm dữ liệu vào kết quả

Bạn xác định một trọng số 𝑤ᵢ cho mỗi điểm dữ liệu 𝑥ᵢ của tập dữ liệu 𝑥, trong đó 𝑖 = 1, 2, …, 𝑛 và 𝑛 là số mục trong 𝑥. Sau đó, bạn nhân từng điểm dữ liệu với trọng số tương ứng, tính tổng tất cả các tích và chia tổng thu được cho tổng trọng số. Σᵢ[𝑤ᵢ𝑥ᵢ] / Σᵢ𝑤ᵢ

Ghi chú. Thuận tiện [và thường là như vậy] khi tất cả các trọng số đều không âm, 𝑤ᵢ ≥ 0 và tổng của chúng bằng một hoặc Σᵢ𝑤ᵢ = 1

Giá trị trung bình có trọng số rất tiện dụng khi bạn cần giá trị trung bình của tập dữ liệu chứa các mục xuất hiện với tần số tương đối nhất định. Ví dụ: giả sử bạn có một tập hợp trong đó 20% tổng số mục là 2, 50% mục là 4 và 30% mục còn lại là 8. Bạn có thể tính giá trị trung bình của một tập hợp như thế này

>>>

range[start, stop, step]
93

Ở đây, bạn tính đến tần số với trọng số. Với phương pháp này, bạn không cần biết tổng số mặt hàng

Bạn có thể triển khai giá trị trung bình có trọng số trong Python thuần túy bằng cách kết hợp

range[start, stop, step]
958 với
range[start, stop, step]
992 hoặc
range[start, stop, step]
993

>>>

range[start, stop, step]
94

Một lần nữa, đây là một triển khai sạch sẽ và thanh lịch, nơi bạn không cần nhập bất kỳ thư viện nào

Tuy nhiên, nếu bạn có bộ dữ liệu lớn, thì NumPy có thể cung cấp giải pháp tốt hơn. Bạn có thể sử dụng

range[start, stop, step]
994 để lấy giá trị trung bình của mảng NumPy hoặc Pandas
range[start, stop, step]
915

>>>

range[start, stop, step]
95

Kết quả giống như trong trường hợp triển khai Python thuần túy. Bạn cũng có thể sử dụng phương pháp này trên các danh sách và bộ thông thường

Một giải pháp khác là sử dụng tích từng phần tử

range[start, stop, step]
996 với
range[start, stop, step]
997 hoặc
range[start, stop, step]
998

>>>

range[start, stop, step]
96

Đó là nó. Bạn đã tính giá trị trung bình có trọng số

Tuy nhiên, hãy cẩn thận nếu tập dữ liệu của bạn chứa các giá trị

range[start, stop, step]
936

>>>

range[start, stop, step]
97

Trong trường hợp này,

range[start, stop, step]
200 trả về
range[start, stop, step]
936, phù hợp với
range[start, stop, step]
972

trung bình điều hòa

Giá trị trung bình điều hòa là nghịch đảo của giá trị trung bình của các nghịch đảo của tất cả các mục trong tập dữ liệu. 𝑛 / Σᵢ[1/𝑥ᵢ], trong đó 𝑖 = 1, 2, …, 𝑛 và 𝑛 là số phần tử trong tập dữ liệu 𝑥. Một biến thể của việc triển khai Python thuần túy của ý nghĩa điều hòa là đây

>>>

range[start, stop, step]
98

Nó hoàn toàn khác với giá trị của trung bình cộng cho cùng một dữ liệu

range[start, stop, step]
933, mà bạn đã tính là 8. 7

Bạn cũng có thể tính số đo này với

range[start, stop, step]
204

>>>

range[start, stop, step]
99

Ví dụ trên cho thấy một triển khai của

range[start, stop, step]
204. Nếu bạn có giá trị
range[start, stop, step]
936 trong tập dữ liệu, thì giá trị đó sẽ trả về
range[start, stop, step]
936. Nếu có ít nhất một
range[start, stop, step]
208, thì nó sẽ trả về
range[start, stop, step]
208. Nếu bạn cung cấp ít nhất một số âm thì bạn sẽ nhận được
range[start, stop, step]
210

>>>

range[start, stop, step]
20

Hãy ghi nhớ ba tình huống này khi bạn đang sử dụng phương pháp này

Cách thứ ba để tính trung bình điều hòa là sử dụng

range[start, stop, step]
211

>>>

range[start, stop, step]
21

Một lần nữa, đây là một thực hiện khá đơn giản. Tuy nhiên, nếu tập dữ liệu của bạn chứa

range[start, stop, step]
936,
range[start, stop, step]
208, số âm hoặc bất kỳ số nào khác ngoài số dương, thì bạn sẽ nhận được một số
range[start, stop, step]
214

trung bình hình học

Giá trị trung bình hình học là căn bậc 𝑛 của tích tất cả 𝑛 phần tử 𝑥ᵢ trong tập dữ liệu 𝑥. ⁿ√[Πᵢ𝑥ᵢ], trong đó 𝑖 = 1, 2, …, 𝑛. Hình dưới đây minh họa các phương tiện số học, điều hòa và hình học của một tập dữ liệu

Một lần nữa, các chấm màu xanh lá cây đại diện cho các điểm dữ liệu 1, 2. 5, 4, 8 và 28. Đường đứt nét màu đỏ là giá trị trung bình. Đường đứt nét màu xanh lam là giá trị trung bình điều hòa và đường đứt nét màu vàng là giá trị trung bình hình học

Bạn có thể triển khai ý nghĩa hình học bằng Python thuần túy như thế này

>>>

range[start, stop, step]
22

Như bạn có thể thấy, giá trị của trung bình hình học, trong trường hợp này, khác biệt đáng kể so với các giá trị của số học [8. 7] và điều hòa [2. 76] có nghĩa là cho cùng một tập dữ liệu

range[start, stop, step]
933

Trăn 3. 8 đã giới thiệu

range[start, stop, step]
216, chuyển đổi tất cả các giá trị thành số dấu phẩy động và trả về giá trị trung bình hình học của chúng

>>>

range[start, stop, step]
23

Bạn đã có kết quả giống như trong ví dụ trước, nhưng với lỗi làm tròn tối thiểu

Nếu bạn truyền dữ liệu với các giá trị _______ 1936, thì

range[start, stop, step]
216 sẽ hoạt động giống như hầu hết các hàm tương tự và trả về ________ 1936

>>>

range[start, stop, step]
24

Thật vậy, điều này phù hợp với hành vi của

range[start, stop, step]
966,
range[start, stop, step]
967 và
range[start, stop, step]
204. Nếu có số 0 hoặc số âm trong dữ liệu của bạn, thì
range[start, stop, step]
216 sẽ tăng
range[start, stop, step]
210

Bạn cũng có thể lấy giá trị trung bình hình học với

range[start, stop, step]
225

>>>

range[start, stop, step]
25

Bạn đã thu được kết quả tương tự như khi triển khai Python thuần túy

Nếu bạn có các giá trị

range[start, stop, step]
936 trong tập dữ liệu, thì
range[start, stop, step]
227 sẽ trả về
range[start, stop, step]
936. Nếu có ít nhất một
range[start, stop, step]
208, thì nó sẽ trả về
range[start, stop, step]
230 và đưa ra cảnh báo. Nếu bạn cung cấp ít nhất một số âm thì bạn sẽ nhận được
range[start, stop, step]
936 và cảnh báo

Trung bình

Trung vị mẫu là phần tử ở giữa của tập dữ liệu được sắp xếp. Tập dữ liệu có thể được sắp xếp theo thứ tự tăng hoặc giảm. Nếu số phần tử 𝑛 của tập dữ liệu là số lẻ thì trung vị là giá trị ở vị trí chính giữa. 0. 5[𝑛 + 1]. Nếu 𝑛 chẵn thì trung vị là trung bình cộng của hai giá trị ở giữa, tức là các phần tử ở vị trí 0. 5𝑛 và 0. 5𝑛 + 1

Ví dụ: nếu bạn có các điểm dữ liệu 2, 4, 1, 8 và 9 thì giá trị trung bình là 4, nằm ở giữa tập dữ liệu đã sắp xếp [1, 2, 4, 8, 9]. Nếu các điểm dữ liệu là 2, 4, 1 và 8 thì trung vị là 3, là trung bình cộng của hai phần tử ở giữa của dãy đã sắp xếp [2 và 4]. Hình dưới đây minh họa điều này

Các điểm dữ liệu là các chấm màu xanh lá cây và các đường màu tím hiển thị giá trị trung bình cho từng tập dữ liệu. Giá trị trung bình cho tập dữ liệu trên [1, 2. 5, 4, 8 và 28] là 4. Nếu bạn loại bỏ giá trị ngoại lệ 28 khỏi tập dữ liệu thấp hơn, thì trung vị sẽ trở thành trung bình cộng giữa 2. 5 và 4, đó là 3. 25

Hình dưới đây cho thấy cả giá trị trung bình và trung vị của các điểm dữ liệu 1, 2. 5, 4, 8 và 28

Một lần nữa, giá trị trung bình là đường đứt nét màu đỏ, trong khi trung vị là đường màu tím

Sự khác biệt chính giữa hành vi của giá trị trung bình và trung bình có liên quan đến các giá trị ngoại lệ hoặc cực trị của tập dữ liệu. Giá trị trung bình bị ảnh hưởng nặng nề bởi các giá trị ngoại lệ, nhưng giá trị trung bình chỉ phụ thuộc vào các giá trị ngoại lệ một chút hoặc hoàn toàn không. Xét hình sau

Tập dữ liệu trên lại có các mục 1, 2. 5, 4, 8 và 28. Ý nghĩa của nó là 8. 7, và trung bình là 5, như bạn đã thấy trước đó. Tập dữ liệu bên dưới hiển thị điều gì đang xảy ra khi bạn di chuyển điểm ngoài cùng bên phải với giá trị 28

  • Nếu bạn tăng giá trị của nó [di chuyển nó sang phải], thì giá trị trung bình sẽ tăng, nhưng giá trị trung vị sẽ không bao giờ thay đổi
  • Nếu bạn giảm giá trị của nó [di chuyển nó sang trái], thì giá trị trung bình sẽ giảm, nhưng trung vị sẽ giữ nguyên cho đến khi giá trị của điểm di chuyển lớn hơn hoặc bằng 4

Bạn có thể so sánh giá trị trung bình và trung vị như một cách để phát hiện các giá trị ngoại lệ và bất đối xứng trong dữ liệu của mình. Giá trị trung bình hay giá trị trung bình hữu ích hơn cho bạn tùy thuộc vào ngữ cảnh của vấn đề cụ thể của bạn

Đây là một trong nhiều triển khai Python thuần túy có thể có của trung vị

>>>

range[start, stop, step]
26

Hai bước quan trọng nhất của việc thực hiện này như sau

  1. Sắp xếp các phần tử của tập dữ liệu
  2. Tìm [các] phần tử ở giữa trong tập dữ liệu đã sắp xếp

Bạn có thể lấy trung bình với

range[start, stop, step]
232

>>>

range[start, stop, step]
27

Phiên bản được sắp xếp của

range[start, stop, step]
933 là
range[start, stop, step]
234, vì vậy phần tử ở giữa là
range[start, stop, step]
235. Phiên bản đã sắp xếp của
range[start, stop, step]
236, là
range[start, stop, step]
933 không có mục cuối cùng
range[start, stop, step]
238, là
range[start, stop, step]
239. Bây giờ, có hai phần tử ở giữa,
range[start, stop, step]
240 và
range[start, stop, step]
235. trung bình của họ là
range[start, stop, step]
242

range[start, stop, step]
243 và
range[start, stop, step]
244 là hai hàm khác liên quan đến trung vị trong thư viện Python
range[start, stop, step]
912. Chúng luôn trả về một phần tử từ tập dữ liệu

  • Nếu số phần tử là số lẻ, thì sẽ có một giá trị ở giữa, vì vậy các hàm này hoạt động giống như
    range[start, stop, step]
    246
  • Nếu số phần tử là số chẵn thì có hai giá trị ở giữa. Trong trường hợp này,
    range[start, stop, step]
    243 trả về giá trị thấp hơn và
    range[start, stop, step]
    244 trả về giá trị trung bình cao hơn

Bạn có thể sử dụng các chức năng này giống như bạn sử dụng

range[start, stop, step]
246

>>>

range[start, stop, step]
28

Một lần nữa, phiên bản được sắp xếp của

range[start, stop, step]
236 là
range[start, stop, step]
239. Hai phần tử ở giữa là
range[start, stop, step]
240 [thấp] và
range[start, stop, step]
235 [cao]

Không giống như hầu hết các hàm khác từ thư viện Python

range[start, stop, step]
912,
range[start, stop, step]
246,
range[start, stop, step]
243 và
range[start, stop, step]
244 không trả về
range[start, stop, step]
936 khi có các giá trị
range[start, stop, step]
936 trong số các điểm dữ liệu

>>>

range[start, stop, step]
29

Hãy coi chừng hành vi này vì nó có thể không phải là điều bạn muốn

Bạn cũng có thể lấy số trung bình với

range[start, stop, step]
260

>>>

range[start, stop, step]
10

Bạn đã nhận được các giá trị giống nhau với

range[start, stop, step]
232 và
range[start, stop, step]
260

Tuy nhiên, nếu có giá trị

range[start, stop, step]
936 trong tập dữ liệu của bạn, thì
range[start, stop, step]
260 đưa ra giá trị
range[start, stop, step]
265 và trả về
range[start, stop, step]
936. Nếu hành vi này không phải là điều bạn muốn, thì bạn có thể sử dụng
range[start, stop, step]
267 để bỏ qua tất cả các giá trị
range[start, stop, step]
936

>>>

range[start, stop, step]
11

Kết quả thu được giống như với

range[start, stop, step]
232 và
range[start, stop, step]
260 áp dụng cho bộ dữ liệu
range[start, stop, step]
933 và
range[start, stop, step]
951

Các đối tượng của Pandas

range[start, stop, step]
915 có phương thức
range[start, stop, step]
274 bỏ qua các giá trị
range[start, stop, step]
936 theo mặc định

>>>

range[start, stop, step]
12

Hành vi của

range[start, stop, step]
274 phù hợp với
range[start, stop, step]
974 trong Pandas. Bạn có thể thay đổi hành vi này bằng tham số tùy chọn
range[start, stop, step]
990

Cách thức

Chế độ mẫu là giá trị trong tập dữ liệu xảy ra thường xuyên nhất. Nếu không có một giá trị nào như vậy, thì tập hợp đó là đa phương thức vì nó có nhiều giá trị phương thức. Ví dụ: trong tập hợp có các điểm 2, 3, 2, 8 và 12, số 2 là chế độ vì nó xảy ra hai lần, không giống như các mục khác chỉ xảy ra một lần

Đây là cách bạn có thể lấy chế độ bằng Python thuần túy

>>>

range[start, stop, step]
13

Bạn sử dụng

range[start, stop, step]
279 để lấy số lần xuất hiện của từng mục trong
range[start, stop, step]
280. Mục có số lần xuất hiện tối đa là chế độ. Lưu ý rằng bạn không phải sử dụng
range[start, stop, step]
281. Thay vào đó, bạn có thể thay thế nó bằng chỉ
range[start, stop, step]
280 và lặp lại trên toàn bộ danh sách

Ghi chú.

range[start, stop, step]
281 trả về một bộ Python với tất cả các mục duy nhất trong
range[start, stop, step]
280. Bạn có thể sử dụng thủ thuật này để tối ưu hóa làm việc với dữ liệu lớn hơn, đặc biệt khi bạn muốn thấy nhiều bản sao

Bạn có thể có được chế độ với

range[start, stop, step]
285 và
range[start, stop, step]
286

>>>

range[start, stop, step]
14

Như bạn có thể thấy,

range[start, stop, step]
287 trả về một giá trị duy nhất, trong khi
range[start, stop, step]
288 trả về danh sách chứa kết quả. Tuy nhiên, đây không phải là sự khác biệt duy nhất giữa hai chức năng. Nếu có nhiều hơn một giá trị phương thức, thì
range[start, stop, step]
287 tăng
range[start, stop, step]
290, trong khi
range[start, stop, step]
288 trả về danh sách có tất cả các phương thức

>>>

range[start, stop, step]
15

Bạn nên đặc biệt chú ý đến tình huống này và cẩn thận khi lựa chọn giữa hai chức năng này

range[start, stop, step]
285 và
range[start, stop, step]
286 xử lý các giá trị
range[start, stop, step]
936 dưới dạng giá trị thông thường và có thể trả về
range[start, stop, step]
936 làm giá trị phương thức

>>>

range[start, stop, step]
16

Trong ví dụ đầu tiên ở trên, số

range[start, stop, step]
296 xuất hiện hai lần và là giá trị phương thức. Trong ví dụ thứ hai,
range[start, stop, step]
936 là giá trị phương thức vì nó xuất hiện hai lần, trong khi các giá trị khác chỉ xuất hiện một lần

Ghi chú.

range[start, stop, step]
286 được giới thiệu trong Python 3. 8

Bạn cũng có thể nhận chế độ với

range[start, stop, step]
299

>>>

range[start, stop, step]
17

Hàm này trả về đối tượng với giá trị phương thức và số lần nó xảy ra. Nếu có nhiều giá trị phương thức trong tập dữ liệu, thì chỉ giá trị nhỏ nhất được trả về

Bạn có thể lấy chế độ và số lần xuất hiện của nó dưới dạng mảng NumPy với ký hiệu dấu chấm

>>>

range[start, stop, step]
18

Mã này sử dụng

range[start, stop, step]
100 để trả về chế độ nhỏ nhất [
range[start, stop, step]
101] trong mảng
range[start, stop, step]
102 và
range[start, stop, step]
103 để trả về số lần nó xảy ra [
range[start, stop, step]
104].
range[start, stop, step]
299 cũng linh hoạt với các giá trị
range[start, stop, step]
936. Nó cho phép bạn xác định hành vi mong muốn với tham số tùy chọn
range[start, stop, step]
107. Tham số này có thể nhận các giá trị
range[start, stop, step]
108,
range[start, stop, step]
109 [lỗi] hoặc
range[start, stop, step]
110

Các đối tượng

range[start, stop, step]
915 của Pandas có phương thức
range[start, stop, step]
112 xử lý tốt các giá trị đa phương thức và bỏ qua các giá trị
range[start, stop, step]
936 theo mặc định

>>>

range[start, stop, step]
19

Như bạn có thể thấy,

range[start, stop, step]
112 trả về một
range[start, stop, step]
948 mới chứa tất cả các giá trị phương thức. Nếu bạn muốn
range[start, stop, step]
112 tính đến các giá trị của
range[start, stop, step]
936, thì chỉ cần chuyển đối số tùy chọn
range[start, stop, step]
118

Loại bỏ các quảng cáo

Các biện pháp thay đổi

Các biện pháp của xu hướng trung tâm không đủ để mô tả dữ liệu. Bạn cũng sẽ cần các biện pháp thay đổi để định lượng mức độ lan truyền của các điểm dữ liệu. Trong phần này, bạn sẽ học cách xác định và tính toán các thước đo độ biến thiên sau

  • phương sai
  • Độ lệch chuẩn
  • độ lệch
  • phần trăm
  • Các dãy

phương sai

Phương sai mẫu định lượng mức độ lan truyền của dữ liệu. Nó hiển thị bằng số các điểm dữ liệu cách giá trị trung bình bao xa. Bạn có thể biểu thị phương sai mẫu của tập dữ liệu 𝑥 với 𝑛 phần tử dưới dạng toán học là 𝑠² = Σᵢ[𝑥ᵢ − mean[𝑥]]² / [𝑛 − 1], trong đó 𝑖 = 1, 2, …, 𝑛 và mean[𝑥] là . Nếu bạn muốn hiểu sâu hơn tại sao bạn chia tổng cho 𝑛 − 1 thay vì 𝑛, thì bạn có thể tìm hiểu sâu hơn về hiệu chỉnh của Bessel

Hình dưới đây cho bạn thấy lý do tại sao điều quan trọng là phải xem xét phương sai khi mô tả bộ dữ liệu

Có hai bộ dữ liệu trong hình này

  1. chấm xanh. Tập dữ liệu này có phương sai nhỏ hơn hoặc chênh lệch trung bình nhỏ hơn so với giá trị trung bình. Nó cũng có phạm vi nhỏ hơn hoặc chênh lệch nhỏ hơn giữa mục lớn nhất và mục nhỏ nhất
  2. chấm trắng. Tập dữ liệu này có phương sai lớn hơn hoặc chênh lệch trung bình lớn hơn so với giá trị trung bình. Nó cũng có phạm vi lớn hơn hoặc sự khác biệt lớn hơn giữa mục lớn nhất và mục nhỏ nhất

Lưu ý rằng hai bộ dữ liệu này có cùng giá trị trung bình và trung bình, mặc dù chúng có vẻ khác nhau đáng kể. Cả giá trị trung bình và trung vị đều không thể mô tả sự khác biệt này. Đó là lý do tại sao bạn cần các biện pháp thay đổi

Đây là cách bạn có thể tính phương sai mẫu bằng Python thuần túy

>>>

range[start, stop, step]
10

Cách tiếp cận này là đủ và tính toán phương sai mẫu tốt. Tuy nhiên, giải pháp ngắn gọn và thanh lịch hơn là gọi hàm hiện có

range[start, stop, step]
119

>>>

range[start, stop, step]
11

Bạn đã thu được kết quả tương tự cho phương sai như trên.

range[start, stop, step]
120 có thể tránh tính giá trị trung bình nếu bạn cung cấp giá trị trung bình một cách rõ ràng làm đối số thứ hai.
range[start, stop, step]
121

Nếu bạn có các giá trị

range[start, stop, step]
936 trong dữ liệu của mình, thì
range[start, stop, step]
119 sẽ trả về
range[start, stop, step]
936

>>>

range[start, stop, step]
12

Hành vi này phù hợp với

range[start, stop, step]
960 và hầu hết các chức năng khác từ thư viện Python
range[start, stop, step]
912

Bạn cũng có thể tính phương sai mẫu với NumPy. Bạn nên sử dụng hàm

range[start, stop, step]
127 hoặc phương thức tương ứng
range[start, stop, step]
128

>>>

range[start, stop, step]
13

Điều rất quan trọng là chỉ định tham số

range[start, stop, step]
129. Đó là cách bạn đặt bậc tự do delta thành
range[start, stop, step]
130. Tham số này cho phép tính đúng 𝑠², với [𝑛 − 1] ở mẫu số thay vì 𝑛

Nếu bạn có các giá trị

range[start, stop, step]
936 trong tập dữ liệu, thì
range[start, stop, step]
127 và
range[start, stop, step]
128 sẽ trả về
range[start, stop, step]
936

>>>

range[start, stop, step]
14

Điều này phù hợp với

range[start, stop, step]
972 và
range[start, stop, step]
994. Nếu bạn muốn bỏ qua giá trị ________ 1936, thì bạn nên sử dụng ________ 6138

>>>

range[start, stop, step]
15

range[start, stop, step]
138 bỏ qua giá trị
range[start, stop, step]
936. Nó cũng cần bạn chỉ định
range[start, stop, step]
129

Các đối tượng

range[start, stop, step]
948 có phương thức
range[start, stop, step]
128 bỏ qua các giá trị
range[start, stop, step]
936 theo mặc định

>>>

range[start, stop, step]
16

Nó cũng có tham số là

range[start, stop, step]
145 nhưng giá trị mặc định của nó là
range[start, stop, step]
130 nên bạn có thể bỏ qua. Nếu bạn muốn một hành vi khác liên quan đến các giá trị
range[start, stop, step]
936, thì hãy sử dụng tham số tùy chọn
range[start, stop, step]
990

Bạn tính phương sai dân số tương tự như phương sai mẫu. Tuy nhiên, bạn phải sử dụng 𝑛 ở mẫu số thay vì 𝑛 − 1. Σᵢ[𝑥ᵢ − nghĩa là[𝑥]]² / 𝑛. Trong trường hợp này, 𝑛 là số phần tử trong toàn bộ tổng thể. Bạn có thể nhận được phương sai dân số tương tự như phương sai mẫu, với những khác biệt sau

  • Thay thế
    range[start, stop, step]
    149 bằng
    range[start, stop, step]
    150 trong triển khai Python thuần túy
  • Sử dụng
    range[start, stop, step]
    151 thay vì
    range[start, stop, step]
    119
  • Chỉ định tham số
    range[start, stop, step]
    153 nếu bạn sử dụng NumPy hoặc Pandas. Trong NumPy, bạn có thể bỏ qua
    range[start, stop, step]
    145 vì giá trị mặc định của nó là
    range[start, stop, step]
    208

Lưu ý rằng bạn phải luôn biết liệu bạn đang làm việc với một mẫu hay toàn bộ dân số bất cứ khi nào bạn tính phương sai

Độ lệch chuẩn

Độ lệch chuẩn của mẫu là một thước đo khác của sự lan truyền dữ liệu. Nó được kết nối với phương sai mẫu, vì độ lệch chuẩn, 𝑠, là căn bậc hai dương của phương sai mẫu. Độ lệch chuẩn thường thuận tiện hơn phương sai vì nó có cùng đơn vị với các điểm dữ liệu. Khi bạn nhận được phương sai, bạn có thể tính độ lệch chuẩn bằng Python thuần túy

>>>

range[start, stop, step]
17

Mặc dù giải pháp này hiệu quả nhưng bạn cũng có thể sử dụng

range[start, stop, step]
156

>>>

range[start, stop, step]
18

Tất nhiên, kết quả vẫn giống như trước đây. Giống như

range[start, stop, step]
120,
range[start, stop, step]
158 không tính giá trị trung bình nếu bạn cung cấp nó một cách rõ ràng làm đối số thứ hai.
range[start, stop, step]
159

Bạn có thể nhận được độ lệch chuẩn với NumPy theo cùng một cách. Bạn có thể sử dụng hàm

range[start, stop, step]
160 và phương thức tương ứng
range[start, stop, step]
161 để tính độ lệch chuẩn. Nếu có các giá trị
range[start, stop, step]
936 trong tập dữ liệu, thì chúng sẽ trả về
range[start, stop, step]
936. Để bỏ qua các giá trị
range[start, stop, step]
936, bạn nên sử dụng
range[start, stop, step]
165. Bạn sử dụng
range[start, stop, step]
160,
range[start, stop, step]
161 và
range[start, stop, step]
168 từ NumPy như cách bạn sử dụng
range[start, stop, step]
169,
range[start, stop, step]
128 và
range[start, stop, step]
171

>>>

range[start, stop, step]
19

Đừng quên thiết lập bậc tự do của delta là

range[start, stop, step]
130

Các đối tượng

range[start, stop, step]
948 cũng có phương thức
range[start, stop, step]
161 bỏ qua
range[start, stop, step]
936 theo mặc định

>>>

range[start, stop, step]
20

Tham số

range[start, stop, step]
145 mặc định là
range[start, stop, step]
130 nên bạn có thể bỏ qua. Một lần nữa, nếu bạn muốn xử lý các giá trị
range[start, stop, step]
936 theo cách khác, thì hãy áp dụng tham số
range[start, stop, step]
990

Độ lệch chuẩn dân số đề cập đến toàn bộ dân số. Đó là căn bậc hai dương của phương sai dân số. Bạn có thể tính toán nó giống như độ lệch chuẩn mẫu, với sự khác biệt sau

  • Tìm căn bậc hai của phương sai dân số trong triển khai Python thuần túy
  • Sử dụng
    range[start, stop, step]
    180 thay vì
    range[start, stop, step]
    156
  • Chỉ định tham số
    range[start, stop, step]
    153 nếu bạn sử dụng NumPy hoặc Pandas. Trong NumPy, bạn có thể bỏ qua
    range[start, stop, step]
    145 vì giá trị mặc định của nó là
    range[start, stop, step]
    208

Như bạn có thể thấy, bạn có thể xác định độ lệch chuẩn trong Python, NumPy và Pandas gần giống như cách bạn xác định phương sai. Bạn sử dụng các hàm và phương thức khác nhau nhưng tương tự nhau với cùng các đối số

độ lệch

Độ lệch của mẫu đo lường sự bất đối xứng của mẫu dữ liệu

Có một số định nghĩa toán học về độ lệch. Một biểu thức phổ biến để tính độ lệch của tập dữ liệu 𝑥 với 𝑛 phần tử là [𝑛² / [[𝑛 − 1][𝑛 − 2]]] [Σᵢ[𝑥ᵢ − mean[𝑥]]³ / [𝑛𝑠³]]. Một biểu thức đơn giản hơn là Σᵢ[𝑥ᵢ − mean[𝑥]]³ 𝑛 / [[𝑛 − 1][𝑛 − 2]𝑠³], trong đó 𝑖 = 1, 2, …, 𝑛 và mean[𝑥] là trung bình mẫu của . Độ lệch được xác định như thế này được gọi là hệ số mômen tiêu chuẩn Fisher-Pearson đã điều chỉnh

Hình trước cho thấy hai bộ dữ liệu khá đối xứng. Nói cách khác, điểm của họ có khoảng cách tương tự từ giá trị trung bình. Ngược lại, hình ảnh sau đây minh họa hai bộ bất đối xứng

Bộ đầu tiên được biểu thị bằng các chấm màu xanh lá cây và bộ thứ hai có các chấm màu trắng. Thông thường, các giá trị độ lệch âm cho biết rằng có một đuôi chiếm ưu thế ở phía bên trái mà bạn có thể nhìn thấy với tập hợp đầu tiên. Các giá trị độ lệch dương tương ứng với phần đuôi dài hơn hoặc mập hơn ở phía bên phải mà bạn có thể thấy trong tập hợp thứ hai. Nếu độ lệch gần bằng 0 [ví dụ: giữa −0. 5 và 0. 5], thì bộ dữ liệu được coi là khá đối xứng

Khi bạn đã tính toán kích thước của tập dữ liệu

range[start, stop, step]
150, giá trị trung bình của mẫu là
range[start, stop, step]
186 và độ lệch chuẩn
range[start, stop, step]
187, bạn có thể lấy độ lệch của mẫu bằng Python thuần túy

>>>

range[start, stop, step]
21

Độ lệch là dương, vì vậy

range[start, stop, step]
933 có đuôi bên phải

Bạn cũng có thể tính toán độ lệch của mẫu với

range[start, stop, step]
189

>>>

range[start, stop, step]
22

Kết quả thu được giống như triển khai Python thuần túy. Tham số

range[start, stop, step]
190 được đặt thành
range[start, stop, step]
944 để cho phép hiệu chỉnh độ lệch thống kê. Tham số tùy chọn
range[start, stop, step]
107 có thể nhận các giá trị
range[start, stop, step]
108,
range[start, stop, step]
109 hoặc
range[start, stop, step]
110. Nó cho phép bạn kiểm soát cách bạn sẽ xử lý các giá trị
range[start, stop, step]
936

Các đối tượng của Pandas

range[start, stop, step]
915 có phương thức
range[start, stop, step]
198 cũng trả về độ lệch của tập dữ liệu

>>>

range[start, stop, step]
23

Giống như các phương pháp khác, theo mặc định,

range[start, stop, step]
198 bỏ qua các giá trị
range[start, stop, step]
936, vì giá trị mặc định của tham số tùy chọn
range[start, stop, step]
990

phần trăm

𝑝 phần trăm mẫu là phần tử trong tập dữ liệu sao cho 𝑝% phần tử trong tập dữ liệu nhỏ hơn hoặc bằng giá trị đó. Ngoài ra, [100 − 𝑝]% phần tử lớn hơn hoặc bằng giá trị đó. Nếu có hai phần tử như vậy trong tập dữ liệu, thì phân vị 𝑝 mẫu là trung bình cộng của chúng. Mỗi tập dữ liệu có ba phần tư, là phần trăm chia tập dữ liệu thành bốn phần

  • Phần tư thứ nhất là phần trăm thứ 25 của mẫu. Nó phân chia khoảng 25% các mục nhỏ nhất từ ​​​​phần còn lại của tập dữ liệu
  • Phần tư thứ hai là phần trăm thứ 50 của mẫu hoặc trung vị. Khoảng 25% các mục nằm giữa phần tư thứ nhất và thứ hai và 25% khác giữa phần tư thứ hai và thứ ba
  • Phần tư thứ ba là phần trăm thứ 75 của mẫu. Nó phân chia khoảng 25% các mục lớn nhất từ ​​​​phần còn lại của tập dữ liệu

Mỗi phần có số lượng vật phẩm xấp xỉ nhau. Nếu bạn muốn chia dữ liệu của mình thành nhiều khoảng thời gian, thì bạn có thể sử dụng

range[start, stop, step]
102

>>>

range[start, stop, step]
24

Trong ví dụ này,

range[start, stop, step]
103 là trung vị của
range[start, stop, step]
933, trong khi
range[start, stop, step]
105 và
range[start, stop, step]
106 lần lượt là phân vị thứ 25 và 75 của mẫu. Tham số
range[start, stop, step]
150 xác định số phần trăm xác suất bằng nhau thu được và
range[start, stop, step]
108 xác định cách tính toán chúng

Ghi chú.

range[start, stop, step]
102 được giới thiệu trong Python 3. 8

Bạn cũng có thể sử dụng

range[start, stop, step]
110 để xác định bất kỳ phần trăm mẫu nào trong tập dữ liệu của mình. Ví dụ: đây là cách bạn có thể tìm phần trăm thứ 5 và 95

>>>

range[start, stop, step]
25

range[start, stop, step]
111 có một số đối số. Bạn phải cung cấp tập dữ liệu làm đối số đầu tiên và giá trị phần trăm làm đối số thứ hai. Tập dữ liệu có thể ở dạng mảng NumPy, danh sách, bộ dữ liệu hoặc cấu trúc dữ liệu tương tự. Phần trăm có thể là một số từ 0 đến 100 như trong ví dụ trên, nhưng nó cũng có thể là một dãy số

>>>

range[start, stop, step]
26

Mã này tính toán tất cả các phân vị thứ 25, 50 và 75 cùng một lúc. Nếu giá trị phần trăm là một chuỗi, thì

range[start, stop, step]
111 trả về một mảng NumPy với các kết quả. Câu lệnh đầu tiên trả về mảng tứ phân vị. Câu lệnh thứ hai trả về giá trị trung bình, vì vậy bạn có thể xác nhận rằng nó bằng với phân vị thứ 50, là
range[start, stop, step]
103

Nếu bạn muốn bỏ qua các giá trị

range[start, stop, step]
936, hãy sử dụng
range[start, stop, step]
115 để thay thế

>>>

range[start, stop, step]
27

Đó là cách bạn có thể tránh các giá trị

range[start, stop, step]
936

NumPy cũng cung cấp cho bạn chức năng rất giống trong

range[start, stop, step]
117 và
range[start, stop, step]
118. Nếu bạn sử dụng chúng, thì bạn sẽ cần cung cấp các giá trị lượng tử dưới dạng các số từ 0 đến 1 thay vì phần trăm

>>>

range[start, stop, step]
28

Các kết quả giống như trong các ví dụ trước, nhưng ở đây các đối số của bạn nằm trong khoảng từ 0 đến 1. Nói cách khác, bạn đã vượt qua

range[start, stop, step]
119 thay vì
range[start, stop, step]
120 và
range[start, stop, step]
121 thay vì
range[start, stop, step]
122

Các đối tượng

range[start, stop, step]
948 có phương thức
range[start, stop, step]
124

>>>

range[start, stop, step]
29

range[start, stop, step]
124 cũng cần bạn cung cấp giá trị lượng tử làm đối số. Giá trị này có thể là một số từ 0 đến 1 hoặc một dãy số. Trong trường hợp đầu tiên,
range[start, stop, step]
124 trả về một giá trị vô hướng. Trong trường hợp thứ hai, nó trả về một
range[start, stop, step]
915 mới giữ kết quả

Các dãy

Phạm vi dữ liệu là sự khác biệt giữa phần tử tối đa và tối thiểu trong tập dữ liệu. Bạn có thể lấy nó bằng chức năng

range[start, stop, step]
128

>>>

range[start, stop, step]
20

Hàm này trả về ________ 1936 nếu có giá trị ________ 1936 trong mảng NumPy của bạn. Nếu bạn sử dụng một đối tượng Pandas

range[start, stop, step]
915, thì nó sẽ trả về một số

Ngoài ra, bạn có thể sử dụng các hàm và phương thức Python, NumPy hoặc Pandas tích hợp để tính toán cực đại và cực tiểu của các chuỗi

  • range[start, stop, step]
    132 và
    range[start, stop, step]
    133 từ thư viện chuẩn Python
  • range[start, stop, step]
    134 và
    range[start, stop, step]
    135 từ NumPy
  • range[start, stop, step]
    136 và
    range[start, stop, step]
    137 từ NumPy để bỏ qua các giá trị
    range[start, stop, step]
    936
  • range[start, stop, step]
    139 và
    range[start, stop, step]
    140 từ NumPy
  • range[start, stop, step]
    139 và
    range[start, stop, step]
    140 từ Pandas để bỏ qua các giá trị
    range[start, stop, step]
    936 theo mặc định

Dưới đây là một số ví dụ về cách bạn sẽ sử dụng các thói quen này

>>>

range[start, stop, step]
21

Đó là cách bạn có được phạm vi dữ liệu

Phạm vi liên vùng là sự khác biệt giữa phần tư thứ nhất và thứ ba. Khi bạn tính toán các phần tư, bạn có thể lấy sự khác biệt của chúng

>>>

range[start, stop, step]
22

Lưu ý rằng bạn truy cập các giá trị trong đối tượng Pandas

range[start, stop, step]
915 có nhãn
range[start, stop, step]
145 và
range[start, stop, step]
146

Loại bỏ các quảng cáo

Tóm tắt thống kê mô tả

SciPy và Pandas cung cấp các quy trình hữu ích để nhanh chóng nhận được số liệu thống kê mô tả với một lệnh gọi hàm hoặc phương thức duy nhất. Bạn có thể sử dụng. số liệu thống kê. mô tả[] như thế này

>>>

range[start, stop, step]
23

Bạn phải cung cấp tập dữ liệu làm đối số đầu tiên. Đối số có thể là một mảng NumPy, danh sách, bộ dữ liệu hoặc cấu trúc dữ liệu tương tự. Bạn có thể bỏ qua

range[start, stop, step]
129 vì nó là giá trị mặc định và chỉ quan trọng khi bạn tính phương sai. Bạn có thể vượt qua
range[start, stop, step]
148 để buộc sửa độ lệch và độ nhọn cho sai lệch thống kê

Ghi chú. Tham số tùy chọn

range[start, stop, step]
107 có thể nhận các giá trị
range[start, stop, step]
108 [mặc định],
range[start, stop, step]
109 [lỗi] hoặc
range[start, stop, step]
110. Tham số này cho phép bạn kiểm soát những gì đang xảy ra khi có giá trị
range[start, stop, step]
936

range[start, stop, step]
154 trả về một đối tượng chứa các số liệu thống kê mô tả sau

  • range[start, stop, step]
    155. số lượng quan sát hoặc thành phần trong tập dữ liệu của bạn
  • range[start, stop, step]
    156. bộ dữ liệu với các giá trị tối thiểu và tối đa của tập dữ liệu của bạn
  • range[start, stop, step]
    157. giá trị trung bình của tập dữ liệu của bạn
  • range[start, stop, step]
    158. phương sai của tập dữ liệu của bạn
  • range[start, stop, step]
    159. độ lệch của tập dữ liệu của bạn
  • range[start, stop, step]
    160. độ nhọn của tập dữ liệu của bạn

Bạn có thể truy cập các giá trị cụ thể bằng ký hiệu dấu chấm

>>>

range[start, stop, step]
24

Với SciPy, bạn chỉ cần một lệnh gọi hàm để có được bản tóm tắt thống kê mô tả cho tập dữ liệu của mình

Pandas có chức năng tương tự, nếu không muốn nói là tốt hơn. Các đối tượng

range[start, stop, step]
915 có phương thức
range[start, stop, step]
162

>>>

range[start, stop, step]
25

Nó trả về một

range[start, stop, step]
915 mới chứa thông tin sau

  • range[start, stop, step]
    164. số lượng phần tử trong tập dữ liệu của bạn
  • range[start, stop, step]
    157. giá trị trung bình của tập dữ liệu của bạn
  • range[start, stop, step]
    166. độ lệch chuẩn của tập dữ liệu của bạn
  • range[start, stop, step]
    167 và
    range[start, stop, step]
    168. giá trị tối thiểu và tối đa của tập dữ liệu của bạn
  • range[start, stop, step]
    169,
    range[start, stop, step]
    170 và
    range[start, stop, step]
    171. các phần tư của tập dữ liệu của bạn

Nếu bạn muốn đối tượng

range[start, stop, step]
915 kết quả chứa các phần trăm khác, thì bạn nên chỉ định giá trị của tham số tùy chọn
range[start, stop, step]
173. Bạn có thể truy cập từng mục của
range[start, stop, step]
174 bằng nhãn của nó

>>>

range[start, stop, step]
26

Đó là cách bạn có thể nhận được số liệu thống kê mô tả về đối tượng

range[start, stop, step]
915 bằng một lệnh gọi phương thức duy nhất bằng Pandas

Các biện pháp tương quan giữa các cặp dữ liệu

Bạn sẽ thường xuyên cần kiểm tra mối quan hệ giữa các phần tử tương ứng của hai biến trong tập dữ liệu. Giả sử có hai biến, 𝑥 và 𝑦, với số phần tử bằng nhau, 𝑛. Đặt 𝑥₁ từ 𝑥 tương ứng với 𝑦₁ từ 𝑦, 𝑥₂ từ 𝑥 đến 𝑦₂ từ 𝑦, v.v. Khi đó bạn có thể nói rằng có 𝑛 cặp phần tử tương ứng. [𝑥₁, 𝑦₁], [𝑥₂, 𝑦₂], v.v.

Bạn sẽ thấy các biện pháp tương quan giữa các cặp dữ liệu sau đây

  • Tương quan dương tồn tại khi giá trị lớn hơn của 𝑥 tương ứng với giá trị lớn hơn của 𝑦 và ngược lại
  • Tương quan nghịch tồn tại khi giá trị lớn hơn của 𝑥 tương ứng với giá trị nhỏ hơn của 𝑦 và ngược lại
  • Tương quan yếu hoặc không tồn tại nếu không có mối quan hệ rõ ràng như vậy

Hình dưới đây cho thấy các ví dụ về mối tương quan tiêu cực, yếu và tích cực

Biểu đồ bên trái với các chấm đỏ cho thấy mối tương quan tiêu cực. Biểu đồ ở giữa với các chấm màu xanh lá cây cho thấy mối tương quan yếu. Cuối cùng, biểu đồ bên phải với các chấm màu xanh cho thấy mối tương quan tích cực

Ghi chú. Có một điều quan trọng mà bạn phải luôn ghi nhớ khi làm việc với mối tương quan giữa một cặp biến, đó là mối tương quan đó không phải là thước đo hay chỉ báo về quan hệ nhân quả, mà chỉ là mối liên hệ.

Hai thống kê đo lường mối tương quan giữa các tập dữ liệu là hiệp phương sai và hệ số tương quan. Hãy xác định một số dữ liệu để làm việc với các biện pháp này. Bạn sẽ tạo hai danh sách Python và sử dụng chúng để lấy các mảng và Pandas NumPy tương ứng

range[start, stop, step]
915

>>>

range[start, stop, step]
27

Bây giờ bạn đã có hai biến, bạn có thể bắt đầu khám phá mối quan hệ giữa chúng

hiệp phương sai

Hiệp phương sai mẫu là thước đo định lượng độ mạnh và hướng của mối quan hệ giữa một cặp biến

  • Nếu tương quan dương thì hiệp phương sai cũng dương. Một mối quan hệ mạnh mẽ hơn tương ứng với một giá trị cao hơn của hiệp phương sai
  • Nếu tương quan âm, thì hiệp phương sai cũng âm. Mối quan hệ mạnh hơn tương ứng với giá trị thấp hơn [hoặc cao hơn tuyệt đối] của hiệp phương sai
  • Nếu mối tương quan yếu, thì hiệp phương sai gần bằng không

Hiệp phương sai của các biến 𝑥 và 𝑦 được định nghĩa về mặt toán học là 𝑠ˣʸ = Σᵢ [𝑥ᵢ − mean[𝑥]] [𝑦ᵢ − mean[𝑦]] / [𝑛 − 1], trong đó 𝑖 = 1, 2, …, 𝑛, nghĩa là . Theo đó, hiệp phương sai của hai biến giống hệt nhau thực sự là phương sai. 𝑠ˣˣ = Σᵢ[𝑥ᵢ − mean[𝑥]]² / [𝑛 − 1] = [𝑠ˣ]² và 𝑠ʸʸ = Σᵢ[𝑦ᵢ − mean[𝑦]]² / [𝑛 − 1] = [𝑠ʸ]²

Đây là cách bạn có thể tính toán hiệp phương sai trong Python thuần túy

>>>

range[start, stop, step]
28

Đầu tiên, bạn phải tìm giá trị trung bình của

range[start, stop, step]
933 và
range[start, stop, step]
951. Sau đó, bạn áp dụng công thức toán học cho hiệp phương sai

NumPy có hàm

range[start, stop, step]
179 trả về ma trận hiệp phương sai

>>>

range[start, stop, step]
29

Lưu ý rằng

range[start, stop, step]
179 có các tham số tùy chọn
range[start, stop, step]
190, mặc định là
range[start, stop, step]
944 và
range[start, stop, step]
145, mặc định là
range[start, stop, step]
184. Các giá trị mặc định của chúng phù hợp để lấy ma trận hiệp phương sai mẫu. Phần tử phía trên bên trái của ma trận hiệp phương sai là hiệp phương sai của
range[start, stop, step]
933 và
range[start, stop, step]
933, hoặc phương sai của
range[start, stop, step]
933. Tương tự, phần tử phía dưới bên phải là hiệp phương sai của
range[start, stop, step]
951 và
range[start, stop, step]
951, hoặc phương sai của
range[start, stop, step]
951. Bạn có thể kiểm tra xem điều này có đúng không

>>>

range[start, stop, step]
70

Như bạn có thể thấy, phương sai của

range[start, stop, step]
933 và
range[start, stop, step]
951 lần lượt bằng với
range[start, stop, step]
193 và
range[start, stop, step]
194

Hai yếu tố khác của ma trận hiệp phương sai bằng nhau và đại diện cho hiệp phương sai thực tế giữa

range[start, stop, step]
933 và
range[start, stop, step]
951

>>>

range[start, stop, step]
71

Bạn đã thu được cùng một giá trị của hiệp phương sai với

range[start, stop, step]
197 như với Python thuần túy

Pandas

range[start, stop, step]
915 có phương pháp
range[start, stop, step]
199 mà bạn có thể sử dụng để tính toán hiệp phương sai

>>>

range[start, stop, step]
72

Tại đây, bạn gọi

range[start, stop, step]
199 trên một đối tượng
range[start, stop, step]
915 và chuyển đối tượng kia làm đối số đầu tiên

Hệ số tương quan

Hệ số tương quan, hay hệ số tương quan thời điểm sản phẩm Pearson, được biểu thị bằng ký hiệu 𝑟. Hệ số là một phép đo khác về mối tương quan giữa dữ liệu. Bạn có thể nghĩ về nó như một hiệp phương sai chuẩn hóa. Dưới đây là một số sự kiện quan trọng về nó

  • Giá trị 𝑟 > 0 biểu thị tương quan dương
  • Giá trị 𝑟 < 0 biểu thị tương quan âm
  • Giá trị r = 1 là giá trị lớn nhất có thể có của 𝑟. Nó tương ứng với một mối quan hệ tuyến tính tích cực hoàn hảo giữa các biến
  • Giá trị r = −1 là giá trị nhỏ nhất có thể có của 𝑟. Nó tương ứng với một mối quan hệ tuyến tính tiêu cực hoàn hảo giữa các biến
  • Giá trị r ≈ 0, hoặc khi 𝑟 quanh 0, có nghĩa là mối tương quan giữa các biến yếu

Công thức toán học của hệ số tương quan là 𝑟 = 𝑠ˣʸ / [𝑠ˣ𝑠ʸ] trong đó 𝑠ˣ và 𝑠ʸ lần lượt là độ lệch chuẩn của 𝑥 và 𝑦. Nếu bạn có phương tiện [

range[start, stop, step]
202 và
range[start, stop, step]
203] và độ lệch chuẩn [
range[start, stop, step]
204,
range[start, stop, step]
205] cho bộ dữ liệu
range[start, stop, step]
933 và
range[start, stop, step]
951, cũng như hiệp phương sai của chúng
range[start, stop, step]
208, thì bạn có thể tính toán hệ số tương quan bằng Python thuần túy

>>>

range[start, stop, step]
73

Bạn đã có biến

range[start, stop, step]
209 đại diện cho hệ số tương quan

range[start, stop, step]
914 có quy trình
range[start, stop, step]
211 tính toán hệ số tương quan và giá trị 𝑝

>>>

range[start, stop, step]
74

range[start, stop, step]
211 trả về một bộ có hai số. Cái đầu tiên là 𝑟 và cái thứ hai là giá trị 𝑝

Tương tự như trường hợp của ma trận hiệp phương sai, bạn có thể áp dụng

range[start, stop, step]
213 với
range[start, stop, step]
214 và
range[start, stop, step]
215 làm đối số và nhận ma trận hệ số tương quan

>>>

range[start, stop, step]
75

Phần tử phía trên bên trái là hệ số tương quan giữa

range[start, stop, step]
214 và
range[start, stop, step]
214. Phần tử phía dưới bên phải là hệ số tương quan giữa
range[start, stop, step]
215 và
range[start, stop, step]
215. Giá trị của chúng bằng với
range[start, stop, step]
220. Hai phần tử còn lại bằng nhau và biểu thị hệ số tương quan thực tế giữa
range[start, stop, step]
214 và
range[start, stop, step]
215

>>>

range[start, stop, step]
76

Tất nhiên, kết quả cũng giống như với Python thuần túy và

range[start, stop, step]
211

Bạn có thể lấy hệ số tương quan với

range[start, stop, step]
224

>>>

range[start, stop, step]
77

range[start, stop, step]
225 lấy
range[start, stop, step]
214 và
range[start, stop, step]
215, thực hiện hồi quy tuyến tính và trả về kết quả.
range[start, stop, step]
228 và
range[start, stop, step]
229 xác định phương trình của đường hồi quy, trong khi
range[start, stop, step]
230 là hệ số tương quan. Để truy cập các giá trị cụ thể từ kết quả của
range[start, stop, step]
225, bao gồm cả hệ số tương quan, hãy sử dụng ký hiệu dấu chấm

>>>

range[start, stop, step]
78

Đó là cách bạn có thể thực hiện hồi quy tuyến tính và thu được hệ số tương quan

Pandas

range[start, stop, step]
915 có phương pháp
range[start, stop, step]
233 để tính hệ số tương quan

>>>

range[start, stop, step]
79

Bạn nên gọi

range[start, stop, step]
233 trên một đối tượng
range[start, stop, step]
915 và chuyển đối tượng kia làm đối số đầu tiên

Loại bỏ các quảng cáo

Làm việc với dữ liệu 2D

Các nhà thống kê thường làm việc với dữ liệu 2D. Dưới đây là một số ví dụ về định dạng dữ liệu 2D

  • bảng cơ sở dữ liệu
  • tệp CSV
  • Bảng tính Excel, Calc và Google

NumPy và SciPy cung cấp phương tiện toàn diện để làm việc với dữ liệu 2D. Pandas có lớp

range[start, stop, step]
916 đặc biệt để xử lý dữ liệu được dán nhãn 2D

trục

Bắt đầu bằng cách tạo một mảng 2D NumPy

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
00

Bây giờ bạn có tập dữ liệu 2D mà bạn sẽ sử dụng trong phần này. Bạn có thể áp dụng các hàm và phương thức thống kê Python cho nó giống như cách bạn làm với dữ liệu 1D

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
01

Như bạn có thể thấy, bạn nhận được số liệu thống kê [như giá trị trung bình, trung bình hoặc phương sai] trên tất cả dữ liệu trong mảng

range[start, stop, step]
237. Đôi khi, hành vi này là những gì bạn muốn, nhưng trong một số trường hợp, bạn sẽ muốn các số lượng này được tính cho từng hàng hoặc cột trong mảng 2D của mình

Các hàm và phương pháp bạn đã sử dụng cho đến nay có một tham số tùy chọn có tên là

range[start, stop, step]
238, tham số này rất cần thiết để xử lý dữ liệu 2D.
range[start, stop, step]
238 có thể nhận bất kỳ giá trị nào sau đây

  • range[start, stop, step]
    240 nói để tính toán số liệu thống kê trên tất cả dữ liệu trong mảng. Các ví dụ trên hoạt động như thế này. Hành vi này thường là mặc định trong NumPy
  • range[start, stop, step]
    241 nói để tính toán số liệu thống kê trên tất cả các hàng, tức là cho từng cột của mảng. Hành vi này thường là mặc định cho các chức năng thống kê SciPy
  • range[start, stop, step]
    242 nói để tính toán số liệu thống kê trên tất cả các cột, tức là cho mỗi hàng của mảng

Hãy xem

range[start, stop, step]
241 hoạt động với
range[start, stop, step]
972

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
02

Hai câu lệnh trên trả về các mảng NumPy mới với giá trị trung bình cho mỗi cột là

range[start, stop, step]
237. Trong ví dụ này, giá trị trung bình của cột đầu tiên là
range[start, stop, step]
246. Cột thứ hai có giá trị trung bình là
range[start, stop, step]
247, trong khi cột thứ ba có giá trị là
range[start, stop, step]
248

Nếu bạn cung cấp

range[start, stop, step]
242 đến
range[start, stop, step]
960, thì bạn sẽ nhận được kết quả cho mỗi hàng

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
03

Như bạn có thể thấy, hàng đầu tiên của

range[start, stop, step]
237 có giá trị trung bình là
range[start, stop, step]
220, hàng thứ hai là
range[start, stop, step]
253, v.v.

Ghi chú. Bạn có thể mở rộng các quy tắc này sang mảng nhiều chiều, nhưng điều đó nằm ngoài phạm vi của hướng dẫn này. Hãy tự mình đi sâu vào chủ đề này

Tham số

range[start, stop, step]
238 hoạt động tương tự với các hàm và phương thức NumPy khác

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
04

Bạn đã có trung vị và biến thể mẫu cho tất cả các cột [

range[start, stop, step]
241] và hàng [
range[start, stop, step]
242] của mảng
range[start, stop, step]
237

Điều này rất giống khi bạn làm việc với các hàm thống kê SciPy. Nhưng hãy nhớ rằng trong trường hợp này, giá trị mặc định cho

range[start, stop, step]
238 là
range[start, stop, step]
208

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
05

Nếu bạn bỏ qua

range[start, stop, step]
238 hoặc cung cấp
range[start, stop, step]
241, thì bạn sẽ nhận được kết quả trên tất cả các hàng, tức là cho từng cột. Ví dụ: cột đầu tiên của
range[start, stop, step]
237 có giá trị trung bình hình học là
range[start, stop, step]
263, v.v.

Nếu bạn chỉ định

range[start, stop, step]
242, thì bạn sẽ nhận được các phép tính trên tất cả các cột, tức là cho mỗi hàng

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
06

Trong ví dụ này, giá trị trung bình hình học của hàng đầu tiên của

range[start, stop, step]
237 là
range[start, stop, step]
220. Đối với hàng thứ hai, đó là khoảng
range[start, stop, step]
267, v.v.

Nếu bạn muốn thống kê cho toàn bộ tập dữ liệu, thì bạn phải cung cấp

range[start, stop, step]
240

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
07

Giá trị trung bình hình học của tất cả các mục trong mảng

range[start, stop, step]
237 là khoảng
range[start, stop, step]
270

Bạn có thể nhận được bản tóm tắt thống kê Python bằng một lệnh gọi hàm duy nhất cho dữ liệu 2D với scipy. số liệu thống kê. mô tả[]. Nó hoạt động tương tự như mảng 1D, nhưng bạn phải cẩn thận với tham số

range[start, stop, step]
238

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
08

Khi bạn cung cấp

range[start, stop, step]
240, bạn sẽ nhận được bản tóm tắt trên tất cả dữ liệu. Hầu hết các kết quả là vô hướng. Nếu bạn đặt
range[start, stop, step]
241 hoặc bỏ qua nó, thì giá trị trả về là tóm tắt cho từng cột. Vì vậy, hầu hết các kết quả là các mảng có cùng số mục với số cột. Nếu bạn đặt
range[start, stop, step]
242, thì
range[start, stop, step]
154 sẽ trả về tóm tắt cho tất cả các hàng

Bạn có thể nhận được một giá trị cụ thể từ bản tóm tắt bằng ký hiệu dấu chấm

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
09

Đó là cách bạn có thể xem tóm tắt thống kê cho mảng 2D với một lệnh gọi hàm duy nhất

Loại bỏ các quảng cáo

khung dữ liệu

Lớp

range[start, stop, step]
916 là một trong những kiểu dữ liệu cơ bản của Pandas. Nó rất thoải mái khi làm việc vì nó có nhãn cho các hàng và cột. Sử dụng mảng
range[start, stop, step]
237 và tạo một
range[start, stop, step]
916

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
50

Trong thực tế, tên của các cột quan trọng và phải mang tính mô tả. Tên của các hàng đôi khi được chỉ định tự động là

range[start, stop, step]
208,
range[start, stop, step]
130, v.v. Bạn có thể chỉ định chúng một cách rõ ràng bằng tham số
range[start, stop, step]
281, mặc dù bạn có thể bỏ qua
range[start, stop, step]
281 nếu muốn

Phương pháp

range[start, stop, step]
916 rất giống với phương pháp
range[start, stop, step]
915, mặc dù hành vi khác nhau. Nếu bạn gọi các phương thức thống kê của Python mà không có đối số, thì
range[start, stop, step]
916 sẽ trả về kết quả cho từng cột

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
51

Những gì bạn nhận được là một

range[start, stop, step]
915 mới chứa kết quả. Trong trường hợp này,
range[start, stop, step]
915 giữ giá trị trung bình và phương sai cho mỗi cột. Nếu bạn muốn kết quả cho từng hàng, thì chỉ cần chỉ định tham số
range[start, stop, step]
242

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
52

Kết quả là một

range[start, stop, step]
915 với số lượng mong muốn cho mỗi hàng. Các nhãn ________ 7290, ________ 7291, v.v. đề cập đến các hàng khác nhau

Bạn có thể cô lập từng cột của

range[start, stop, step]
916 như thế này

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
53

Bây giờ, bạn có cột

range[start, stop, step]
293 ở dạng đối tượng
range[start, stop, step]
915 và bạn có thể áp dụng các phương pháp thích hợp

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
54

Đó là cách bạn có thể lấy số liệu thống kê cho một cột

Đôi khi, bạn có thể muốn sử dụng

range[start, stop, step]
916 làm mảng NumPy và áp dụng một số chức năng cho nó. Có thể lấy tất cả dữ liệu từ một
range[start, stop, step]
916 với
range[start, stop, step]
922 hoặc
range[start, stop, step]
923

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
55

range[start, stop, step]
299 và
range[start, stop, step]
200 cung cấp cho bạn một mảng NumPy với tất cả các mục từ
range[start, stop, step]
916 không có nhãn hàng và cột. Lưu ý rằng
range[start, stop, step]
200 linh hoạt hơn vì bạn có thể chỉ định loại dữ liệu của các mục và liệu bạn muốn sử dụng hay sao chép dữ liệu hiện có

Giống như các đối tượng

range[start, stop, step]
915,
range[start, stop, step]
916 có phương thức
range[start, stop, step]
162 trả về một
range[start, stop, step]
916 khác với tóm tắt thống kê cho tất cả các cột

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
56

Tóm tắt chứa các kết quả sau

  • range[start, stop, step]
    164. số lượng các mục trong mỗi cột
  • range[start, stop, step]
    157. trung bình của mỗi cột
  • range[start, stop, step]
    166. độ lệch chuẩn
  • range[start, stop, step]
    167 và
    range[start, stop, step]
    168. giá trị tối thiểu và tối đa
  • range[start, stop, step]
    169,
    range[start, stop, step]
    170 và
    range[start, stop, step]
    171. phần trăm

Nếu bạn muốn đối tượng

range[start, stop, step]
916 kết quả chứa các phần trăm khác, thì bạn nên chỉ định giá trị của tham số tùy chọn
range[start, stop, step]
173

Bạn có thể truy cập từng mục của bản tóm tắt như thế này

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
57

Đó là cách bạn có thể nhận được số liệu thống kê Python mô tả trong một đối tượng

range[start, stop, step]
915 bằng một lệnh gọi phương thức Pandas

Loại bỏ các quảng cáo

Trực quan hóa dữ liệu

Ngoài việc tính toán các đại lượng số như giá trị trung bình, trung vị hoặc phương sai, bạn có thể sử dụng các phương pháp trực quan để trình bày, mô tả và tóm tắt dữ liệu. Trong phần này, bạn sẽ tìm hiểu cách trình bày dữ liệu của mình một cách trực quan bằng các biểu đồ sau

  • ô hộp
  • biểu đồ
  • Biểu đồ hình tròn
  • biểu đồ thanh
  • lô XY
  • Bản đồ nhiệt

range[start, stop, step]
932 là một thư viện rất tiện lợi và được sử dụng rộng rãi, mặc dù đây không phải là thư viện Python duy nhất có sẵn cho mục đích này. Bạn có thể nhập nó như thế này

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
58

Bây giờ, bạn đã nhập

range[start, stop, step]
932 và sẵn sàng để sử dụng. Câu lệnh thứ hai đặt kiểu cho các ô của bạn bằng cách chọn màu, độ rộng của đường và các yếu tố kiểu dáng khác. Bạn có thể bỏ qua những thứ này nếu bạn hài lòng với cài đặt kiểu mặc định

Ghi chú. Phần này tập trung vào việc trình bày dữ liệu và giữ các cài đặt phong cách ở mức tối thiểu. Bạn sẽ thấy các liên kết đến tài liệu chính thức cho các thói quen đã sử dụng từ

range[start, stop, step]
932, vì vậy bạn có thể khám phá các tùy chọn mà bạn sẽ không thấy ở đây

Bạn sẽ sử dụng các số giả ngẫu nhiên để làm việc với dữ liệu. Bạn không cần kiến ​​thức về số ngẫu nhiên để có thể hiểu phần này. Bạn chỉ cần một số số tùy ý và trình tạo giả ngẫu nhiên là một công cụ thuận tiện để lấy chúng. Mô-đun

range[start, stop, step]
221 tạo các mảng số giả ngẫu nhiên

  • Các số được phân phối thông thường được tạo bằng
    range[start, stop, step]
    222
  • Các số nguyên phân bố đều được tạo bằng
    range[start, stop, step]
    223

NumPy 1. 17 đã giới thiệu một mô-đun khác để tạo số giả ngẫu nhiên. Để tìm hiểu thêm về nó, hãy kiểm tra tài liệu chính thức

ô vuông

Biểu đồ hộp là một công cụ tuyệt vời để thể hiện trực quan các số liệu thống kê mô tả của một tập dữ liệu nhất định. Nó có thể hiển thị phạm vi, phạm vi liên vùng, trung bình, chế độ, ngoại lệ và tất cả các phần tư. Đầu tiên, tạo một số dữ liệu để biểu diễn bằng biểu đồ hộp

>>>

# numbers from 2 to 4 [5 is not included]
numbers = range[2, 5]
print[list[numbers]]    # [2, 3, 4]

# numbers from -2 to 3 [4 is not included]
numbers = range[-2, 4]    
print[list[numbers]]    # [-2, -1, 0, 1, 2, 3]

# returns an empty sequence of numbers
numbers = range[4, 2] 
print[list[numbers]]    # []
59

Câu lệnh đầu tiên đặt hạt giống của trình tạo số ngẫu nhiên NumPy bằng

range[start, stop, step]
224, vì vậy bạn có thể nhận được kết quả giống nhau mỗi khi chạy mã. Bạn không cần phải đặt giá trị gốc, nhưng nếu bạn không chỉ định giá trị này thì mỗi lần bạn sẽ nhận được các kết quả khác nhau

Các câu lệnh khác tạo ba mảng NumPy với các số giả ngẫu nhiên được phân phối bình thường. ________ 1933 đề cập đến mảng có 1000 mục, ________ 1951 có 100 và

range[start, stop, step]
954 chứa 10 mục. Bây giờ bạn đã có dữ liệu để làm việc, bạn có thể áp dụng
range[start, stop, step]
228 để lấy biểu đồ hộp

range[start, stop, step]
900

Các tham số của

range[start, stop, step]
228 xác định như sau

  • range[start, stop, step]
    933 là dữ liệu của bạn
  • range[start, stop, step]
    231 đặt hướng ô theo chiều ngang khi
    range[start, stop, step]
    944. Hướng mặc định là dọc
  • range[start, stop, step]
    233 hiển thị giá trị trung bình của dữ liệu của bạn khi
    range[start, stop, step]
    234
  • range[start, stop, step]
    235 đại diện cho giá trị trung bình dưới dạng một dòng khi
    range[start, stop, step]
    234. Biểu diễn mặc định là một điểm
  • range[start, stop, step]
    237. nhãn dữ liệu của bạn
  • range[start, stop, step]
    238 xác định cách vẽ biểu đồ
  • range[start, stop, step]
    239 biểu thị các thuộc tính của dòng đại diện cho trung vị
  • range[start, stop, step]
    240 chỉ ra các thuộc tính của dòng hoặc dấu chấm đại diện cho giá trị trung bình

Có các tham số khác, nhưng phân tích của chúng nằm ngoài phạm vi của hướng dẫn này

Đoạn mã trên tạo ra một hình ảnh như thế này

Bạn có thể thấy ba ô hộp. Mỗi người trong số họ tương ứng với một bộ dữ liệu duy nhất [

range[start, stop, step]
933,
range[start, stop, step]
951 hoặc
range[start, stop, step]
954] và hiển thị như sau

  • Giá trị trung bình là đường đứt nét màu đỏ
  • Đường trung tuyến là đường màu tím
  • Phần tư đầu tiên là cạnh trái của hình chữ nhật màu xanh
  • Phần tư thứ ba là cạnh phải của hình chữ nhật màu xanh
  • Phạm vi liên vùng là chiều dài của hình chữ nhật màu xanh
  • Phạm vi chứa mọi thứ từ trái sang phải
  • Các ngoại lệ là các dấu chấm ở bên trái và bên phải

Biểu đồ hộp có thể hiển thị rất nhiều thông tin trong một hình

Loại bỏ các quảng cáo

biểu đồ

Biểu đồ đặc biệt hữu ích khi có một số lượng lớn các giá trị duy nhất trong tập dữ liệu. Biểu đồ chia các giá trị từ một tập dữ liệu được sắp xếp thành các khoảng, còn được gọi là các thùng. Thông thường, tất cả các thùng đều có chiều rộng bằng nhau, mặc dù điều này không nhất thiết phải đúng như vậy. Các giá trị của giới hạn dưới và trên của một ngăn được gọi là các cạnh của ngăn

Tần số là một giá trị duy nhất tương ứng với mỗi ngăn. Đó là số phần tử của tập dữ liệu với các giá trị nằm giữa các cạnh của thùng. Theo quy ước, tất cả các ngăn trừ ngăn ngoài cùng bên phải đều được mở một nửa. Chúng bao gồm các giá trị bằng giới hạn dưới, nhưng loại trừ các giá trị bằng giới hạn trên. Thùng ngoài cùng bên phải bị đóng vì nó bao gồm cả hai giới hạn. Nếu bạn chia tập dữ liệu với các cạnh ngăn 0, 5, 10 và 15, thì có ba ngăn

  1. Ngăn đầu tiên và ngoài cùng bên trái chứa các giá trị lớn hơn hoặc bằng 0 và nhỏ hơn 5
  2. Ngăn thứ hai chứa các giá trị lớn hơn hoặc bằng 5 và nhỏ hơn 10
  3. Ngăn thứ ba và ngoài cùng bên phải chứa các giá trị lớn hơn hoặc bằng 10 và nhỏ hơn hoặc bằng 15

Hàm

range[start, stop, step]
244 là một cách thuận tiện để lấy dữ liệu cho biểu đồ

>>>

range[start, stop, step]
901

Nó lấy mảng với dữ liệu của bạn và số lượng [hoặc cạnh] của các thùng và trả về hai mảng NumPy

  1. range[start, stop, step]
    245 chứa tần suất hoặc số lượng vật phẩm tương ứng với mỗi ngăn
  2. range[start, stop, step]
    246 chứa các cạnh hoặc giới hạn của thùng

Những gì

range[start, stop, step]
247 tính toán,
range[start, stop, step]
248 có thể hiển thị bằng đồ họa

range[start, stop, step]
902

Đối số đầu tiên của

range[start, stop, step]
248 là chuỗi có dữ liệu của bạn. Đối số thứ hai xác định các cạnh của thùng. Thứ ba vô hiệu hóa tùy chọn tạo biểu đồ với các giá trị tích lũy. Đoạn mã trên tạo ra một con số như thế này

Bạn có thể thấy các cạnh thùng trên trục hoành và tần số trên trục tung

Có thể lấy biểu đồ với số mục tích lũy nếu bạn cung cấp đối số

range[start, stop, step]
250 đến
range[start, stop, step]
248

range[start, stop, step]
903

Mã này mang lại con số sau

Nó hiển thị biểu đồ với các giá trị tích lũy. Tần suất xuất hiện của thùng đầu tiên và ngoài cùng bên trái là số mục trong thùng này. Tần suất xuất hiện của ngăn thứ hai là tổng số mục trong ngăn thứ nhất và ngăn thứ hai. Các thùng khác theo cùng một mô hình này. Cuối cùng, tần suất của ngăn cuối cùng và ngoài cùng bên phải là tổng số mục trong tập dữ liệu [trong trường hợp này là 1000]. Bạn cũng có thể trực tiếp vẽ biểu đồ với

range[start, stop, step]
252 bằng cách sử dụng
range[start, stop, step]
929 ở chế độ nền

Biểu đồ hình tròn

Biểu đồ hình tròn biểu thị dữ liệu có số lượng nhãn nhỏ và tần số tương đối nhất định. Chúng hoạt động tốt ngay cả với các nhãn không thể đặt hàng [như dữ liệu danh nghĩa]. Biểu đồ hình tròn là một hình tròn được chia thành nhiều lát. Mỗi lát tương ứng với một nhãn riêng biệt từ tập dữ liệu và có diện tích tỷ lệ với tần số tương đối được liên kết với nhãn đó

Hãy xác định dữ liệu được liên kết với ba nhãn

>>>

range[start, stop, step]
904

Bây giờ, hãy tạo một biểu đồ hình tròn với

range[start, stop, step]
254

range[start, stop, step]
905

Đối số đầu tiên của

range[start, stop, step]
254 là dữ liệu của bạn và đối số thứ hai là chuỗi các nhãn tương ứng.
range[start, stop, step]
256 xác định định dạng của các tần số tương đối được hiển thị trên hình. Bạn sẽ nhận được một con số trông như thế này

Biểu đồ hình tròn hiển thị ________ 1933 là phần nhỏ nhất của hình tròn, ________ 1951 là phần lớn nhất tiếp theo và sau đó là

range[start, stop, step]
954 là phần lớn nhất. Tỷ lệ phần trăm biểu thị kích thước tương đối của từng giá trị so với tổng của chúng

Loại bỏ các quảng cáo

Biểu đồ thanh

Biểu đồ thanh cũng minh họa dữ liệu tương ứng với các nhãn đã cho hoặc các giá trị số rời rạc. Họ có thể hiển thị các cặp dữ liệu từ hai bộ dữ liệu. Các mục của một tập hợp là nhãn, trong khi các mục tương ứng của tập hợp kia là tần số của chúng. Theo tùy chọn, chúng cũng có thể hiển thị các lỗi liên quan đến tần số

Biểu đồ thanh hiển thị các hình chữ nhật song song được gọi là thanh. Mỗi thanh tương ứng với một nhãn và có chiều cao tỷ lệ với tần số hoặc tần số tương đối của nhãn của nó. Hãy tạo ba bộ dữ liệu, mỗi bộ có 21 mục

>>>

range[start, stop, step]
906

Bạn sử dụng

range[start, stop, step]
260 để lấy
range[start, stop, step]
933 hoặc mảng các số nguyên liên tiếp từ
range[start, stop, step]
208 đến
range[start, stop, step]
263. Bạn sẽ sử dụng điều này để đại diện cho các nhãn.
range[start, stop, step]
951 là một mảng các số nguyên ngẫu nhiên được phân phối đồng đều, cũng nằm trong khoảng từ
range[start, stop, step]
208 đến
range[start, stop, step]
263. Mảng này sẽ đại diện cho các tần số.
range[start, stop, step]
267 chứa các số dấu phẩy động được phân phối bình thường, là các lỗi. Các giá trị này là tùy chọn

Bạn có thể tạo biểu đồ thanh với

range[start, stop, step]
268 nếu bạn muốn thanh dọc hoặc
range[start, stop, step]
269 nếu bạn muốn thanh ngang

range[start, stop, step]
907

Mã này sẽ tạo ra hình sau

Chiều cao của các thanh màu đỏ tương ứng với tần số ________ 1951, trong khi độ dài của các đường màu đen hiển thị các lỗi ________ 8267. Nếu không muốn gộp lỗi thì bỏ qua tham số

range[start, stop, step]
272 của
range[start, stop, step]
268

Lô XY

Biểu đồ x-y hoặc biểu đồ phân tán biểu thị các cặp dữ liệu từ hai bộ dữ liệu. Trục x nằm ngang hiển thị các giá trị từ tập hợp

range[start, stop, step]
933, trong khi trục dọc y hiển thị các giá trị tương ứng từ tập hợp
range[start, stop, step]
951. Bạn có thể tùy ý thêm đường hồi quy và hệ số tương quan. Hãy tạo hai bộ dữ liệu và thực hiện hồi quy tuyến tính với
range[start, stop, step]
224

>>>

range[start, stop, step]
908

Bộ dữ liệu

range[start, stop, step]
933 lại là mảng có các số nguyên từ 0 đến 20.
range[start, stop, step]
951 được tính như một hàm tuyến tính của
range[start, stop, step]
933 bị biến dạng với một số nhiễu ngẫu nhiên

range[start, stop, step]
280 trả về một số giá trị. Bạn sẽ cần
range[start, stop, step]
228 và
range[start, stop, step]
229 của đường hồi quy, cũng như hệ số tương quan
range[start, stop, step]
209. Sau đó, bạn có thể áp dụng
range[start, stop, step]
284 để lấy biểu đồ x-y

range[start, stop, step]
909

Kết quả của đoạn mã trên là con số này

Bạn có thể thấy các điểm dữ liệu [cặp x-y] dưới dạng hình vuông màu đỏ, cũng như đường hồi quy màu xanh lam

Bản đồ nhiệt

Một bản đồ nhiệt có thể được sử dụng để hiển thị trực quan một ma trận. Màu sắc đại diện cho các số hoặc các phần tử của ma trận. Bản đồ nhiệt đặc biệt hữu ích để minh họa ma trận hiệp phương sai và tương quan. Bạn có thể tạo bản đồ nhiệt cho ma trận hiệp phương sai với

range[start, stop, step]
285

range[start, stop, step]
910

Ở đây, bản đồ nhiệt chứa các nhãn

range[start, stop, step]
286 và
range[start, stop, step]
287 cũng như các số từ ma trận hiệp phương sai. Bạn sẽ có được một con số như thế này

Trường màu vàng đại diện cho phần tử lớn nhất từ ​​​​ma trận

range[start, stop, step]
288, trong khi trường màu tím tương ứng với phần tử nhỏ nhất
range[start, stop, step]
289. Các ô vuông màu xanh ở giữa được liên kết với giá trị
range[start, stop, step]
290

Bạn có thể lấy bản đồ nhiệt cho ma trận hệ số tương quan theo logic tương tự

range[start, stop, step]
911

Kết quả là hình bên dưới

Màu vàng đại diện cho giá trị

range[start, stop, step]
220 và màu tím hiển thị
range[start, stop, step]
292

Loại bỏ các quảng cáo

Sự kết luận

Bây giờ bạn đã biết các đại lượng mô tả và tóm tắt các bộ dữ liệu cũng như cách tính toán chúng trong Python. Có thể lấy số liệu thống kê mô tả bằng mã Python thuần túy, nhưng điều đó hiếm khi cần thiết. Thông thường, bạn sẽ sử dụng một số thư viện được tạo riêng cho mục đích này

  • Sử dụng
    range[start, stop, step]
    912 của Python cho các hàm thống kê quan trọng nhất của Python
  • Sử dụng NumPy để xử lý mảng hiệu quả
  • Sử dụng SciPy cho các thói quen thống kê Python bổ sung cho mảng NumPy
  • Sử dụng Pandas để làm việc với bộ dữ liệu được gắn nhãn
  • Sử dụng Matplotlib để trực quan hóa dữ liệu bằng sơ đồ, biểu đồ và biểu đồ

Trong thời đại dữ liệu lớn và trí tuệ nhân tạo, bạn phải biết cách tính các thước đo thống kê mô tả. Bây giờ bạn đã sẵn sàng tìm hiểu sâu hơn về thế giới khoa học dữ liệu và máy học. Nếu bạn có câu hỏi hoặc nhận xét, xin vui lòng đặt chúng trong phần bình luận bên dưới

Đánh dấu là đã hoàn thành

🐍 Thủ thuật Python 💌

Nhận một Thủ thuật Python ngắn và hấp dẫn được gửi đến hộp thư đến của bạn vài ngày một lần. Không có thư rác bao giờ. Hủy đăng ký bất cứ lúc nào. Được quản lý bởi nhóm Real Python

Gửi cho tôi thủ thuật Python »

Giới thiệu về Mirko Stojiljković

Mirko có bằng tiến sĩ. D. trong Kỹ thuật cơ khí và làm việc như một giáo sư đại học. Anh là một Pythonista, người áp dụng các phương pháp tối ưu hóa kết hợp và máy học để hỗ trợ ra quyết định trong lĩnh vực năng lượng

» Thông tin thêm về Mirko

Mỗi hướng dẫn tại Real Python được tạo bởi một nhóm các nhà phát triển để nó đáp ứng các tiêu chuẩn chất lượng cao của chúng tôi. Các thành viên trong nhóm đã làm việc trong hướng dẫn này là

Aldren

Geir Arne

Jaya

Joanna

Kyle

Bậc thầy Kỹ năng Python trong thế giới thực Với quyền truy cập không giới hạn vào Python thực

Tham gia với chúng tôi và có quyền truy cập vào hàng nghìn hướng dẫn, khóa học video thực hành và cộng đồng các Pythonistas chuyên gia

Nâng cao kỹ năng Python của bạn »

Bậc thầy Kỹ năng Python trong thế giới thực
Với quyền truy cập không giới hạn vào Python thực

Tham gia với chúng tôi và có quyền truy cập vào hàng ngàn hướng dẫn, khóa học video thực hành và cộng đồng Pythonistas chuyên gia

Nâng cao kỹ năng Python của bạn »

Bạn nghĩ sao?

Đánh giá bài viết này

Tweet Chia sẻ Chia sẻ Email

Bài học số 1 hoặc điều yêu thích mà bạn đã học được là gì?

Mẹo bình luận. Những nhận xét hữu ích nhất là những nhận xét được viết với mục đích học hỏi hoặc giúp đỡ các sinh viên khác. Nhận các mẹo để đặt câu hỏi hay và nhận câu trả lời cho các câu hỏi phổ biến trong cổng thông tin hỗ trợ của chúng tôi

Chủ Đề