Hướng dẫn dùng statistical significance python

Trong hướng dẫn Thống kê Python này , chúng ta sẽ học cách tính giá trị p và Tương quan trong Python. Hơn nữa, chúng ta sẽ thảo luận về T-test và KS Test với ví dụ và mã trong Thống kê Python.

Các bài viết liên quan:

Vì vậy, hãy bắt đầu Hướng dẫn thống kê Python.

  • p-value trong thống kê Python
  • T-test trong thống kê Python
  • KS Test trong thống kê Python
  • Tương quan trong thống kê Python
  • Kết luận: Thống kê Python

p-value trong thống kê Python

Khi nói về thống kê, giá trị p cho một mô hình thống kê là xác suất mà khi giả thuyết rỗng là đúng, thì bản tóm tắt thống kê bằng hoặc lớn hơn kết quả quan sát thực tế. Đây còn được gọi là “probability value” hoặc “asymptotic significance“.

Giả thuyết vô hiệu cho rằng hai hiện tượng đo được không có mối quan hệ nào với nhau. Chúng tôi ký hiệu điều này là H hoặc H 0 . Một giả thuyết vô hiệu như vậy có thể là số giờ làm việc ở văn phòng ảnh hưởng đến số tiền lương được trả. Với mức ý nghĩa 5%, nếu giá trị p giảm xuống thấp hơn 5% thì giả thuyết vô hiệu bị vô hiệu. Sau đó, người ta phát hiện ra rằng số giờ bạn ở văn phòng sẽ không ảnh hưởng đến số tiền lương bạn sẽ nhận về nhà. Lưu ý rằng giá trị p có thể nằm trong khoảng từ 0% đến 100% và chúng tôi viết chúng dưới dạng số thập phân. Giá trị p cho 5% sẽ là 0,05.

Giá trị p nhỏ hơn mang nhiều ý nghĩa hơn vì nó có thể cho bạn biết rằng giả thuyết có thể không giải thích được quan sát một cách công bằng. Nếu một hoặc nhiều xác suất nhỏ hơn hoặc bằng α, mức ý nghĩa, chúng tôi bác bỏ giả thuyết vô hiệu. Đối với giả thuyết rỗng đúng, p có thể nhận bất kỳ giá trị nào trong khoảng từ 0 đến 1 với khả năng xảy ra như nhau. Đối với một giả thuyết thay thế đúng, giá trị p có thể giảm xuống gần 0.

Hướng dẫn dùng statistical significance python

T-test trong thống kê Python

Hãy nói về T-tests. Một bài kiểm tra như vậy cho chúng ta biết liệu một mẫu dữ liệu số có đi lạc hoặc khác biệt đáng kể so với quần thể hay không. Nó cũng nói về hai mẫu – liệu chúng có khác nhau không. Nói cách khác, nó cho chúng ta xác suất chênh lệch giữa các quần thể. Thử nghiệm liên quan đến một thống kê t. Đối với các mẫu nhỏ, chúng ta có thể sử dụng thử nghiệm T với hai mẫu.

Hướng dẫn dùng statistical significance python

Ví dụ One-sample T-test trong Python

Hãy thử điều này trên một mẫu duy nhất. Thử nghiệm sẽ cho chúng ta biết liệu phương tiện của mẫu và dân số có khác nhau hay không. Hãy xem xét việc bỏ phiếu của dân số ở Ấn Độ và ở Gujarat. Độ tuổi trung bình của cử tri Gujarati có khác với dân số không? Hãy cùng tìm hiểu.

import numpy as np # thêm thư viện numpy
import pandas as pd # thêm thư viện pandas
import scipy.stats as stats # thêm thư viện scipy.stats
import matplotlib.pyplot as plt # thêm thư viện matplotlib.pyplot
import math # thêm thư viện math
np.random.seed(6) #random ngẫu nhiên
population_ages1=stats.poisson.rvs(loc=18,mu=35,size=150000) # biến ngẫu nhiên rời rạc phân bố poison
population_ages2=stats.poisson.rvs(loc=18,mu=10,size=100000)
population_ages=np.concatenate((population_ages1,population_ages2))# kết hợp 2 mảng
gujarat_ages1=stats.poisson.rvs(loc=18,mu=30,size=30)
gujarat_ages2=stats.poisson.rvs(loc=18,mu=10,size=20)
gujarat_ages=np.concatenate((gujarat_ages1,gujarat_ages2)) # kết hợp 2 mảng
population_ages.mean()

Kết quả :43.000112

Kết quả : 39,26

stats.ttest_1samp(a=gujarat_ages,popmean=population_ages.mean())

Hướng dẫn dùng statistical significance python

Bây giờ giá trị -2,574 này cho chúng ta biết mức sai lệch của trung bình mẫu từ giả thuyết.

Ví dụ Two-sample Test của Python

Một thử nghiệm như vậy cho chúng ta biết liệu hai mẫu dữ liệu có các phương tiện khác nhau hay không. Ở đây, chúng tôi lấy giả thuyết rỗng rằng cả hai nhóm đều có phương tiện bằng nhau. Chúng tôi không cần một tham số dân số đã biết cho việc này.

Hãy sửa đổi Đệ quy trong Python

np.random.seed(12) # tạo random
maharashtra_ages1=stats.poisson.rvs(loc=18,mu=33,size=30)# ngẫu nhiên phân phối poison
maharashtra_ages2=stats.poisson.rvs(loc=18,mu=13,size=20)# ngẫu nhiên phân phối poison
maharashtra_ages=np.concatenate((maharashtra_ages1,maharashtra_ages2))# nối 2 array này
maharashtra_ages.mean() # tính mean

Kết quả: 42,26

stats.ttest_ind(a=gujarat_ages,b=maharashtra_ages,equal_var=False)

Hướng dẫn dùng statistical significance python

cho chúng ta biết có 15,2% khả năng dữ liệu mẫu rất xa nhau cho hai nhóm giống hệt nhau. Điều này lớn hơn mức tin cậy 5%.

Thử ngPaired T-test với Python

Khi bạn muốn kiểm tra xem các mẫu khác nhau từ cùng một nhóm như thế nào, bạn có thể thực hiện phép thử T được ghép nối. Hãy lấy một ví dụ.

np.random.seed(11) #random 
before=stats.norm.rvs(scale=30,loc=250,size=100)# ngẫu nhiên phân bố norm
after=before+stats.norm.rvs(scale=5,loc=-1.25,size=100)  # cộng 2 phân bố ngẫu nhiên
weight_df=pd.DataFrame({"weight_before":before,
                         "weight_after":after,
                         "weight_change":after-before}) # đưa vào frame
weight_df.describe() # show ra bảng

Hướng dẫn dùng statistical significance python

Vì vậy, chúng tôi thấy chúng tôi chỉ có 1% cơ hội để tìm thấy sự khác biệt lớn như vậy giữa các mẫu.

KS Test trong thống kê Python

Đây là bài kiểm tra Kolmogorov-Smirnov . Nó cho phép chúng tôi kiểm tra giả thuyết rằng mẫu là một phần của phân phối t chuẩn. Hãy lấy một ví dụ.

stats.kstest(x,'t',(10,))

Hướng dẫn dùng statistical significance python
Hướng dẫn dùng statistical significance python

Chú ý đến giá trị p trong cả hai trường hợp.

2 sample

Những gì chúng ta thấy ở trên là xét nghiệm KS cho một mẫu. Hãy thử hai.

stats.ks_2samp(gujarat_ages,maharashtra_ages)

Hướng dẫn dùng statistical significance python

Tương quan trong thống kê Python

Đây là mối quan hệ thống kê giữa hai biến ngẫu nhiên (hoặc dữ liệu hai biến). Điều này có thể là quan hệ nhân quả. Nó là một thước đo để đánh giá mức độ gần của hai biến trong việc giữ mối quan hệ tuyến tính với nhau. Một ví dụ như vậy sẽ là mối tương quan giữa cung và cầu đối với một sản phẩm mà nguồn cung bị hạn chế.

Tương quan có thể biểu thị mối quan hệ dự đoán mà chúng ta có thể khai thác. Để đo mức độ tương quan, chúng ta có thể sử dụng các hằng số như ρ hoặc r. Lợi ích của sự tương quan-

  • Dự đoán một số lượng từ một số lượng khác
  • Khám phá sự tồn tại của mối quan hệ nhân quả
  • Nền tảng cho các kỹ thuật mô hình khác

Ví dụ về tương quan trong Python

Hãy lấy một ví dụ.

df=pd.read_csv('furniture.csv',index_col='Serial',parse_dates=True)
df['Gross']=df.Cost+df.Cost*10
df.describe()

Hướng dẫn dùng statistical significance python
Hướng dẫn dùng statistical significance python

Ví dụ về tương quan Python

Điều này cho chúng ta biết mỗi cột tương quan với nhau như thế nào. Bạn cũng có thể tính hiệp phương sai theo cách sau:

Hướng dẫn dùng statistical significance python

Plotting tương quan trong Python

Hãy sử dụng seaborn để vẽ biểu đồ tương quan giữa các cột của tập dữ liệu ‘mống mắt’.

Hãy sửa đổi lại Trình lặp lại Python

import seaborn as sn
df1=sn.load_dataset('iris')
sn.pairplot(df,kind='scatter')

Hướng dẫn dùng statistical significance python

Lưu kết quả

Chúng tôi có thể xuất kết quả của một mối tương quan dưới dạng tệp CSV.

d=df1.corr()
d.to_csv('iriscorrelation.csv')

Điều này cung cấp cho chúng tôi tệp CSV sau-

Hướng dẫn dùng statistical significance python

Vì vậy, tất cả đều nằm trong Thống kê Python. Hy vọng bạn thích giải thích của chúng tôi.

Kết luận: Thống kê Python

Do đó, trong hướng dẫn Thống kê Python này, chúng ta đã thảo luận về phép thử p-value, T-test, tương quan và KS với Python. Để kết luận, chúng tôi sẽ nói rằng giá trị p là một thước đo số cho bạn biết liệu dữ liệu mẫu có phù hợp với giả thuyết rỗng hay không. Tương quan là sự phụ thuộc lẫn nhau của các đại lượng biến thiên. Tuy nhiên, nếu có bất kỳ nghi ngờ nào về Thống kê Python, hãy hỏi trong tab nhận xét.