Cách thực hiện kiểm tra anova trong python

ANOVA là một phương tiện để kiểm tra mối quan hệ cường độ của phương sai hệ thống với phương sai phi hệ thống trong nghiên cứu thực nghiệm liên kết. Phương sai trong anova được phân chia thành phương sai tổng, phương sai do nhóm và phương sai do các biến thể riêng lẻ

Tỷ lệ thu được sau khi thực hiện phép so sánh này được gọi là tỷ lệ F. Một phân tích phương sai một chiều thường được coi là một mô hình hồi quy với một yếu tố dự đoán phân loại

Hướng dẫn sau đây dựa trên phân tích dữ liệu; . ANOVAs thường được sử dụng trong các nghiên cứu Tâm lý học

Trong hướng dẫn sau, chúng ta sẽ hiểu cách chúng ta có thể thực hiện ANOVA với sự trợ giúp của thư viện SciPy, đánh giá nó "bằng tay" trong Python, sử dụng Pyyttbl và Statsmodels

Hiểu bài kiểm tra ANOVA

Chúng ta có thể nghĩ đến Phân tích kiểm tra phương sai, còn được gọi là ANOVA, để tổng quát hóa các kiểm tra T cho nhiều nhóm. Nói chung, chúng tôi sử dụng kiểm tra T độc lập để so sánh phương tiện trạng thái giữa hai nhóm. Chúng tôi sử dụng Kiểm tra ANOVA bất cứ khi nào chúng tôi cần so sánh phương tiện trạng thái giữa nhiều hơn hai nhóm

Kiểm định ANOVA kiểm tra xem có sự chênh lệch trung bình ở đâu đó trong mô hình hay không [kiểm tra xem có ảnh hưởng tổng thể hay không]; . Chúng ta có thể tìm ra điểm khác biệt giữa các nhóm bằng cách thực hiện các bài kiểm tra sau đại học

Tuy nhiên, để thực hiện bất kỳ thử nghiệm nào, trước tiên chúng ta phải xác định các giả thuyết không và thay thế

  1. giả thuyết không. Không có sự khác biệt đáng chú ý giữa các nhóm
  2. giả thuyết thay thế. Có sự khác biệt đáng chú ý giữa các nhóm

Chúng ta có thể thực hiện Kiểm tra ANOVA bằng cách so sánh hai loại biến thể. Biến thể đầu tiên là giữa phương tiện mẫu và biến thể khác trong mỗi mẫu. Công thức hiển thị bên dưới mô tả thống kê Kiểm tra ANOVA một chiều

Đầu ra của công thức ANOVA, thống kê F [còn được gọi là tỷ lệ F], cho phép phân tích nhiều bộ dữ liệu để xác định độ biến thiên giữa các mẫu và trong các mẫu

Chúng ta có thể viết công thức cho bài kiểm tra ANOVA một chiều như minh họa bên dưới

Ở đâu,

yi - Trung bình mẫu trong nhóm thứ i

ni - Số Quan sát trong nhóm thứ i

y - Tổng giá trị trung bình của dữ liệu

k - Tổng số nhóm

yij - quan sát thứ j trong k nhóm

N - Cỡ mẫu chung

Bất cứ khi nào chúng ta vẽ bảng ANOVA, chúng ta có thể thấy tất cả các thành phần trên ở định dạng sau

Thông thường, nếu giá trị p thuộc về F nhỏ hơn 0. 05, thì giả thuyết không bị loại trừ và giả thuyết thay thế được duy trì. Trong trường hợp bác bỏ giả thuyết không, chúng ta có thể nói rằng phương tiện của tất cả các tập hợp/nhóm không bằng nhau

Ghi chú. Nếu không có sự khác biệt thực sự giữa các nhóm được thử nghiệm, được gọi là giả thuyết không, thì thống kê tỷ lệ F của Thử nghiệm ANOVA sẽ liền kề với 1

Giả định kiểm tra ANOVA

Trước khi thực hiện kiểm tra ANOVA, chúng ta phải đưa ra một số giả định nhất định, như hình bên dưới

  1. Chúng ta có thể thu được các quan sát một cách ngẫu nhiên và độc lập với tổng thể được xác định bởi các mức nhân tố
  2. Dữ liệu cho mọi cấp độ của yếu tố được phân phối chung
  3. trường hợp độc lập. Các trường hợp mẫu phải độc lập với nhau
  4. phương sai đồng nhất. Tính đồng nhất biểu thị rằng phương sai giữa các nhóm cần phải bằng nhau

Chúng ta có thể kiểm tra giả định về tính đồng nhất của phương sai với sự trợ giúp của các thử nghiệm như Thử nghiệm Brown-Forsythe hoặc Thử nghiệm của Levene. Chúng ta cũng có thể kiểm tra Tính bình thường của phân phối điểm số với sự trợ giúp của biểu đồ, giá trị độ nhọn hoặc độ lệch hoặc với sự trợ giúp của các phép thử như biểu đồ Kolmogorov-Smirnov, Shapiro-Wilk hoặc QQ. Chúng ta cũng có thể xác định giả định độc lập với thiết kế nghiên cứu

Một điều khá đáng chú ý là kiểm định ANOVA không đủ mạnh để vi phạm giả định về tính độc lập. Điều này nhằm thông báo rằng ngay cả khi ai đó cố gắng vi phạm các giả định về Tính quy tắc hoặc tính đồng nhất, họ vẫn có thể tiến hành kiểm tra và tin tưởng vào kết quả

Tuy nhiên, kết quả của phép thử ANOVA là không thể chấp nhận được nếu giả định về tính độc lập bị từ chối. Thông thường, phân tích, cùng với các vi phạm tính đồng nhất, được coi là mạnh mẽ nếu chúng ta có các nhóm có quy mô bằng nhau. Tiếp tục thử nghiệm ANOVA cùng với các vi phạm về Tính quy tắc thường ổn nếu chúng tôi có cỡ mẫu lớn

Hiểu các loại thử nghiệm ANOVA

Các thử nghiệm ANOVA có thể được phân thành ba loại chính. Các loại này được hiển thị bên dưới

  1. Thử nghiệm ANOVA một chiều
  2. Thử nghiệm ANOVA hai chiều
  3. Thử nghiệm ANOVA n-Way

Thử nghiệm ANOVA một chiều

Phân tích Kiểm tra phương sai chỉ có một biến độc lập được gọi là Kiểm tra ANOVA một chiều

Chẳng hạn, một quốc gia có thể đánh giá sự khác biệt trong các trường hợp nhiễm vi-rút Corona và một Quốc gia có thể có nhiều danh mục để so sánh

Thử nghiệm ANOVA hai chiều

Phân tích Kiểm tra phương sai có hai biến độc lập được gọi là kiểm định ANOVA hai chiều. Thử nghiệm này còn được gọi là Thử nghiệm ANOVA thừa

Ví dụ: mở rộng ví dụ trên, ANOVA hai chiều có thể kiểm tra sự khác biệt trong các trường hợp nhiễm Coronavirus [biến phụ thuộc] theo Nhóm tuổi [biến độc lập thứ nhất] và Giới tính [biến độc lập thứ hai]. ANOVA hai chiều có thể được sử dụng để kiểm tra sự tương tác giữa hai biến độc lập này. Tương tác biểu thị rằng sự khác biệt không đồng đều giữa tất cả các lớp của các biến độc lập

Giả sử rằng nhóm tuổi già có thể có các trường hợp nhiễm vi-rút corona nói chung cao hơn so với nhóm tuổi trẻ;

Thử nghiệm ANOVA n-Way

Phép thử phân tích phương sai được coi là Phép thử ANOVA n chiều nếu nhà nghiên cứu sử dụng nhiều hơn hai biến độc lập. Ở đây n đại diện cho số lượng biến độc lập chúng ta có. Thử nghiệm này còn được gọi là Thử nghiệm MANOVA

Ví dụ: chúng ta có thể kiểm tra sự khác biệt tiềm ẩn trong các trường hợp nhiễm vi-rút corona bằng cách sử dụng các biến độc lập như Quốc gia, Nhóm tuổi, Giới tính, Dân tộc, v.v.

Thử nghiệm ANOVA sẽ cung cấp cho chúng ta một giá trị F [đơn biến];

Hiểu biết về Sao chép và không có Sao chép trong ANOVA

Nói chung, một số người trong chúng ta có thể nghe có sao chép và không có sao chép đối với thử nghiệm ANOVA. Hãy cho chúng tôi hiểu đây là gì

Thử nghiệm ANOVA hai chiều với Sao chép

Kiểm định ANOVA hai chiều với Replication được thực hiện khi hai nhóm và các thành viên của các nhóm đó cùng thực hiện nhiều nhiệm vụ

Chẳng hạn, giả sử rằng vắc-xin phòng vi-rút corona vẫn đang được phát triển. Các bác sĩ đang thực hiện hai phương pháp điều trị khác nhau để chữa khỏi hai nhóm bệnh nhân bị nhiễm virus

Kiểm tra ANOVA hai chiều mà không cần sao chép

Thử nghiệm ANOVA hai chiều không có Sao chép được thực hiện khi chúng tôi chỉ có một nhóm và chúng tôi đang thử nghiệm hai lần cùng nhóm đó

Chẳng hạn, giả sử rằng vắc-xin đã được phát triển thành công và các nhà nghiên cứu đang thử nghiệm một nhóm tình nguyện viên trước và sau khi họ được tiêm vắc-xin để quan sát xem vắc-xin có hoạt động bình thường hay không

Hiểu bài kiểm tra hậu ANOVA

Trong khi tiến hành Thử nghiệm ANOVA, chúng tôi đang cố gắng xác định sự khác biệt có ý nghĩa thống kê giữa các nhóm, nếu có. Trong trường hợp chúng tôi tìm thấy một, thì chúng tôi sẽ phải kiểm tra xem điểm khác biệt của nhóm ở đâu

Do đó, nhà nghiên cứu sử dụng bài kiểm tra sau đại học để kiểm tra xem các nhóm nào khác nhau

Chúng tôi có thể thực hiện các bài kiểm tra sau đại học, đó là các bài kiểm tra t kiểm tra sự khác biệt trung bình giữa các nhóm. Chúng tôi có thể tiến hành nhiều thử nghiệm so sánh để kiểm soát tỷ lệ lỗi Loại I, bao gồm các thử nghiệm Bonferroni, Dunnet, Scheffe và Thổ Nhĩ Kỳ

Bây giờ, chúng ta sẽ chỉ tìm hiểu bài kiểm tra ANOVA một chiều bằng ngôn ngữ lập trình Python

Hiểu kiểm tra ANOVA một chiều trong Python

Chúng tôi đã chia quá trình thực hiện kiểm tra ANOVA thành các phần khác nhau

Nhập thư viện cần thiết

Để bắt đầu làm việc với kiểm tra ANOVA, chúng ta hãy nhập một số thư viện và mô-đun cần thiết cho dự án

cú pháp

Giả thuyết

Hãy để chúng tôi xem xét một giả thuyết cho vấn đề

"Đối với mọi chế độ ăn kiêng, trọng lượng trung bình của mọi người là như nhau. "

Đang tải dữ liệu

Trong vấn đề sau đây, chúng tôi sẽ sử dụng bộ dữ liệu Chế độ ăn kiêng được thiết kế bởi Đại học Sheffield. Bộ dữ liệu chứa một biến nhị phân là giới tính, bao gồm 1 cho Nam và 0 cho Nữ

Chúng ta hãy xem xét cú pháp sau đây cho cùng một

cú pháp

Hiểu bộ dữ liệu

Khi chúng tôi đã nhập thành công tập dữ liệu, hãy để chúng tôi in một số dữ liệu để hiểu về nó

Ví dụ -

đầu ra

   Person gender  Age  Height  pre.weight  Diet  weight6weeks
0      25          41     171          60     2          60.0
1      26          32     174         103     2         103.0
2       1      0   22     159          58     1          54.2
3       2      0   46     192          60     1          54.0
4       3      0   55     170          64     1          63.3

Bây giờ hãy để chúng tôi in tổng số hàng có trong tập dữ liệu

Ví dụ -

đầu ra

The total number of rows in the dataset: 546

Kiểm tra các giá trị còn thiếu

Bây giờ, chúng ta phải xem liệu có bất kỳ giá trị nào bị thiếu trong tập dữ liệu hay không. Chúng ta có thể kiểm tra điều này bằng cách sử dụng cú pháp sau

Ví dụ -

đầu ra

[' ' '0' '1']
   Person gender  Age  Height  pre.weight  Diet  weight6weeks
0      25          41     171          60     2          60.0
1      26          32     174         103     2         103.0

Chúng ta có thể quan sát thấy rằng hai mục chứa các giá trị bị thiếu trong cột 'giới tính'. Bây giờ chúng ta hãy tìm tổng tỷ lệ phần trăm của các giá trị bị thiếu trong tập dữ liệu

Ví dụ -

đầu ra

Percentage of missing values in the dataset: 2.56%

Như chúng tôi có thể quan sát, chúng tôi có khoảng 3% giá trị bị thiếu trong tập dữ liệu. Chúng tôi có thể bỏ qua, xóa hoặc phân loại giới tính của nó với sự trợ giúp của Chiều cao trung bình gần nhất

Hiểu sự phân bố Trọng lượng

Trong bước tiếp theo, chúng ta sẽ vẽ biểu đồ bằng cách sử dụng hàm distplot[] để hiểu phân bố Trọng số trong dữ liệu Mẫu. Chúng ta hãy xem xét đoạn mã

Ví dụ -

đầu ra

Chúng tôi cũng có thể vẽ biểu đồ phân phối cho từng Giới tính trong tập dữ liệu. Đây là một cú pháp cho cùng

Ví dụ -

đầu ra

Chúng ta cũng có thể sử dụng chức năng sau để hiển thị biểu đồ phân phối cho từng giới tính

Ví dụ

đầu ra

đồ thị 1

đồ thị 2

Bây giờ, chúng tôi sẽ tính giá trị trung bình, trung vị, số khác không và độ lệch chuẩn theo cột 'giới tính' bằng cách sử dụng đoạn mã được cung cấp bên dưới

Ví dụ -

đầu ra

             mean  median  count_nonzero        std
gender
        81.500000    81.5            2.0  30.405592
0       63.223256    62.4           43.0   6.150874
1       75.015152    73.9           33.0   4.629398

Như chúng tôi có thể quan sát, chúng tôi đã ước tính các phép đo thống kê cần thiết trên cơ sở giới tính. Chúng ta cũng có thể phân loại các phép đo thống kê này trên cơ sở giới tính cũng như chế độ ăn uống

Ví dụ -

đầu ra

                  mean  median  count_nonzero        std
gender Diet
       2     81.500000   81.50            2.0  30.405592
0      1     64.878571   64.50           14.0   6.877296
       2     62.178571   61.15           14.0   6.274635
       3     62.653333   61.80           15.0   5.370537
1      1     76.150000   75.75           10.0   5.439414
       2     73.163636   72.70           11.0   3.818448
       3     75.766667   76.35           12.0   4.434848

Ta có thể quan sát thấy có sự khác biệt nhỏ về cân nặng ở các cá thể cái trong khẩu phần ăn;

Thực hiện kiểm định ANOVA một chiều

Giả thuyết khống của kiểm định ANOVA một chiều là

Và thử nghiệm này cố gắng kiểm tra xem giả thuyết này có đúng hay không

Chúng ta hãy xem xét việc xác định ban đầu mức độ tin cậy là 95%, điều này cũng ngụ ý rằng chúng ta sẽ chỉ chấp nhận tỷ lệ lỗi là 5%

Ví dụ -

đầu ra

ANOVA table for Female
----------------------
               sum_sq    df        F    PR[>F]
Diet       559.680764   1.0  7.17969  0.010566
Residual  3196.086677  41.0      NaN       NaN

ANOVA table for Male
----------------------
               sum_sq    df        F    PR[>F]
Diet       559.680764   1.0  7.17969  0.010566
Residual  3196.086677  41.0      NaN       NaN

Trong kết quả trên, chúng ta có thể quan sát thấy hai giá trị p [PR [> F]]. Nam và nữ

Trong trường hợp của nam giới, chúng tôi không thể chấp nhận giả thuyết không dưới mức độ tin cậy 95% vì giá trị p lớn hơn giá trị của alpha, i. e. , 0. 05 < 0. 512784. Do đó, không có sự khác biệt về trọng lượng của con đực sau khi cung cấp ba loại chế độ ăn uống này

Trong trường hợp của nữ giới, vì giá trị p PR [> F] thấp hơn tỷ lệ sai sót, tôi. e. , 0. 05 > 0. 010566, chúng ta có thể bác bỏ giả thuyết không. Tuyên bố này chỉ ra rằng chúng tôi khá tự tin về thực tế là có sự khác biệt về chiều cao đối với phụ nữ trong chế độ ăn kiêng

Vì vậy, bây giờ chúng ta đã hiểu ảnh hưởng của chế độ ăn kiêng đối với phụ nữ; . Vì vậy, chúng tôi sẽ thực hiện phân tích post hoc với sự trợ giúp của bài kiểm tra Tukey HSD [Sự khác biệt đáng kể trung thực]

Chúng ta hãy xem xét đoạn mã sau cho cùng

Ví dụ -

đầu ra

Multiple Comparison of Means - Tukey HSD, FWER=0.05
=====================================================
group1 group2 meandiff p-adj   lower    upper  reject
-----------------------------------------------------
     1      2  -3.5714 0.5437 -11.7861  4.6432  False
     1      3  -8.7714 0.0307  -16.848 -0.6948   True
     2      3     -5.2 0.2719 -13.2766  2.8766  False
-----------------------------------------------------
Unique diet groups:  [1 2 3]

Như chúng ta có thể quan sát từ kết quả ở trên, chúng ta chỉ có thể bác bỏ giả thuyết khống giữa chế độ ăn kiêng thứ 1 và thứ 3, điều đó có nghĩa là có sự khác biệt có ý nghĩa thống kê về cân nặng đối với chế độ ăn kiêng 1 và chế độ ăn uống 3

Bạn có thể sử dụng ANOVA cho 2 nhóm không?

Thông thường, ANOVA một chiều được sử dụng khi bạn có ba nhóm độc lập, phân loại trở lên, nhưng nó chỉ có thể được sử dụng cho hai nhóm [but an independent-samples t-test is more commonly used for two groups].

Thử nghiệm ANOVA trong ML là gì?

Nó đề cập đến sự khác biệt giữa các nhóm vì các giá trị trong mỗi nhóm là khác nhau . Vì vậy, trong ANOVA, chúng tôi sẽ so sánh sự thay đổi giữa các nhóm với sự thay đổi trong nhóm. ANOVA sử dụng kiểm tra F-tet nếu có bất kỳ sự khác biệt đáng kể nào giữa các nhóm.

ANOVA được sử dụng ở đâu trong học máy?

ANOVA được sử dụng khi chúng tôi muốn so sánh giá trị trung bình của một điều kiện giữa nhiều hơn hai nhóm . ANOVA kiểm tra xem có sự khác biệt về giá trị trung bình ở đâu đó trong mô hình hay không [kiểm tra xem có ảnh hưởng tổng thể hay không], nhưng nó không cho chúng ta biết sự khác biệt ở đâu [nếu có].

Làm thế nào để giải thích kết quả ANOVA?

Diễn giải kết quả chính cho ANOVA một chiều .
Bước 1. Xác định xem sự khác biệt giữa các phương tiện nhóm có ý nghĩa thống kê hay không
Bước 2. Kiểm tra phương tiện nhóm
Bước 3. So sánh các phương tiện nhóm
Bước 4. Xác định mức độ phù hợp của mô hình với dữ liệu của bạn

Chủ Đề