ANOVA là một phương tiện để kiểm tra mối quan hệ cường độ của phương sai hệ thống với phương sai phi hệ thống trong nghiên cứu thực nghiệm liên kết. Phương sai trong anova được phân chia thành phương sai tổng, phương sai do nhóm và phương sai do các biến thể riêng lẻ
Tỷ lệ thu được sau khi thực hiện phép so sánh này được gọi là tỷ lệ F. Một phân tích phương sai một chiều thường được coi là một mô hình hồi quy với một yếu tố dự đoán phân loại
Hướng dẫn sau đây dựa trên phân tích dữ liệu; . ANOVAs thường được sử dụng trong các nghiên cứu Tâm lý học
Trong hướng dẫn sau, chúng ta sẽ hiểu cách chúng ta có thể thực hiện ANOVA với sự trợ giúp của thư viện SciPy, đánh giá nó "bằng tay" trong Python, sử dụng Pyyttbl và Statsmodels
Hiểu bài kiểm tra ANOVA
Chúng ta có thể nghĩ đến Phân tích kiểm tra phương sai, còn được gọi là ANOVA, để tổng quát hóa các kiểm tra T cho nhiều nhóm. Nói chung, chúng tôi sử dụng kiểm tra T độc lập để so sánh phương tiện trạng thái giữa hai nhóm. Chúng tôi sử dụng Kiểm tra ANOVA bất cứ khi nào chúng tôi cần so sánh phương tiện trạng thái giữa nhiều hơn hai nhóm
Kiểm định ANOVA kiểm tra xem có sự chênh lệch trung bình ở đâu đó trong mô hình hay không [kiểm tra xem có ảnh hưởng tổng thể hay không]; . Chúng ta có thể tìm ra điểm khác biệt giữa các nhóm bằng cách thực hiện các bài kiểm tra sau đại học
Tuy nhiên, để thực hiện bất kỳ thử nghiệm nào, trước tiên chúng ta phải xác định các giả thuyết không và thay thế
- giả thuyết không. Không có sự khác biệt đáng chú ý giữa các nhóm
- giả thuyết thay thế. Có sự khác biệt đáng chú ý giữa các nhóm
Chúng ta có thể thực hiện Kiểm tra ANOVA bằng cách so sánh hai loại biến thể. Biến thể đầu tiên là giữa phương tiện mẫu và biến thể khác trong mỗi mẫu. Công thức hiển thị bên dưới mô tả thống kê Kiểm tra ANOVA một chiều
Đầu ra của công thức ANOVA, thống kê F [còn được gọi là tỷ lệ F], cho phép phân tích nhiều bộ dữ liệu để xác định độ biến thiên giữa các mẫu và trong các mẫu
Chúng ta có thể viết công thức cho bài kiểm tra ANOVA một chiều như minh họa bên dưới
Ở đâu,
yi - Trung bình mẫu trong nhóm thứ i
ni - Số Quan sát trong nhóm thứ i
y - Tổng giá trị trung bình của dữ liệu
k - Tổng số nhóm
yij - quan sát thứ j trong k nhóm
N - Cỡ mẫu chung
Bất cứ khi nào chúng ta vẽ bảng ANOVA, chúng ta có thể thấy tất cả các thành phần trên ở định dạng sau
Thông thường, nếu giá trị p thuộc về F nhỏ hơn 0. 05, thì giả thuyết không bị loại trừ và giả thuyết thay thế được duy trì. Trong trường hợp bác bỏ giả thuyết không, chúng ta có thể nói rằng phương tiện của tất cả các tập hợp/nhóm không bằng nhau
Ghi chú. Nếu không có sự khác biệt thực sự giữa các nhóm được thử nghiệm, được gọi là giả thuyết không, thì thống kê tỷ lệ F của Thử nghiệm ANOVA sẽ liền kề với 1
Giả định kiểm tra ANOVA
Trước khi thực hiện kiểm tra ANOVA, chúng ta phải đưa ra một số giả định nhất định, như hình bên dưới
- Chúng ta có thể thu được các quan sát một cách ngẫu nhiên và độc lập với tổng thể được xác định bởi các mức nhân tố
- Dữ liệu cho mọi cấp độ của yếu tố được phân phối chung
- trường hợp độc lập. Các trường hợp mẫu phải độc lập với nhau
- phương sai đồng nhất. Tính đồng nhất biểu thị rằng phương sai giữa các nhóm cần phải bằng nhau
Chúng ta có thể kiểm tra giả định về tính đồng nhất của phương sai với sự trợ giúp của các thử nghiệm như Thử nghiệm Brown-Forsythe hoặc Thử nghiệm của Levene. Chúng ta cũng có thể kiểm tra Tính bình thường của phân phối điểm số với sự trợ giúp của biểu đồ, giá trị độ nhọn hoặc độ lệch hoặc với sự trợ giúp của các phép thử như biểu đồ Kolmogorov-Smirnov, Shapiro-Wilk hoặc QQ. Chúng ta cũng có thể xác định giả định độc lập với thiết kế nghiên cứu
Một điều khá đáng chú ý là kiểm định ANOVA không đủ mạnh để vi phạm giả định về tính độc lập. Điều này nhằm thông báo rằng ngay cả khi ai đó cố gắng vi phạm các giả định về Tính quy tắc hoặc tính đồng nhất, họ vẫn có thể tiến hành kiểm tra và tin tưởng vào kết quả
Tuy nhiên, kết quả của phép thử ANOVA là không thể chấp nhận được nếu giả định về tính độc lập bị từ chối. Thông thường, phân tích, cùng với các vi phạm tính đồng nhất, được coi là mạnh mẽ nếu chúng ta có các nhóm có quy mô bằng nhau. Tiếp tục thử nghiệm ANOVA cùng với các vi phạm về Tính quy tắc thường ổn nếu chúng tôi có cỡ mẫu lớn
Hiểu các loại thử nghiệm ANOVA
Các thử nghiệm ANOVA có thể được phân thành ba loại chính. Các loại này được hiển thị bên dưới
- Thử nghiệm ANOVA một chiều
- Thử nghiệm ANOVA hai chiều
- Thử nghiệm ANOVA n-Way
Thử nghiệm ANOVA một chiều
Phân tích Kiểm tra phương sai chỉ có một biến độc lập được gọi là Kiểm tra ANOVA một chiều
Chẳng hạn, một quốc gia có thể đánh giá sự khác biệt trong các trường hợp nhiễm vi-rút Corona và một Quốc gia có thể có nhiều danh mục để so sánh
Thử nghiệm ANOVA hai chiều
Phân tích Kiểm tra phương sai có hai biến độc lập được gọi là kiểm định ANOVA hai chiều. Thử nghiệm này còn được gọi là Thử nghiệm ANOVA thừa
Ví dụ: mở rộng ví dụ trên, ANOVA hai chiều có thể kiểm tra sự khác biệt trong các trường hợp nhiễm Coronavirus [biến phụ thuộc] theo Nhóm tuổi [biến độc lập thứ nhất] và Giới tính [biến độc lập thứ hai]. ANOVA hai chiều có thể được sử dụng để kiểm tra sự tương tác giữa hai biến độc lập này. Tương tác biểu thị rằng sự khác biệt không đồng đều giữa tất cả các lớp của các biến độc lập
Giả sử rằng nhóm tuổi già có thể có các trường hợp nhiễm vi-rút corona nói chung cao hơn so với nhóm tuổi trẻ;
Thử nghiệm ANOVA n-Way
Phép thử phân tích phương sai được coi là Phép thử ANOVA n chiều nếu nhà nghiên cứu sử dụng nhiều hơn hai biến độc lập. Ở đây n đại diện cho số lượng biến độc lập chúng ta có. Thử nghiệm này còn được gọi là Thử nghiệm MANOVA
Ví dụ: chúng ta có thể kiểm tra sự khác biệt tiềm ẩn trong các trường hợp nhiễm vi-rút corona bằng cách sử dụng các biến độc lập như Quốc gia, Nhóm tuổi, Giới tính, Dân tộc, v.v.
Thử nghiệm ANOVA sẽ cung cấp cho chúng ta một giá trị F [đơn biến];
Hiểu biết về Sao chép và không có Sao chép trong ANOVA
Nói chung, một số người trong chúng ta có thể nghe có sao chép và không có sao chép đối với thử nghiệm ANOVA. Hãy cho chúng tôi hiểu đây là gì
Thử nghiệm ANOVA hai chiều với Sao chép
Kiểm định ANOVA hai chiều với Replication được thực hiện khi hai nhóm và các thành viên của các nhóm đó cùng thực hiện nhiều nhiệm vụ
Chẳng hạn, giả sử rằng vắc-xin phòng vi-rút corona vẫn đang được phát triển. Các bác sĩ đang thực hiện hai phương pháp điều trị khác nhau để chữa khỏi hai nhóm bệnh nhân bị nhiễm virus
Kiểm tra ANOVA hai chiều mà không cần sao chép
Thử nghiệm ANOVA hai chiều không có Sao chép được thực hiện khi chúng tôi chỉ có một nhóm và chúng tôi đang thử nghiệm hai lần cùng nhóm đó
Chẳng hạn, giả sử rằng vắc-xin đã được phát triển thành công và các nhà nghiên cứu đang thử nghiệm một nhóm tình nguyện viên trước và sau khi họ được tiêm vắc-xin để quan sát xem vắc-xin có hoạt động bình thường hay không
Hiểu bài kiểm tra hậu ANOVA
Trong khi tiến hành Thử nghiệm ANOVA, chúng tôi đang cố gắng xác định sự khác biệt có ý nghĩa thống kê giữa các nhóm, nếu có. Trong trường hợp chúng tôi tìm thấy một, thì chúng tôi sẽ phải kiểm tra xem điểm khác biệt của nhóm ở đâu
Do đó, nhà nghiên cứu sử dụng bài kiểm tra sau đại học để kiểm tra xem các nhóm nào khác nhau
Chúng tôi có thể thực hiện các bài kiểm tra sau đại học, đó là các bài kiểm tra t kiểm tra sự khác biệt trung bình giữa các nhóm. Chúng tôi có thể tiến hành nhiều thử nghiệm so sánh để kiểm soát tỷ lệ lỗi Loại I, bao gồm các thử nghiệm Bonferroni, Dunnet, Scheffe và Thổ Nhĩ Kỳ
Bây giờ, chúng ta sẽ chỉ tìm hiểu bài kiểm tra ANOVA một chiều bằng ngôn ngữ lập trình Python
Hiểu kiểm tra ANOVA một chiều trong Python
Chúng tôi đã chia quá trình thực hiện kiểm tra ANOVA thành các phần khác nhau
Nhập thư viện cần thiết
Để bắt đầu làm việc với kiểm tra ANOVA, chúng ta hãy nhập một số thư viện và mô-đun cần thiết cho dự án
cú pháp
Giả thuyết
Hãy để chúng tôi xem xét một giả thuyết cho vấn đề
"Đối với mọi chế độ ăn kiêng, trọng lượng trung bình của mọi người là như nhau. "
Đang tải dữ liệu
Trong vấn đề sau đây, chúng tôi sẽ sử dụng bộ dữ liệu Chế độ ăn kiêng được thiết kế bởi Đại học Sheffield. Bộ dữ liệu chứa một biến nhị phân là giới tính, bao gồm 1 cho Nam và 0 cho Nữ
Chúng ta hãy xem xét cú pháp sau đây cho cùng một
cú pháp
Hiểu bộ dữ liệu
Khi chúng tôi đã nhập thành công tập dữ liệu, hãy để chúng tôi in một số dữ liệu để hiểu về nó
Ví dụ -
đầu ra
Person gender Age Height pre.weight Diet weight6weeks 0 25 41 171 60 2 60.0 1 26 32 174 103 2 103.0 2 1 0 22 159 58 1 54.2 3 2 0 46 192 60 1 54.0 4 3 0 55 170 64 1 63.3
Bây giờ hãy để chúng tôi in tổng số hàng có trong tập dữ liệu
Ví dụ -
đầu ra
The total number of rows in the dataset: 546
Kiểm tra các giá trị còn thiếu
Bây giờ, chúng ta phải xem liệu có bất kỳ giá trị nào bị thiếu trong tập dữ liệu hay không. Chúng ta có thể kiểm tra điều này bằng cách sử dụng cú pháp sau
Ví dụ -
đầu ra
[' ' '0' '1'] Person gender Age Height pre.weight Diet weight6weeks 0 25 41 171 60 2 60.0 1 26 32 174 103 2 103.0
Chúng ta có thể quan sát thấy rằng hai mục chứa các giá trị bị thiếu trong cột 'giới tính'. Bây giờ chúng ta hãy tìm tổng tỷ lệ phần trăm của các giá trị bị thiếu trong tập dữ liệu
Ví dụ -
đầu ra
Percentage of missing values in the dataset: 2.56%
Như chúng tôi có thể quan sát, chúng tôi có khoảng 3% giá trị bị thiếu trong tập dữ liệu. Chúng tôi có thể bỏ qua, xóa hoặc phân loại giới tính của nó với sự trợ giúp của Chiều cao trung bình gần nhất
Hiểu sự phân bố Trọng lượng
Trong bước tiếp theo, chúng ta sẽ vẽ biểu đồ bằng cách sử dụng hàm distplot[] để hiểu phân bố Trọng số trong dữ liệu Mẫu. Chúng ta hãy xem xét đoạn mã
Ví dụ -
đầu ra
Chúng tôi cũng có thể vẽ biểu đồ phân phối cho từng Giới tính trong tập dữ liệu. Đây là một cú pháp cho cùng
Ví dụ -
đầu ra
Chúng ta cũng có thể sử dụng chức năng sau để hiển thị biểu đồ phân phối cho từng giới tính
Ví dụ
đầu ra
đồ thị 1
đồ thị 2
Bây giờ, chúng tôi sẽ tính giá trị trung bình, trung vị, số khác không và độ lệch chuẩn theo cột 'giới tính' bằng cách sử dụng đoạn mã được cung cấp bên dưới
Ví dụ -
đầu ra
mean median count_nonzero std gender 81.500000 81.5 2.0 30.405592 0 63.223256 62.4 43.0 6.150874 1 75.015152 73.9 33.0 4.629398
Như chúng tôi có thể quan sát, chúng tôi đã ước tính các phép đo thống kê cần thiết trên cơ sở giới tính. Chúng ta cũng có thể phân loại các phép đo thống kê này trên cơ sở giới tính cũng như chế độ ăn uống
Ví dụ -
đầu ra
mean median count_nonzero std gender Diet 2 81.500000 81.50 2.0 30.405592 0 1 64.878571 64.50 14.0 6.877296 2 62.178571 61.15 14.0 6.274635 3 62.653333 61.80 15.0 5.370537 1 1 76.150000 75.75 10.0 5.439414 2 73.163636 72.70 11.0 3.818448 3 75.766667 76.35 12.0 4.434848
Ta có thể quan sát thấy có sự khác biệt nhỏ về cân nặng ở các cá thể cái trong khẩu phần ăn;
Thực hiện kiểm định ANOVA một chiều
Giả thuyết khống của kiểm định ANOVA một chiều là
Và thử nghiệm này cố gắng kiểm tra xem giả thuyết này có đúng hay không
Chúng ta hãy xem xét việc xác định ban đầu mức độ tin cậy là 95%, điều này cũng ngụ ý rằng chúng ta sẽ chỉ chấp nhận tỷ lệ lỗi là 5%
Ví dụ -
đầu ra
ANOVA table for Female ---------------------- sum_sq df F PR[>F] Diet 559.680764 1.0 7.17969 0.010566 Residual 3196.086677 41.0 NaN NaN ANOVA table for Male ---------------------- sum_sq df F PR[>F] Diet 559.680764 1.0 7.17969 0.010566 Residual 3196.086677 41.0 NaN NaN
Trong kết quả trên, chúng ta có thể quan sát thấy hai giá trị p [PR [> F]]. Nam và nữ
Trong trường hợp của nam giới, chúng tôi không thể chấp nhận giả thuyết không dưới mức độ tin cậy 95% vì giá trị p lớn hơn giá trị của alpha, i. e. , 0. 05 < 0. 512784. Do đó, không có sự khác biệt về trọng lượng của con đực sau khi cung cấp ba loại chế độ ăn uống này
Trong trường hợp của nữ giới, vì giá trị p PR [> F] thấp hơn tỷ lệ sai sót, tôi. e. , 0. 05 > 0. 010566, chúng ta có thể bác bỏ giả thuyết không. Tuyên bố này chỉ ra rằng chúng tôi khá tự tin về thực tế là có sự khác biệt về chiều cao đối với phụ nữ trong chế độ ăn kiêng
Vì vậy, bây giờ chúng ta đã hiểu ảnh hưởng của chế độ ăn kiêng đối với phụ nữ; . Vì vậy, chúng tôi sẽ thực hiện phân tích post hoc với sự trợ giúp của bài kiểm tra Tukey HSD [Sự khác biệt đáng kể trung thực]
Chúng ta hãy xem xét đoạn mã sau cho cùng
Ví dụ -
đầu ra
Multiple Comparison of Means - Tukey HSD, FWER=0.05 ===================================================== group1 group2 meandiff p-adj lower upper reject ----------------------------------------------------- 1 2 -3.5714 0.5437 -11.7861 4.6432 False 1 3 -8.7714 0.0307 -16.848 -0.6948 True 2 3 -5.2 0.2719 -13.2766 2.8766 False ----------------------------------------------------- Unique diet groups: [1 2 3]
Như chúng ta có thể quan sát từ kết quả ở trên, chúng ta chỉ có thể bác bỏ giả thuyết khống giữa chế độ ăn kiêng thứ 1 và thứ 3, điều đó có nghĩa là có sự khác biệt có ý nghĩa thống kê về cân nặng đối với chế độ ăn kiêng 1 và chế độ ăn uống 3