So sánh kiểm định trung bình năm 2024

Trong phần này, chúng ta sẽ kiểm tra xem trung bình điểm toán của học sinh nữ và nam có khác nhau không, nam hay nữ học giỏi toán hơn ?

Phát biểu giả thuyết thống kê:

So sánh kiểm định trung bình năm 2024
trong đó
So sánh kiểm định trung bình năm 2024
lần lượt là trung bình điểm toán cho tổng thể nữ và nam.

Bước 1: Trên thanh công cụ, chọn Analyze > Compare Means > Independent-Sample T Test...

Bước 2: Đưa biến T1 vào ô Test Variable(s), và đưa biến GT vào ô Grouping Variable, điều chỉnh độ tin cậy trong phần Options

Bước 3: Nhấn nút Define Groups. Vì biến GT ta ghi nhận hai giá trị là F cho nữ và M cho nam, nên để phân biệt hai tổng thể nam và nữ ta sẽ nhập vào ô Group 1 là F Group 2 là M (ta cũng có thể đặt Group 1 là M và Group 2 là F). Sau đó bấm Continue.

Cuối cùng bấm Ok, và kết quả như sau:

Giá trị p-value cho cả hai trường hợp phương sai hai tổng thể bằng nhau và không bằng nhau đều là 0.15 < 0.05, nên ta sẽ bác bỏ giả thiết

So sánh kiểm định trung bình năm 2024
tại mức ý nghĩa 5%


Bây giờ ta kiểm định giả thuyết

So sánh kiểm định trung bình năm 2024

SPSS không hỗ trợ kiểm định giả thuyết 1 phía, nhưng chúng ta vẫn có tra bảng để tìm giá trị t tới hạn và so sánh với giá trị t để xem chúng ta sẽ chấp nhận hay bác bỏ giả thuyết nào.

Xét biến `X` của hai tổng thể có trung bình là `mu_1`, `mu_2` và phương sai là `sigma_1`, `sigma_2`. Ta lấy ngẫu nhiên hai mẫu có kích thước `n_1` và `n_2`. Kết quả tính toán trên hai mẫu cho biết chúng có trung bình là `bar x_1,bar x_2` và độ lệch chuẩn là `s_1,s_2`.

Thông thường, mục đích của chúng ta là so sánh trung bình của hai tổng thể với độ tin cậy `1-alpha` (hay mức ý nghĩa `alpha`) cho trước. Như vậy giả thuyết không sẽ là:

Ho : `mu_1=mu_2`(8)

Khi so sánh, ta có thể biết độ lệch chuẩn của `X` hay không, mẫu nhỏ hay mẫu lớn, ... Những sự khác biệt này sẽ cần những cách tiến hành kiểm định khác nhau như ta sẽ xem xét. Trong thống kê, các phương pháp này được gọi là kiểm định `z` (`z`-test) hay kiểm định `t` (`t`-test) tùy theo trường hợp.

So sánh hai số trung bình khi biết `sigma_1` và `sigma_2`

Khi ta đã biết độ lệch chuẩn `sigma_1` và `sigma_2` của các tổng thể, ta sử dụng tiêu chuẩn kiểm định z sau:

`z=(bar x_1-bar x_2)/sqrt(sigma_1^2/n_1+sigma_2^2/n_2)`(9)

Tiêu chuẩn `z` này tuân theo phân phối chuẩn tiêu chuẩn `N(0,1)`

So sánh hai số trung bình khi không biết `sigma_1,sigma_2`, mẫu lớn

Khi ta không biết độ lệch chuẩn, nhưng sử dụng các mẫu có kích thước lớn, ta vẫn có thể sử dụng tiêu chuẩn kiểm định `z` tương tự công thức (9), trong đó `sigma` được thay thế bằng `s`:

`z=(bar x_1-bar x_2)/sqrt(s_1^2/n_1+s_2^2/n_2)`(10)

Tiêu chuẩn này cũng tuân theo phân phối chuẩn tiêu chuẩn.

So sánh hai số trung bình khi không biết `sigma_1,sigma_2`, mẫu nhỏ

Trong trường hợp này, ta lại có hai trường hợp nhỏ sau :

Phương sai hai tổng thể bằng nhau

Nếu bằng cách nào đó, ta biết rằng phương sai của hai tổng thể bằng nhau (nhưng ta không biết giá trị này). Khi ấy, ta định nghĩa phương sai gộp (pooled variance) như sau:

`s_p^2=((n_1-1)s_1^2+(n_2-1)s_2^2)/(n_1+n_2-2)`(11)

Và ta sử dụng tiêu chuẩn kiểm định `t` theo công thức sau

`t=(bar x_1-bar x_2)/sqrt(s_p^2(1/n_1+1/n_2))`(12)

Tiêu chuẩn này tuân theo phân phối Student với độ tự do của kiểm định là `nu=n_1+n_2-2`

Phương sai hai tổng thể không bằng nhau

Trong trường hợp này, ta dùng tiêu chuẩn kiểm định `t` tính theo công thức sau:

`t=(bar x_1-bar x_2)/sqrt(s_1^2/n_1+s_2^2/n_2)`(13)

Tiêu chuẩn này có phân phối Student với độ tự do xác định theo công thức sau:

`nu=(s_1^2/n_1+s_2^2/n_2)/ ((s_1^2/n_1)^2/(n_1-1)+(s_2^2/n_2)^2/(n_2-1))`(14)

Khi `nu` không phải là số nguyên, ta phải làm tròn để có thể sử dụng bảng phân vị Student.

So sánh hai số trung bình ghép cặp

Có một số trường hợp so sánh trung bình, mà các số liệu `x_(1i)` và `x_(2i)` của hai mẫu có sự tương ứng với nhau và có thể ghép thành từng cặp, như kết quả đánh giá cảm quan hai sản phẩm do cùng một người thực hiện. Khi ấy, kích thước 2 mẫu bằng nhau `n_1=n_2=n`.

So sánh trung bình trong trường hợp này được tiến hành như sau:

  • Với mỗi cặp số liệu, tính hiệu số `d_i=x_(1i)-x_(2i)`
  • Đặt giả thuyết không Ho : `mu_d=0`
  • Giả thuyết đối nghịch có thể là `mu_d!=0` hay `mu_d< 0` hay `mu_d>0` tùy theo trường hợp cụ thể.
  • Sử dụng tiêu chuẩn kiểm định : `K=bar d/(s_d/sqrt(n))`(15)
  • Nếu mẫu có kích thước lớn, `K` có phân phối chuẩn tiêu chuẩn. Nếu mẫu có kích thước nhỏ, `K` có phân phối Student.

    Thí dụ

Để so sánh năng lượng cung cấp của hai loại bánh A và B, người ta đã lấy mẫu, xác định năng lượng cung cấp của từng loại bánh. Kết quả được ghi nhận ở Bảng 1.

Bảng 1 Kết quả xác định năng lượng của hai loại bánh A và B Bánh A Bánh B Kích thước mẫu 8 10 Trung bình (kcal) 325 295 Độ lệch chuẩn (kcal) 34 26

Hỏi giá trị năng lượng của hai loại bánh này có thực sự khác nhau với độ tin cậy 95%

Trong trường hợp này, ta so sánh hai trung bình về năng lượng cung cấp `mu_A` và `mu_B` của hai loại bánh A và B. Với yêu cầu kiểm định, ta có cặp giả thuyết sau:

  • Ho : `mu_A=mu_B`
  • Ha : `mu_A!=mu_B`

Vì mẫu nhỏ và ta không có thông tin nào về độ lệch chuẩn nên ta sử dụng tiêu chuẩn kiểm định :

`t=(bar x_A-bar x_B)/sqrt(s_A^2/n_A+s_B^2/n_B)`

Tiêu chuẩn này có phân phối Student với độ tự do:

`nu=(s_A^2/n_A+s_B^2/n_B)/ ((s_A^2/n_A)^2/(n_A-1)+(s_B^2/n_B)^2/(n_B-1))=(34^2/8+26^2/10)/ ((34^2/8)^2/(8-1)+(26^2/10)^2/(10-1))=12,88`

Làm tròn `nu=13` để tính toán tiếp.

Do đây là kiểm định hai phía, hàm mật độ của phân phối Student là hàm chẵn, nên giá trị tới hạn của tiêu chuẩn kiểm định t là `t"*"=t_(0,025,\ 13)=2,1604`