MỤC LỤC Trang
CHƯƠNG 1GIỚI THIỆU 3
1.1.Kinh tế lượng là gì? 3
1.2.Phương pháp luận của Kinh tế lượng 4
1.3.Những câu hỏi đặt ra cho một nhà kinh tế lượng 8
1.4.Dữ liệu cho nghiên cứu kinh tế lượng 8
1.5.Vai trò của máy vi tính và phầm mềm chuyên dụng 9
CHƯƠNG 2ÔN TẬP VỀ XÁC SUẤT VÀ THỐNG KÊ
2.1.Xác suất 11
2.2.Thống kê mô tả 23
2.3.Thống kê suy diễn-Vấn đề ước lượng 25
2.4.Thống kê suy diễn - Kiểm định giả thiết thống kê30
CHƯƠNG 3HỒI QUY HAI BIẾN
3.1.Giới thiệu 39
3.2.Hàm hồi quy tổng thể và hồi quy mẫu 41
3.3.Ước lượng các hệ số của mô hình hồi quy theo phương pháp OLS…………………………44
3.4.Khoảng tin cậy và kiểm định giả thiết về các hệ số hồi quy 48
3.5.Định lý Gauss-Markov 52
3.6.Độ thích hợp của hàm hồi quy – R2 52
3.7.Dự báo bằng mô hình hồi quy hai biến 54
3.8.Ý nghĩa của hồi quy tuyến tính và một số dạng hàm thường được sử dụng 56
CHƯƠNG 4MÔ HÌNH HỒI QUY TUYẾN TÍNH BỘI
4.1. Xây dựng mô hình 60
4.2.Ước lượng tham số của mô hình hồi quy bội 61
4.3.
4.4. Kiểm định mức ý nghĩa chung của mô hình 64
4.5. Quan hệ giữa R2 và F 65
4.6. Ước lượng khoảng và kiểm định giả thiết thống kê cho hệ số hồi quy 65
4.7. Biến phân loại [Biến giả-Dummy variable] 66
CHƯƠNG 5GIỚI THIỆU MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN
MÔ HÌNH HỒI QUY
5.1. Đa cộng tuyến 72
5.2. Phương sai của sai số thay đổi 74
5.3. Tự tương quan [tương quan chuỗi] 80
5.4. Lựa chọn mô hình 81
CHƯƠNG 6 DỰ BÁO VỚI MÔ HÌNH HỒI QUY
6.1. Dự báo với mô hình hồi quy đơn giản 84
6.2. Tính chất trễ của dữ liệu chuỗi thời gian và hệ quả của nó đến mô hình 84
6.3. Mô hình tự hồi quy 85
6.4. Mô hình có độ trễ phân phối 85
6.5. Ước lượng mô hình tự hồi quy 88
6.6. Phát hiện tự tương quan trong mô hình tự hồi quy 88
CHƯƠNG 7CÁC MÔ HÌNH DỰ BÁO MĂNG TÍNH THỐNG KÊ
7.1. Các thành phần của dữ liệu chuỗi thời gian 90
7.2. Dự báo theo xu hướng dài hạn 92
7.3. Một số kỹ thuật dự báo đơn giản 93
7.4. Tiêu chuẩn đánh giá mô hình dự báo 94
7.5. Một ví dụ bằng số 95
7.6. Giới thiệu mô hình ARIMA 96
Các bảng tra Z, t , F và 2 101
Tài liệu tham khảo 105
CHƯƠNG 1 GIỚI THIỆU
1.1. Kinh tế lượng là gì?
Thuật ngữ tiếng Anh “Econometrics” có nghĩa là đo lường kinh tế. Thật ra phạm vi của kinh tế lượng rộng hơn đo lường kinh tế. Chúng ta sẽ thấy điều đó qua một định nghĩa về kinh tế lượng như sau:
“Không giống như thống kê kinh tế có nội dung chính là số liệu thống kê, kinh tế lượng là một môn độc lập với sự kết hợp của lý thuyết kinh tế, công cụ toán học và phương pháp luận thống kê. Nói rộng hơn, kinh tế lượng liên quan đến: [1] Ước lượng các quan hệ kinh tế, [2] Kiểm chứng lý thuyết kinh tế bằng dữ liệu thực tế và kiểm định giả thiết của kinh tế học về hành vi, và [3] Dự báo hành vi của biến số kinh tế.”
Sau đây là một số ví dụ về ứng dụng kinh tế lượng.
Ước lượng quan hệ kinh tế
[1] Đo lường mức độ tác động của việc hạ lãi suất lên tăng trưởng kinh tế.
[2] Ước lượng nhu cầu của một mặt hàng cụ thể, ví dụ nhu cầu xe hơi tại thị trường Việt Nam.
[3] Phân tích tác động của quảng cáo và khuyến mãi lên doanh số của một công ty.
Kiểm định giả thiết
[1] Kiểm định giả thiết về tác động của chương trình khuyến nông làm tăng năng suất lúa.
[2] Kiểm chứng nhận định độ co dãn theo giá của cầu về cá basa dạng fillet ở thị trường nội địa.
[3] Có sự phân biệt đối xử về mức lương giữa nam và nữ hay không?
Dự báo
[1] Doanh nghiệp dự báo doanh thu, chi phí sản xuất, lợi nhuận, nhu cầu tồn kho…
[2] Chính phủ dự báo mức thâm hụt ngân sách, thâm hụt thương mại, lạm phát…
[3] Dự báo chỉ số VN Index hoặc giá một loại cổ phiếu cụ thể như REE.
1.2. Phương pháp luận của kinh tế lượng
Theo phương pháp luận truyền thống, còn gọi là phương pháp luận cổ điển, một nghiên cứu sử dụng kinh tế lượng bao gồm các bước như sau:
[1] Phát biểu lý thuyết hoặc giả thiết.
[2] Xác định đặc trưng của mô hình toán kinh tế cho lý thuyết hoặc giả thiết.
[3] Xác định đặc trưng của mô hình kinh tế lượng cho lý thuyết hoặc giả thiết.
[4] Thu thập dữ liệu.
[5] Ước lượng tham số của mô hình kinh tế lượng.
[6] Kiểm định giả thiết.
[7] Diễn giải kết quả
[8] Dự báo và sử dụng mô hình để quyết định chính sách
Hình 1.1 Phương pháp luận của kinh tế lượng
Ví dụ 1: Các bước tiến hành nghiên cứu một vấn đề kinh tế sử dụng kinh tế lượng với đề tài nghiên cứu xu hướng tiêu dùng biên của nền kinh tế Việt Nam .
[1] Phát biểu lý thuyết hoặc giả thiết
Keynes cho rằng:
Qui luật tâm lý cơ sở ... là đàn ông [đàn bà] muốn, như một qui tắc và về trung bình, tăng tiêu dùng của họ khi thu nhập của họ tăng lên, nhưng không nhiều như là gia tăng trong thu nhập của họ.
Vậy Keynes cho rằng xu hướng tiêu dùng biên[marginal propensity to consume-MPC], tức tiêu dùng tăng lên khi thu nhập tăng 1 đơn vị tiền tệ lớn hơn 0 nhưng nhỏ hơn 1.
[2] Xây dựng mô hình toán cho lý thuyết hoặc giả thiết
Dạng hàm đơn giản nhất thể hiện ý tưởng của Keynes là dạng hàm tuyến tính.
Trong đó : 0 <
Biểu diển dưới dạng đồ thị của dạng hàm này như sau:
1 : Tung độ gốc
2: Độ dốc
TD : Biến phụ thuộc hay biến được giải thích
GNP: Biến độc lập hay biến giải thích
Hình 1. 2. Hàm tiêu dùng theo thu nhập.
[3] Xây dựng mô hình kinh tế lượng
Mô hình toán với dạng hàm [1.1] thể hiện mối quan hệ tất định[deterministic relationship] giữa tiêu dùng và thu nhập trong khi quan hệ của các biến số kinh tế thường mang tính không chính xác. Để biểu diển mối quan hệ không chính xác giữa tiêu dùng và thu nhập chúng ta đưa vào thành phần sai số:
Trong đó là sai số, là một biến ngẫu nhiên đại diện cho các nhân tố khác cũng tác động lên tiêu dùng mà chưa được đưa vào mô hình.
Phương trình [1.2] là một mô hình kinh tế lượng. Mô hình trên được gọi là mô hình hồi quy tuyến tính. Hồi quy tuyến tính là nội dung chính của học phần này.
[4] Thu thập số liệu
Số liệu về tiêu dùng và thu nhập của nền kinh tế Việt Nam từ 1986 đến 1998 tính theo đơn vị tiền tệ hiện hành như sau:
Năm
Tiêu dùng
TD, đồng hiện hành
Tổng thu nhập
GNP, đồng hiện hành
Hệ số khử
lạm phát
1986
526.442.004.480
553.099.984.896
2,302
1987
2.530.537.897.984
2.667.299.995.648
10,717
1988
13.285.535.514.624
14.331.699.789.824
54,772
1989
26.849.899.970.560
28.092.999.401.472
100
1990
39.446.699.311.104
41.954.997.960.704
142,095
1991
64.036.997.693.440
76.707.000.221.696
245,18
1992
88.203.000.283.136
110.535.001.505.792
325,189
1993
114.704.005.464.064
136.571.000.979.456
371,774
1994
139.822.006.009.856
170.258.006.540.288
425,837
1995
186.418.693.406.720
222.839.999.299.584
508,802
1996
222.439.040.614.400
258.609.007.034.368
540,029
1997
250.394.999.521.280
313.623.008.247.808
605,557
1998
284.492.996.542.464
361.468.004.401.152
659,676
Bảng 1.1. Số liệu về tổng tiêu dùng và GNP của Việt Nam
Nguồn : World Development Indicator CD-ROM 2000, WorldBank.
TD: Tổng tiêu dùng của nền kinh tế Việt Nam, đồng hiện hành.
GNP: Thu nhập quốc nội của Việt Nam, đồng hiện hành.
Do trong thời kỳ khảo sát có lạm phát rất cao nên chúng ta cần chuyển dạng số liệu về tiêu dùng và thu nhập thực với năm gốc là 1989.
Năm
Tiêu dùng
TD, đồng-giá cố định 1989
Tổng thu nhập
GNP, đồng-giá cố định 1989
1986
22.868.960.302.145
24.026.999.156.721
1987
23.611.903.339.515
24.888.000.975.960
1988
24.255.972.171.640
26.165.999.171.928
1989
26.849.899.970.560
28.092.999.401.472
1990
27.760.775.225.362
29.526.000.611.153
1991
26.118.365.110.163
31.285.998.882.813
1992
27.123.609.120.801
33.990.999.913.679
1993
30.853.195.807.667
36.735.001.692.581
1994
32.834.660.781.138
39.982.003.187.889
1995
36.638.754.378.646
43.797.002.601.354
1996
41.190.217.461.479
47.888.002.069.333
1997
41.349.567.191.335
51.790.873.128.795
1998
43.126.144.904.439
54.794.746.182.076
Bảng 1.2. Tiêu dùng và thu nhập của Việt Nam, giá cố định 1989
[5] Ước lượng mô hình [Ước lượng các hệ số của mô hình]
Sử dụng phương pháp tổng bình phương tối thiểu thông thường [Ordinary Least Squares] chúng ta thu được kết quả hồi quy như sau:
TD = 6.375.007.667 + 0,680GNP
t [4,77][19,23]
R2 = 0,97
Ước lượng cho hệ số 1 là
Ước lượng cho hệ số 2 là
Xu hướng tiêu dùng biên của nền kinh tế Việt Nam là MPC = 0,68.
[6] Kiểm định giả thiết thống kê
Trị số xu hướng tiêu dùng biên được tính toán là MPC = 0,68 đúng theo phát biểu của Keynes. Tuy nhiên chúng ta cần xác định MPC tính toán như trên có lớn hơn 0 và nhỏ hơn 1 với ý nghĩa thống kê hay không. Phép kiểm định này cũng được trình bày trong chương 2.
[7] Diễn giải kết quả
Dựa theo ý nghĩa kinh tế của MPC chúng ta diễn giải kết quả hồi quy như sau:
Tiêu dùng tăng 0,68 ngàn tỷ đồng nếu GNP tăng 1 ngàn tỷ đồng.
[8] Sử dụng kết quả hồi quy
Dựa vào kết quả hồi quy chúng ta có thể dự báo hoặc phân tích tác động của chính sách. Ví dụ nếu dự báo được GNP của Việt Nam năm 2004 thì chúng ta có thể dự báo tiêu dùng của Việt Nam trong năm 2004. Ngoài ra khi biết MPC chúng ta có thể ước lượng số nhân của nền kinh tế theo lý thuyết kinh tế vĩ mô như sau:
M = 1/[1-MPC] = 1/[1-0,68] = 3,125
Vậy kết quả hồi quy này hữu ích cho phân tích chính sách đầu tư, chính sách kích cầu…
1.3. Những câu hỏi đặt ra cho một nhà kinh tế lượng
- Mô hình có ý nghĩa kinh tế không?
- Dữ liệu có đáng tin cậy không?
- Phương pháp ước lượng có phù hợp không?
- Kết quả thu được so với kết quả từ mô hình khác hay phương pháp khác như thế nào?
1.4. Dữ liệu cho nghiên cứu kinh tế lượng
Có ba dạng dữ liệu kinh tế cơ bản: dữ liệu chéo, dữ liệu chuỗi thời gian và dữ liệu bảng.
Dữ liệu chéo bao gồm quan sát cho nhiều đơn vị kinh tế ở một thời điểm cho trước. Các đơn vị kinh tế bao gồm các các nhân, các hộ gia đình, các công ty, các tỉnh thành, các quốc gia…
Dữ liệu chuỗi thời gian bao gồm các quan sát trên một đơn vị kinh tế cho trước tại nhiều thời điểm. Ví dụ ta quan sát doanh thu, chi phí quảng cáo, mức lương nhân viên, tốc độ đổi mới công nghệ… ở một công ty trong khoảng thời gian 1990 đến 2002.
Dữ liệu bảng là sự kết hợp giữa dữ liệu chéo và dữ liệu chuỗi thời gian. Ví dụ với cùng bộ biến số về công ty như ở ví dụ trên, chúng ta thu thập số liệu của nhiều công ty trong cùng một khoảng thời gian.
Biến rời rạc hay liên tục
Biến rời rạc là một biến có tập hợp các kết quả có thể đếm được.Ví dụ biến Quy mô hộ gia đình ở ví dụ mục 1.2 là một biến rời rạc.
Biến liên tục là biến nhận kết quả một số vô hạn các kết quả. Ví dụ lượng lượng mưa trong một năm ở một địa điểm.
Dữ liệu có thể thu thập từ một thí nghiệm có kiểm soát, nói cách khác chúng ta có thể thay đổi một biến số trong điều kiện các biến số khác giữ không đổi. Đây chính là cách bố trí thí nghiệm trong nông học, y khoa và một số ngành khoa học tự nhiên.
Đối với kinh tế học nói riêng và khoa học xã hội nói chung, chúng ta rất khó bố trí thí nghiệm có kiểm soát, và sự thực dường như tất cả mọi thứ đều thay đổi nên chúng ta chỉ có thể quan sát hay điều tra để thu thập dữ liệu.
1.5. Vai trò của máy vi tính và phầm mềm chuyên dụng
Vì kinh tế lượng liên quan đến việc xử lý một khối lượng số liệu rất lớn nên chúng ta cần dến sự trợ giúp của máy vi tính và một chương trình hỗ trợ tính toán kinh tế lượng. Hiện nay có rất nhiều phần mềm chuyên dùng cho kinh tế lượng hoặc hỗ trợ xử lý kinh tế lượng.
Excel
Nói chung các phần mềm bảng tính[spreadsheet] đều có một số chức năng tính toán kinh tế lượng. Phần mềm bảng tính thông dụng nhất hiện nay là Excel nằm trong bộ Office của hãng Microsoft. Do tính thông dụng của Excel nên mặc dù có một số hạn chế trong việc ứng dụng tính toán kinh tế lượng, giáo trình này có sử dụng Excel trong tính toán ở ví dụ minh hoạ và hướng dẫn giải bài tập.
Phần mềm chuyên dùng cho kinh tế lượng
Hướng đến việc ứng dụng các mô hình kinh tế lượng và các kiểm định giả thiết một cách nhanh chóng và hiệu quả chúng ta phải quen thuộc với ít nhất một phần mềm chuyên dùng cho kinh tế lượng. Hiện nay có rất nhiều phần mềm kinh tế lượng như:
Phần mềmCông ty phát triển
AREMOS/PC Wharton Econometric Forcasting Associate
BASSTALBASS Institute Inc
BMDP/PCBMDP Statistics Software Inc
DATA -FITOxford Electronic Publishing
ECONOMIST WORKSTATIONData Resources, MC Graw-Hill
ESPEconomic Software Package
ETNew York University
EVIEWSQuantitative Micro Software
GAUSSAptech System Inc
LIMDEPNew York University
MATLABMathWorks Inc
PC-TSP TSP International
P-STATP-Stat Inc
SAS/STATVAR Econometrics
SCA SYSTEMSAS Institute Inc
SHAZAMUniversity of British Columbia
SORITECThe Soritec Group Inc
SPSSSPSS Inc
STATPROPenton Sofware Inc
Trong số này có hai phần mềm được sử dụng tương đối phổ biến ở các trường đại học và viện nghiên cứu ở Việt Nam là SPSS và EVIEWS. SPSS rất phù hợp cho nghiên cứu thống kê và cũng tương đối thuận tiện cho tính toán kinh tế lượng trong khi EVIEWS được thiết kế chuyên cho phân tích kinh tế lượng.
CHƯƠNG 2
ÔN TẬP VỀ XÁC SUẤT VÀ THỐNG KÊ
Biến ngẫu nhiên.
Một biến mà giá trị của nó được xác định bởi một phép thử ngẫu nhiên được gọi là một biến ngẫu nhiên. Nói cách khác ta chưa thể xác định giá trị của biến ngẫu nhiên nếu phép thử chưa diễn ra. Biến ngẫu nhiên được ký hiệu bằng ký tự hoa X, Y, Z…. Các giá trị của biến ngẫu nhiên tương ứng được biểu thị bằng ký tự thường x, y, z…
Biến ngẫu nhiên có thể rời rạc hay liên tục. Một biến ngẫu nhiên rời rạc nhận một số hữu hạn[hoặc vô hạn đếm được] các giá trị. Một biến ngẫu nhiên liên tục nhận vô số giá trị trong khoảng giá trị của nó.
Ví dụ 2.1. Gọi X là số chấm xuất hiện khi tung một con súc sắc [xí ngầu]. X là một biến ngẫu nhiên rời rạc vì nó chỉ có thể nhận các kết quả 1,2,3,4,5 và 6.
Ví dụ 2.2. Gọi Y là chiều cao của một người được chọn ngẫu nhiên trong một nhóm người. Y cũng là một biến ngẫu nhiên vì chúng ta chỉ có nhận được sau khi đo đạc chiều cao của người đó. Trên một người cụ thể chúng ta đo được chiều cao 167 cm. Con số này tạo cho chúng ta cảm giác chiều cao là một biến ngẫu nhiên rời rạc, nhưng không phải thế, Y thực sự có thể nhận được bất cứ giá trị nào trong khoảng cho trước thí dụ từ 160 cm đến 170 cm tuỳ thuộc vào độ chính xác của phép đo. Y là một biến ngẫu nhiên liên tục.
2.1. Xác suất
2.1.1 Xác suất biến ngẫu nhiên nhận được một giá trị cụ thể
Chúng ta thường quan tâm đến xác suất biến ngẫu nhiên nhận được một giá trị xác định. Ví dụ khi ta sắp tung một súc sắc và ta muốn biết xác suất xuất hiện Xi = 4 là bao nhiêu.
Do con súc sắc có 6 mặt và nếu không có gian lận thì khả năng xuất hiện của mỗi mặt đều như nhau nên chúng ta có thể suy ra ngay xác suất để X= 4 là: P[X=4] = 1/6.
Nguyên tắc lý do không đầy đủ[the principle of insufficient reason]: Nếu có K kết quả có khả năng xảy ra như nhau thì xác suất xảy ra một kết quả là 1/K.
Không gian mẫu: Một không gian mẫu là một tập hợp tất cả các khả năng xảy ra của một phép thử, ký hiệu cho không gian mẫu là S. Mỗi khả năng xảy ra là một điểm mẫu.
Biến cố : Biến cố là một tập con của không gian mẫu.
Ví dụ 2.3. Gọi Z là tổng số điểm phép thử tung hai con súc sắc.
Không gian mẫu là S = {2;3;4;5;6;7;8;9;10;11;12}
A = {7;11}Tổng số điểm là 7 hoặc 11
B = {2;3;12}Tổng số điểm là 2 hoặc 3 hoặc 12
C = {4;5;6;8;9;10}
D = {4;5;6;7}
Là các biến cố.
Hợp của các biến cố
E = A hoặc B =
Giao của các biến cố:
F = C và D =
Các tính chất của xác suất
P[S] =1
Tần suất
Khảo sát biến X là số điểm khi tung súc sắc. Giả sử chúng ta tung n lần thì số lần xuất hiện giá trị xi là ni. Tần suất xuất hiện kết quả xi là
Nếu số phép thử đủ lớn thì tần suất xuất hiện xi tiến đến xác suất xuất hiện xi.
Định nghĩa xác suất
Xác suất biến X nhận giá trị xi là
2.1.2. Hàm mật độ xác suất [phân phối xác suất]
Hàm mật độ xác suất-Biến ngẫu nhiên rời rạc
X nhận các giá trị xi riêng rẽ x1, x2,…, xn. Hàm số
f[x] = P[X=xi] , với i = 1;2;..;n
\= 0 , với x
được gọi là hàm mật độ xác suất rời rạc của X. P[X=xi] là xác suất biến X nhận giá trị xi.
Xét biến ngẫu nhiên X là số điểm của phép thử tung một con súc sắc. Hàm mật độ xác suất được biểu diễn dạng bảng như sau.
X
1
2
3
4
5
6
P[X=x]
1/6
1/6
1/6
1/6
1/6
1/6
Bảng 2.1. Mật độ xác suất của biến ngẫu nhiên rời rạc X
Xét biến Z là tổng số điểm của phép thử tung 2 con súc sắc. Hàm mật độ xác suất được biểu diễn dưới dạng bảng như sau.
z
2
3
4
5
6
7
8
9
10
11
12
P[Z=z]
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36
Bảng 2.2. Mật độ xác suất của biến ngẫu nhiên rời rạc Z
Hình 2.1. Biểu đồ tần suất của biến ngẫu nhiên Z.
Hàm mật độ xác suất[pdf]-Biến ngẫu nhiên liên tục.
Ví dụ 2.4. Chúng ta xét biến R là con số xuất hiện khi bấm nút Rand trên máy tính cầm tay dạng tiêu biểu như Casio fx-500. R là một biến ngẫu nhiên liên tục nhận giá trị bất kỳ từ 0 đến 1. Các nhà sản xuất máy tính cam kết rằng khả năng xảy ra một giá trị cụ thể là như nhau. Chúng ta có một dạng phân phối xác suất có mật độ xác suất đều.
Hàm mật độ xác suất đều được định nghĩa như sau:f[r] =
Với L : Giá trị thấp nhất của phân phối
U: Giá trị cao nhất của phân phối
Hình 2.2. Hàm mật độ xác suất đều R.
Xác suất để R rơi vào khoảng [a; b] là P[a 2 hoặc Sig < 0,05
3.5. Định lý Gauss-Markov
Với các giả định của mô hình hồi quy tuyến tính cổ điển, hàm hồi quy tuyến tính theo phương pháp bình phương tối thiểu là ước lượng tuyến tính không thiên lệch tốt nhất.
Chúng ta sẽ không chứng minh đinh lý này.
3.6. Độ thích hợp của hàm hồi quy – R2
Làm thế nào chúng ta đo lường mức độ phù hợp của hàm hồi quy tìm được cho dữ liệu mẫu. Thước đo độ phù hợp của mô hình đối với dữ liệu là R2. Để có cái nhìn trực quan về R2, chúng ta xem xét đồ thị sau
Hình 3.5. Phân tích độ thích hợp của hồi quy
Trên mỗi Xi chúng ta kỳ vọng ei nhỏ nhất, hay phần lớn biến thiên của biến phụ thuộc được giải thích bởi biến độc lập. Nhưng một hàm hồi quy tốt phải có tính chất mang tính tổng quát hơn. Trong hồi quy tuyến tính cổ điển, người ta chọn tính chất tổng bình phương biến thiên không giải thích được là nhỏ nhất.
Ta có
Với
Vậy
Số hạng cuối cùng của [3.21] bằng 0.
Vậy
Đặt
TSS[Total Sum of Squares]: Tổng bình phương biến thiên của Y.
ESS[Explained Sum of Squares]: Tổng bình phương phần biến thiên giải thích được bằng hàm hồi quy của Y.
RSS[Residual Sum of Squares] : Tổng bình phương phần biến thiên không giải thích được bằng hàm hồi quy của Y hay tổng bình phương phần dư.Ta có:
TSS = ESS + RSS
Đặt
Mặt khác ta có
Vậy đối với hồi quy hai biến R2 là bình phương của hệ số tương quan.
Tính chất của R2
[1] 0≤ R2 ≤1. Với R2=0 thể hiện X và Y độc lập thống kê. R2 =1 thể hiện X và Y phụ thuộc tuyến tính hoàn hảo.
[2] R2 không xét đến quan hệ nhân quả.
3.7. Dự báo bằng mô hình hồi quy hai biến
Dựa trên X0 xác định chúng ta dự báo Y0.
Ước lượng điểm cho Y0 là :
Để ước lượng khoảng chúng ta phải tìm phân phối xác suất của
Dự báo giá trị trung bình
Từ
Suy ra
Thay biểu thức của
Dự báo giá trị cụ thể của Y0
Từ
Ta có
và
Số hạng cuối cùng
Sai số chuẩn của dự báo
Cho giá trị của Y0
Khoảng tin cậy cho dự báo
Nhận xét: X0 càng lệch ra khỏi giá trị trung bình thì dự sai số của dự báo càng lớn. Chúng ta sẽ thấy rõ điều này qua đồ thị sau.
Ước lượng khoảng cho Y0 trung bình
Hình 3.6. Ước lượng khoảng cho Y0.
3.8. Ý nghĩa của hồi quy tuyến tính và một số dạng hàm thường được sử dụng
3.8.1. Tuyến tính trong tham số
Trong mục 3.2.1 chúng ta đã đặt yêu cầu là để ước lượng theo phương pháp bình phương tối thiểu thì mô hình hồi quy phải tuyến tính. Sử dụng tính chất hàm tuyến tính của các phân phối chuẩn cũng là phân phối chuẩn, dựa vào các giả định chặt chẽ và phương pháp bình phương tối thiểu, người ta rút ra các hàm ước lượng tham số hiệu quả và các trị thống kê kiểm định.
Hồi quy tuyến tính chỉ yêu cầu tuyến tính trong các tham số, không yêu cầu tuyến tính trong biến số.
Mô hình
là mô hình tuyến tính trong các tham số nhưng phi tuyến theo biến số.
Mô hình
là mô hình phi tuyến trong các tham số nhưng tuyến tính trong biến số.
Hồi quy tuyến tính theo OLS chấp nhận dạng mô hình tuyến tính trong tham số như [3.27] mà không chấp nhận dạng mô hình phi tuyến trong tham số như [3.28].
3.8.2. Một số mô hình thông dụng
Mô hình Logarit kép
Mô hình logarit kép phù hợp với dữ liệu ở nhiều lĩnh vực khác nhau. Ví dụ đường cầu với độ co dãn không đổi hoặc hàm sản xuất Cobb-Douglas.
Mô hình đường cầu :
Không thể ước lượng mô hình [3.29] theo OLS vì nó phi tuyến trong tham số. Tuy nhiên nếu chúng ta lấy logarit hai vế thì ta được mô hình
Đặt
Mô hình này tuyến tính theo tham số nên có thể ước lượng theo OLS.
Chúng ta sẽ chứng minh đặc tính đáng lưu ý của mô hình này là độ co dãn cầu theo giá không đổi. Định nghĩa độ co dãn:
Lấy vi phân hai vế của [3.30] ta có
Vậy độ co dãn của cầu theo giá không đổi.
Hình 3.8. Chuyển dạng Log-log
Tổng quát, đối với mô hình logarit kép, hệ số ứng với ln của một biến số độc lập là độ co dãn của biến phụ thuộc vào biến độc lập đó.
Mô hình Logarit-tuyến tính hay mô hình tăng trưởng
Gọi g là tốc độ tăng trưởng, t chỉ thời kỳ. Mô hình tăng trưởng như sau
Lấy logarit hai vế của [3.32]
Đặt
Mô hình tuyến tính-Logarit [Lin-log]
Mô hình này phù hợp với quan hệ thu nhập và tiêu dùng của một hàng hoá thông thường với Y là chi tiêu cho hàng hoá đó và X là thu nhập. Quan hệ này cho thấy Y tăng theo X nhưng tốc độ tăng chậm dần.
Hình 3.9. Chuyển dạng Lin-log
Mô hình nghịch đảo hay mô hình Hyperbol
Mô hình này phù hợp cho nghiên cứu đường chi phí đơn vị, đường tiêu dùng theo thu nhập Engel hoặc đường cong Philip.
Hình 3.10. Dạng hàm nghịch đảo
Phụ lục 3.1.PL Số liệu về thu nhập và tiêu dùng, XD.
STT
Thu nhập khả dụng
Tiêu dùng
X
Y
1
173
194
2
361
363
3
355
353
4
366
306
5
581
557
6
382
302
7
633
497
8
406
268
9
375
364
10
267
283
11
783
416
12
515
521
13
705
407
14
493
304
15
367
318
16
159
116
17
492
427
18
827
499
19
111
158
20
452
333
21
688
600
22
327
320
23
647
547
24
687
518
25
443
378
26
657
633
27
105
134
28
484
269
29
653
564
30
141
155
CHƯƠNG 4
MÔ HÌNH HỒI QUY TUYẾN TÍNH BỘI
4.1. Xây dựng mô hình
4.1.1. Giới thiệu
Mô hình hồi quy hai biến mà chúng ta đã nghiên cứu ở chương 3 thường không đủ khả năng giải thích hành vi của biến phụ thuộc. Ở chương 3 chúng ta nói tiêu dùng phụ thuộc vào thu nhập khả dụng, tuy nhiên có nhiều yếu tố khác cũng tác động lên tiêu dùng, ví dụ độ tuổi, mức độ lạc quan vào nền kinh tế, nghề nghiệp… Vì thế chúng ta cần bổ sung thêm biến giải thích[biến độc lập] vào mô hình hồi quy. Mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội.
Chúng ta chỉ xem xét hồi quy tuyến tính bội với mô hình tuyến tính với trong tham số, không nhất thiết tuyến tính trong biến số.
Mô hình hồi quy bội cho tổng thể
Với X2,i, X3,i,…,Xk,i là giá trị các biến độc lập ứng với quan sát i
…k là các tham số của hồi quy
i là sai số của hồi quy
Với một quan sát i, chúng ta xác định giá trị kỳ vọng của Yi
4.1.2. Ý nghĩa của tham số
Các hệ số được gọi là các hệ số hồi quy riêng
k đo lường tác động riêng phần của biến Xm lên Y với điều kiện các biến số khác trong mô hình không đổi. Cụ thể hơn nếu các biến khác trong mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng m đơn vị nếu Xm tăng 1 đơn vị.
4.1.3. Giả định của mô hình
Sử dụng các giả định của mô hình hồi quy hai biến, chúng ta bổ sung thêm giả định sau:
[1] Các biến độc lập của mô hình không có sự phụ thuộc tuyến tính hoàn hảo, nghĩa là không thể tìm được bộ số thực [k] sao cho
Giả định này còn được được phát biểu là “ không có sự đa cộng tuyến hoàn hảo trong mô hình”.
[2] Số quan sát n phải lớn hơn số tham số cần ước lượng k.
[3] Biến độc lập Xi phải có sự biến thiên từ quan sát này qua quan sát khác hay Var[Xi]>0.
4.2. Ước lượng tham số của mô hình hồi quy bội
4.2.1. Hàm hồi quy mẫu và ước lượng tham số theo phương pháp bình phương tối thiểu
Trong thực tế chúng ta thường chỉ có dữ liệu từ mẫu. Từ số liệu mẫu chúng ta ước lượng hồi quy tổng thể.
Hàm hồi quy mẫu
Với các
Phương pháp bình phương tối thiểu
Chọn …k sao cho
đạt cực tiểu.
Điều kiện cực trị của [4.5]
Hệ phương trình [4.6] được gọi là hệ phương trình chuẩn của hồi quy mẫu [4.4].
Cách giải hệ phương trình [4.4] gọn gàng nhất là dùng ma trận. Do giới hạn của chương trình, bài giảng này không trình bày thuật toán ma trận mà chỉ trình bày kết quả tính toán cho hồi quy bội đơn giản nhất là hồi quy ba biến với hai biến độc lập. Một số tính chất của hồi quy ta thấy được ở hồi quy hai biến độc lập có thể áp dụng cho hồi quy bội tổng quát.
4.2.2. Ước lượng tham số cho mô hình hồi quy ba biến
Hàm hồi quy tổng thể
Hàm hồi quy mẫu
Nhắc lại các giả định
[1] Kỳ vọng của sai số hồi quy bằng 0:
[2] Không tự tương quan:
[3] Phương sai đồng nhất:
[4] Không có tương quan giữa sai số và từng Xm:
[5] Không có sự đa cộng tuyến hoàn hảo giữa X2 và X3.
[6] Dạng hàm của mô hình được xác định một cách đúng đắn.
Với các giả định này, dùng phương pháp bình phương tối thiểu ta nhận được ước lượng các hệ số như sau.
4.2.3. Phân phối của ước lượng tham số
Trong phần này chúng ta chỉ quan tâm đến phân phối của các hệ số ước lựơng
Nhắc lại hệ số tương quan giữa X2 và X3 :
Đặt
Từ các biểu thức [4.13] và [4.15] chúng ta có thể rút ra một số kết luận như sau:
[1] Nếu X2 và X3 có tương quan tuyến tính hoàn hảo thì
[2] Nếu X2 và X3 không tương quan tuyến tính hoàn hảo nhưng có tương quan tuyến tính cao thì ước lượng
Những nhận định trên đúng cho cả hồi quy nhiều hơn ba biến.
4.3.
Nhắc lại khái niệm về
Một mô hình có
Để hiệu chỉnh phạt việc đưa thêm biến vào mô hình, người ra đưa ra trị thống kê
Với n là số quan sát và k là số hệ số cần ước lượng trong mô hình.
Qua thao tác hiệu chỉnh này thì chỉ những biến thực sự làm tăng khả năng giải thích của mô hình mới xứng đáng được đưa vào mô hình.
4.4. Kiểm định mức ý nghĩa chung của mô hình
Trong hồi quy bội, mô hình được cho là không có sức mạnh giải thích khi toàn bộ các hệ số hồi quy riêng phần đều bằng không.
Giả thiết
H0: 2 = 3 = … = k = 0
H1: Không phải tất cả các hệ số đồng thời bằng không.
Trị thống kê kiểm định H0:
Quy tắc quyết định
Ø Nếu Ftt > F[k-1,n-k,] thì bác bỏ H0.
Ø Nếu Ftt ≤ F[k-1,n-k,] thì không thể bác bỏ H0.
4.5. Quan hệ giữa R2 và F
4.6. Ước lượng khoảng và kiểm định giả thiết thống kê cho hệ số hồi quy
Ước lượng phương sai của sai số
Người ta chứng minh được
Nếu các sai số tuân theo phân phối chuẩn thì
Ký hiệu
Ước lượng khoảng cho m với mức ý nghĩa là
Thông thường chúng ta muốn kiểm định giả thiết H0 là biến Xm không có tác động riêng phần lên Y.
H0 : m = 0
H1 : m ≠ 0
Quy tắc quyết định
Ø Nếu /t-stat/ > t[n-k,/2] thì ta bác bỏ H0.
Ø Nếu /t-stat/≤ t[n-k,/2] thì ta không thể bác bỏ H0.
4.7. Biến phân loại [Biến giả-Dummy variable]
Trong các mô hình hồi quy mà chúng ta đã khảo sát từ đầu chương 3 đến đây đều dựa trên biến độc lập và biến phụ thuộc đều là biến định lượng. Thực ra mô hình hồi quy cho phép sử dụng biến độc lập và cả biến phụ thuộc là biến định tính. Trong giới hạn chương trình chúng ta chỉ xét biến phụ thuộc là biến định lượng. Trong phần này chúng ta khảo sát mô hình hồi quy có biến định tính.
Đối với biến định tính chỉ có thể phân lớp, một quan sát chỉ có thể rơi vào một lớp. Một số biến định tính có hai lớp như:
Biến định tính
Lớp 1
Lớp 2
Giới tính
Nữ
Nam
Vùng
Thành thị
Nông thôn
Tôn giáo
Có
Không
Tốt nghiệp đại học
Đã
Chưa
Bảng 4.1. Biến nhị phân
Người ta thường gán giá trị 1 cho một lớp và giá trị 0 cho lớp còn lại. Ví dụ ta ký hiệu S là giới tính với S =1 nếu là nữ và S = 0 nếu là nam.
Các biến định tính được gán giá trị 0 và 1 như trên được gọi là biến giả[dummy variable], biến nhị phân, biến phân loại hay biến định tính.
4.7.1. Hồi quy với một biến định lượng và một biến phân loại
Ví dụ 4.1. Ở ví dụ này chúng ta hồi quy tiêu dùng cho gạo theo quy mô hộ có xem xét hộ đó ở thành thị hay nông thôn.
Mô hình kinh tế lượng như sau:
Yi = 1 + 2X i+ 3Di + i[4.19]Y: Chi tiêu cho gạo, ngàn đồng/năm
X : Quy mô hộ gia đình, người
D: Biến phân loại, D = 1 nếu hộ ở thành thị, bằng D = 0 nếu hộ ở nông thôn.
Chúng ta muốn xem xét xem có sự khác biệt trong tiêu dùng gạo giữa thành thị và nông thôn hay không ứng với một quy mô hộ gia đình Xi xác định.
Đối với hộ ở nông thôn
Đối với hộ ở thành thị
Vậy sự chênh lệch trong tiêu dùng gạo giữa thành thị và nông thôn như sau
Sự khác biệt trong tiêu dùng gạo giữa thành thị và nông thôn chỉ có ý nghĩa thống kê khi 3 khác không có ý nghĩa thống kê.
Chúng ta đã có phương trình hồi quy như sau
Y = 187 + 508*X - 557*D [4.23]
t-stat [0,5] [6,4] [-2,2]
R2 hiệu chỉnh = 0,61
Hệ số hồi quy
Chúng ta sẽ thấy tác động của làm cho tung độ gốc của phuơng trình hồi quy của thành thị và nông thôn sai biệt nhau một khoảng 3 \= -557 ngàn đồng/năm. Cụ thể ứng với một quy mô hộ gia đình thì hộ ở thành thị tiêu dùng gạo ít hơn hộ ở nông thôn 557 ngàn đồng/năm.Chúng ta sẽ thấy điều này một cách trực quan qua đồ thị sau:
Hình 4.1. Hồi quy với một biến định lượng và một biến phân loại.
4.7.2. Hồi quy với một biến định lượng và một biến phân loại có nhiều hơn hai phân lớp
Ví dụ 4.2. Giả sử chúng ta muốn ước lượng tiền lương được quyết định bởi số năm kinh nghiệm công tác và trình độ học vấn như thế nào.
Gọi Y : Tiền lương
X : Số năm kinh nghiệm
D: Học vấn. Giả sử chúng ta phân loại học vấn như sau : chưa tốt nghiệp đại học, đại học và sau đại học.
Phuơng án 1:
Di = 0 nếu chưa tốt nghiệp đại học
Di = 1 nếu tốt nghiệp đại học
Di =2 nếu có trình độ sau đại học
Cách đặt biến này đưa ra giả định quá mạnh là phần đóng góp của học vấn vào tiền lương của người có trình độ sau đại học lớn gấp hai lần đóng góp của học vấn đối với người có trình độ đại học. Mục tiêu của chúng ta khi đưa ra biến D chỉ là phân loại nên ta không chọn phương án này.
Phương án 2: Đặt bộ biến giả
D1iD2iHọc vấn
00Chưa đại học
10Đại học
01Sau đại học
Mô hình hồi quy
Yi = 1 + 2X + 3D1i + 4D2i + i[4.24]
Khai triển của mô hình [4.24] như sau
Đối với người chưa tốt nghiệp đại học
E[Yi ]= 1 + 2X [4.25]
Đối với người có trình độ đại học
E[Yi ]= [1 + 3]+ 2X3[4.26]
Đối với người có trình độ sau đại học
E[Yi ]= [1 + 3+ 4 ]+ 2X [4.27]
4.7.3. Cái bẩy của biến giả
Số lớp của biến phân loạiSố biến giả
Trong ví dụ 4.1. 21
Trong ví dụ 4.232
Điều gì xảy ra nếu chúng ta xây dựng số biến giả đúng bằng số phân lớp?
Ví dụ 4.3. Xét lại ví dụ 4.1.
Giả sử chúng ta đặt biến giả như sau
D1iD2iVùng
10Thành thị
01Nông thôn
Mô hình hồi quy là
Yi = 1 + 2X i+ 3D1i + 4D2i +i[4.28]
Chúng ta hãy xem kết quả hồi quy bằng Excel
Coefficients
Standard Error
t Stat
P-value
Intercept
2235,533
0
65535
NUM!
X
508,1297
80,36980143
6,322396
1,08E-06
D1
-2605,52
0
65535
NUM!
D2
-2048
0
65535
NUM!
Kết quả hồi quy rất bất thường và hoàn toàn không có ý nghĩa kinh tế.
Lý do là có sự đa cộng tuyến hoàn hảo giữa D1, D2 và một biến hằng X2 =-1.
D1i + D2i + X2 = 0
Hiện tượng đa cộng tuyến hoàn hảo này làm cho hệ phương trình chuẩn không có lời giải. Thực tế sai số chuẩn tiến đến vô cùng chứ không phải tiến đến 0 như kết quả tính toán của Excel. Hiện tượng này được gọi là cái bẩy của biến giả.
Quy tắc: Nếu một biến phân loại có k lớp thì chỉ sử dụng [k-1] biến giả.
4.7.4. Hồi quy với nhiều biến phân loại
Ví dụ 4.4. Tiếp tục ví dụ 4.2. Chúng ta muốn khảo sát thêm có sự phân biệt đối xử trong mức lương giữa nam và nữ hay không.
Đặt thêm biến và đặt lại tên biến
GTi: Giới tính, 0 cho nữ và 1 cho nam.
TL : Tiền lương
KN: Số năm kinh nghiệm làm việc
ĐH: Bằng 1 nếu tốt nghiệp đại học và 0 cho chưa tốt nghiệp đại học
SĐH: Bằng 1 nếu có trình độ sau đại học và 0 cho chưa.
Mô hình hồi quy TLi = 1 + 2KNi + 3ĐHi + 4SĐHi +5GTi+ i[4.29]
Chúng ta xét tiền lương của nữ có trình độ sau đại học
E[TLi /SĐH=1∩GT=0]= [1 + 4]+ 2KNi
4.7.5. Biến tương tác
Xét lại ví dụ 4.1. Xét quan hệ giữa tiêu dùng gạo và quy mô hộ gia đình.Để cho đơn giản trong trình bày chúng ta sử dụng hàm toán như sau.
Nông thôn: Y = 1 + 1X
Thành thị: Y = 2 + 2X
D : Biến phân loại, bằng 1 nếu hộ ở thành thị và bằng 0 nếu hộ ở nông thôn.
Có bốn trường hợp có thể xảy ra như sau
[1] 1=2 và 1= 2, hay không có sự khác biệt trong tiêu dùng gạo giữa thành thị và nông thôn.
Mô hình : Y = a + b X
Trong đó 1=2 = a và 1= 2 = b.
[2] 1≠2 và 1= 2, hay có sự khác biệt về tung độ gốc
Mô hình: Y = a + bX + cD
Trong đó 1 = a, 2 = a + c và 1 = 2 = b.
[3] 1=2 và 1≠ 2, hay có sự khác biệt về độ dốc
Mô hình: Y = a + bX + c[DX]
Trong đó DX = X nếu nếu D =1 và DX = 0 nếu D = 0
1 = 2 = a , 1 = b và 2 = b + c.
[4] 1≠2 và 1≠ 2, hay có sự khác biệt hoàn toàn về cả tung độ gốc và độ dốc.
Mô hình: Y = a + bX + cD + d[DX]
1 \= a , 2 = a + c, 1 = b và 2 = b + d.
Hình 4.2. Các mô hình hồi quy
Biến DX được xây dựng như trên được gọi là biến tương tác. Tổng quát nếu Xp là một biến định lượng và Dq là một biến giả thì XpDq là một biến tương tác. Một mô hình hồi quy tuyến tổng quát có thể có nhiều biến định lượng, nhiều biến định tính và một số biến tương tác.
CHƯƠNG 5
GIỚI THIỆU MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN MÔ HÌNH HỒI QUY
5.1. Đa cộng tuyến
5.1.1. Bản chất của đa cộng tuyến
Đa cộng tuyến hoàn hảo: Các biến X1, X2,…,Xk được gọi là đa cộng tuyến hoàn hảo nếu tồn tại 1, 2, …,k không đồng thời bằng không sao cho
X1 + X2 + … + kXk =0[5.1]
Hiện tượng đa cộng tuyến hoàn hảo thường xảy do nhầm lẫn của nhà kinh tế lượng như trường hợp cái bẩy của biến giả mà chúng ta đã xem xét ở mục 4.7.3 chương 4.
Hiện tượng đa cộng tuyến mà chúng ta xét trong kinh tế lượng được hiểu với nghĩa rộng hơn đa cộng tuyến hoàn hảo như điều kiện [5.1]. Các biến X1, X2,…,Xk được gọi là đa cộng tuyến không hoàn hảo nếu tồn tại 1, 2, …,k sao cho
X1 + X2 + … + kXk + =0[5.2]
với là sai số ngẫu nhiên.
Chúng ta có thể biểu diễn biến Xi theo các biến còn lại như sau
Vậy hiện tượng đa cộng tuyến xảy ra khi một biến là sự kết hợp tuyến tính của các biến còn lại và một nhiễu ngẫu nhiên.
Một số nguyên nhân gây ra hiện tượng đa cộng tuyến
[1] Khi chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao vì đồng phụ thuộc vào một điều kiện khác. Ví dụ số giường bệnh và số bác sĩ nếu đồng thời là biến độc lập của một hồi quy thì sẽ gây ra hiện tượng đa cộng tuyến gần hoàn hảo.
[2] Khi số quan sát nhỏ hơn số biến độc lập. Một ví dụ điển hình là một nghiên cứu y khoa trên một số lượng nhỏ bệnh nhân nhưng lại khảo sát quá nhiều nhân tố tác động lên hiệu quả điều trị.
[3] Cách thu thập mẫu. Ví dụ chỉ thu thập mẫu trên một số lớp giới hạn của tổng thể.
[4] Chọn biến Xi có độ biến thiên nhỏ.
5.1.2. Hệ quả của đa cộng tuyến
Ví dụ 5.1. Nghiên cứu của Klein và Golberger[1995] về quan hệ giữa tiêu dùng nội địa C, thu nhập từ lương W, thu nhập khác phi nông nghiệp P và thu nhập từ nông nghiệp A của nền kinh tế Hoa Kỳ từ năm 1928 đến 1950, với số liệu của các năm 1942 đến 1944 bị loại ra khỏi dữ liệu. Klein và Golberger thực hiện hồi quy tiêu dùng nội địa theo ba loại thu nhập như sau
Ct = 1 + 2Wt + 3Pt + 4A + t[5.4]
Hồi quy này có thể gặp phải hiện tượng đa cộng tuyến vì các loại thu nhập có xu hướng cùng tăng theo sự phát triển của nền kinh tế.
Năm
C
W
P
A
1928
52,8
39,21
17,73
4,39
1929
62,2
42,31
20,29
4,60
1930
58,6
40,37
18,83
3,25
1931
56,6
39,15
17,44
2,61
1932
51,6
34,00
14,76
1,67
1933
51,1
33,59
13,39
2,44
1934
54
36,88
13,93
2,39
1935
57,2
39,27
14,67
5,00
1936
62,8
45,51
17,20
3,93
1937
65
46,06
17,15
5,48
1938
63,9
44,16
15,92
4,37
1939
67,5
47,68
17,59
4,51
1940
71,3
50,79
18,49
4,90
1941
76,6
57,78
19,18
6,37
1945
86,3
78,97
19,12
8,42
1946
95,7
73,54
19,76
9,27
1947
98,3
74,92
17,55
8,87
1948
100,3
74,01
19,17
9,30
1949
103,2
75,51
20,20
6,95
1950
108,9
80,97
22,12
7,15
Bảng 5.1. Số liệu thu nhập và tiêu dùng của nền kinh tế Hoa Kỳ
Kết quả hồi quy như sau
t-Stat[0,91][6,10][0,69][0,11]
Khoảng 95%[-10,78;27,04][0,69;1,73][-0,94;1,84][-2,18;2,43]
R2 = 0,95F = 107,07 > F[3,16,99%] = 5,29.
Mô hình này có tính giải thích cao thể hiện qua R2 rất cao và thống kê F cao. Tuy nhiên một số hệ số lại không khác không với ý nghĩa thống kê thể hiện qua t-stat thấp, nghĩa là ước lượng khoảng cho các hệ số chứa 0. W với hệ số có t-stat lớn thì ý nghĩa kinh tế lại rất lạ: nếu thu nhập từ lương tăng 1 USD thì tiêu dùng tăng 1,059 USD. Để tìm hiểu lý do gây ra hiện tượng trên chúng ta phải dùng lý thuyết của đại số ma trận, ở đây chỉ minh hoạ bằng mô hình hồi quy ba biến. Phương sai của ước lượng hệ số 2 là
Khi X2 và X3 có hiện tượng cộng tuyến thì
Hệ quả của đa cộng tuyến
[1] Ước lượng các hệ số không hiệu quả do phương sai của ước lượng lớn. Mô hình có đa cộng tuyến có t-stat nhỏ và một số hệ số của thể có dấu trái với lý thuyết hay có giá trị không phù hợp. R2 thể hiện độ phù hợp của dữ liệu và F thể hiện ý nghĩa chung của các hệ số có thể rất cao.
[2] Giá trị ước lượng của các hệ số rất nhạy cảm đối với việc tăng hoặc bớt một hoặc quan sát hoặc loại bỏ biến có mức ý nghĩa thấp.
[3] Mặc dù việc phân tích tác động riêng phần của một biến khó khăn nhưng tính chính xác của dự báo có thể vẫn cao khi bản chất của đa cộng tuyến vẫn không đổi đối với quan sát mới.
5.1.3 Biện pháp khắc phục
Nếu mục tiêu của phân tích hồi quy là dự báo thì trong một số trường hợp chúng ta không cần khắc phục hiện tượng đa cộng tuyến.
Nếu mục tiêu của phân tích là xét tác động riêng phần của từng biến số lên biến phụ thuộc để quyết định chính sách thì đa cộng tuyến trở thành một vấn đề nghiêm trọng. Sau đây là một số biện pháp khắc phục.
[1] Dùng thông tin tiên nghiệm. Ví dụ khi hồi quy hàm sản xuất Cobb-Douglas
Ln[Yi]=1 + 2ln[Ki]+ 3ln[Li] + i [5.6]
Chúng ta có thể gặp hiện tượng đa cộng tuyến do K và L cùng tăng theo quy mô sản xuất. Nếu ta biết là hiệu suất không đổi theo quy mô thì ta có thêm thông tin 2+3=1. Với thông tin tiên nghiệm này chúng ta chuyển mô hình hồi quy [5.6] thành
Ln[Yi]=1 + 2ln[Ki]+ [1-2]ln[Li] + i [5.7]
[2] Bỏ đi một biến có đa cộng tuyến. Đây là cách làm đơn giản nhất. Ví dụ trong mô hình có biến giải thích là số bác sĩ và số giường bệnh thì ta có thể bỏ đi biến số giường bệnh. Nếu biến bị bỏ đi thực sự cần phải có trong mô hình thì chúng ta lại gặp phải một vấn đề khác, đó là ước lượng chệch đối với các hệ số còn lại. Vấn đề này chúng ta sẽ tiếp tục xem xét ở cuối chương.
[3] Chuyển dạng dữ liệu
Giả sử chúng ta hồi quy trên dữ liệu chuỗi thời gian
Yt = 1 + 2X2t + 3X3t + t[5.8]
Và chúng ta gặp phải hiện tượng đa cộng tuyến do X1t và X3t có thể cùng tăng hoặc giảm theo từng năm. Ta có thể tối thiểu tác động đa cộng tuyến này bằng kỹ thuật hồi quy trên sai phân bậc nhất như sau:
Ta có
Yt-1 = 1 + 2X2,t-1 + 3X3,t-1 + t-1[5.9]
Từ [5.8] và [5.9] ta xây dựng mô hình hồi quy
[Yt -Yt-1 ]= 2[X2t-X2,t-1] + 3[X3t- 3X3,t-1 ]+ t[5.10]
Với t\= t-t-1.
Một vấn đề mới nảy sinh là t có thể có tính tương quan chuỗi, và như thế không tuân theo giả định của mô hình hồi quy tuyến tính cổ điển. Nếu hiện tượng tương quan chuỗi là nghiêm trọng thì mô hình [5.10] còn kém hơn cả mô hình [5.8].
[4] Tăng thêm quan sát. Giải pháp này thích hợp cho hiện tượng đa cộng tuyến do cỡ mẫu nhỏ. Đôi khi chỉ cần tăng thêm một số quan sát là ta khắc phục được hiện tượng đa cộng tuyến. Một lần nữa chúng ta lại có sự đánh đổi. Tăng dữ liệu đôi khi đồng nghĩa với việc tăng chi phí, nhất là đối với dữ liệu sơ cấp. Mặt khác nếu là dữ liệu không có kiểm soát, chúng ta phải biết chắc rằng các điều kiện khác tương tự với khi ta thu thập dữ liệu gốc.
Khắc phục hiện tượng đa cộng tuyến đòi hỏi các kỹ thuật phức tạp và đôi khi cũng không mang lại hiệu quả như ta mong muốn. Mặt khác, hầu hết các mô hình hồi quy bội đều có tính cộng tuyến nhất định nên chúng ta phải cẩn thận trong việc xây dựng mô hình và giải thích kết quả. Chúng ta sẽ nghiên cứu nguyên tắc xây dựng mô hình ở cuối chương.
5.2. Phương sai của sai số thay đổi - HETEROSKEDASTICITY
5.2.1. Bản chất của phương sai của sai số thay đổi
Giả định của mô hình hồi quy tuyến tính cổ điển là phương sai của sai số hồi quy không đổi qua các quan sát. Trong thực tế sai số hồi quy có thể tăng lên hoặc giảm đi khi giá trị biến độc lập X tăng lên. Tổng quát, thay cho giả định
chúng ta giả định
Thường gặp phương sai không đồng nhất ở dữ liệu chéo và dữ liệu bảng. Nguyên nhân phương sai không đồng nhất rất đa dạng, sau đây là một số trường hợp điển hình:
[1] Gọi Y là số phế phẩm trong 100 sản phẩm của một thợ học việc, X là số giờ thực hành. Khi số giờ thực hành càng lớn thì số phế phẩm càng nhỏ và càng ít biến động. Chúng ta có trường hợp phương sai giảm dần khi X tăng dần.
[2] Khi thu nhập[X] tăng thì chi tiêu cho các mặt hàng xa xỉ tăng và mức biến động càng lớn. Chúng ta có trường hợp phương sai tăng dần khi X tăng dần.
[3] Khi cải thiện phương pháp thu thập số liệu thì phương sai giảm.
[4] Phương sai của sai số tăng do sự xuất hiện của điểm nằm ngoài, đó là các trường hợp bất thường với dữ liệu rất khác biệt[rất lớn hoặc rất nhỏ so với các quan sát khác].
[5] Phương sai thay đổi khi không xác đúng dạng mô hình, nếu một biến quan trọng bị bỏ sót thì phương sai của sai số lớn và thay đổi. Tình trạng này giảm hẳn khi đưa biến bị bỏ sót vào mô hình.
5.2.2. Hệ quả của phương sai thay đổi khi sử dụng ước lượng OLS
Xét hồi quy
Yi = 1 + 2X i+ i[5.12]
với
Sử dụng phương pháp bình phương tối thiểu thông thường [OLS] chúng ta có
vậy ước lượng theo OLS không chệch.
Chúng ta không chưa rõ là OLS có cho ước lượng hiệu quả hay không.
Ước lượng bình phương tối thiểu có trọng số [WLS]
Đặt
Ta viết lại mô hình [5.13] như sau
Mô hình [5.14] không có tung độ gốc và phương sai đồng nhất.
Vậy ước lượng hệ số của [5.15] theo OLS là ước lượng hiệu quả[BLUE].
Kết quả ước lượng 2 của [5.15] theo OLS như sau
Ước lượng [5.16] hoàn toàn khác với [5.13]. Chúng ta biết ước lượng theo WLS [5.16] là ước lượng hiệu quả vậy ước lượng theo OLS [5.13] là không hiệu quả.
Phương sai đúng của hệ số ước lượng 2 là
Từ phương sai của sai số bị tính sai này các trị thống kê t-stat và sai số chuẩn của hệ số ước lượng phần mềm cung cấp là vô dụng.
Tóm lại, với sự hiện diện của phương sai của sai số thay đổi mặc dù ước lượng các hệ số theo OLS vẫn không chệch nhưng ước lượng không hiệu quả và các trị thống kê như t-stat không chính xác.
5.2.3. Phát hiện và khắc phục
Phát hiện phương sai của sai số thay đổi.
Hình 5.1. Đồ thị phân tán phần dư ei theo
Hình 5.2. Đồ thị phân tán phần dư ei theo Xi
Theo các đồ thị trên thì khi giá trị dự báo Y tăng [hoặc khi X tăng] thì phần dư có xu hướng tăng, hay mô hình có phương sai của sai số thay đổi.
Các phép thử chính thức
Xét hồi quy bội
Trong [k-1] biến độc lập trên ta trích ra [p-1] biến làm biến độc lập cho một hồi quy phụ. Trong hồi quy phụ này phần dư từ hồi quy mô hình[5.17] làm hồi quy biến phụ thuộc.
Các dạng hồi quy phụ thường sử dụng là
Kiểm định Breusch-Pagan căn cứ vào hồi quy phụ [5.18], kiểm định Glejser căn cứ vào [5.19] và kiểm định Harvey-Godfrey căn cứ vào [5.20].
Giả thiết không là không có phương sai không đồng nhất
H0 : 2 = 3 = … = p = 0
H1 : Không phải tất cả các hệ số trên đều bằng 0.
R2 xác định từ hồi quy phụ, n là cỡ mẫu dùng để xây dựng hồi quy phụ, với cỡ mẫu lớn thì nR2 tuân theo phân phối Chi bình phương với [p-1] bậc tự do.
Quy tắc quyết định
Nếu
Nếu bác bỏ được H0 thì chúng ta chấp nhận mô hình có phương sai của sai số thay đổi và thực hiện kỹ thuật ước lượng mô hình như sau:
Đối với kiểm định Breusch-Pagan
Đối với kiểm định Glejser
Đối với kiểm định Harvey-Godfrey
Ta có
5.3. Tự tương quan [tương quan chuỗi]
Trong mô hình hồi quy tuyến tính cổ điển chúng ta giả định không có tương quan giữa các phần dư hay E[ij] = 0 với mọi i, j.
Trong thực tế đối với dữ liệu chuỗi thời gian, giả định này hay bị vi phạm. Một lý do nôm na là biến số kinh tế có một quán tính[sức ỳ] nhất định. Ví dụ sự tăng cầu một loại hàng hóa của năm nay sẽ làm tăng lượng cung nội địa của hàng hoá đó vào năm sau, đây là tác động trễ của biến độc lập hay biến phụ thuộc thời kỳ t chịu tác động của biến độc lập ở thời kỳ t-1.
Đôi khi nền kinh tế lại phản ứng quá nhạy với sự thay đổi. Ví dụ giá mía cao ở năm nay sẽ làm cho nông dân đổ xô trồng mía, sản lượng mía năm sau tăng vọt làm giảm giá mía ở năm sau, đây là tác động trễ của biến phụ thuộc hay giá trị biến phụ thuộc thời kỳ t chịu ảnh hưởng của giá trị biến phụ thuộc thời kỳ t-1.
Hiện tượng tự tương quan làm cho E[ij] ≠ 0 và gây ra các hậu quả sau
[1] Ước lượng theo OLS không chệch nhưng không hiệu quả
[2] Các trị thống kê tính theo OLS không hữu ích trong việc nhận định mô hình.
Chúng ta có thể phát hiện hiện tượng tự tương quan bằng cách quan sát đồ thị phần dư của mô hình trên dữ liệu chuỗi thời gian.
Hình 5.3. Tương quan chuỗi nghịch
Hình 5.4. Tương quan chuỗi thuận
Chúng ta sẽ tiếp tục làm việc với dữ liệu chuỗi và xử lý hiện tượng tự tương quan ở phần sau của giáo trình liên quan đến các mô hình dự báo.
5.4. Lựa chọn mô hình
Một yếu tố quan trọng đầu tiên để chọn đúng mô hình hồi quy là chọn đúng dạng hàm. Để chọn đúng dạng hàm chúng ta phải hiểu ý nghĩa và mối quan hệ kinh tế của các biến số. Ý nghĩa của một số loại hàm thông dụng đã được trình bày ở mục 3.8.2 chương 3. Ở phần này chúng ta xét hậu quả của một số dạng xây dựng mô hình sai và chiến lược xây dựng mô hình kinh tế lượng. Chúng ta cũng không đi sâu vào chứng minh các kết quả.
5.4.1. Thiếu biến có liên quan và chứa biến không liên quan.
Xét hai hồi quy sau
và
Mô hình [5.21] có các trị thông kê tương ứng có ký hiệu R và mô hình [5.22] có các trị thống kê tương ứng có ký hiệu U.
Có hai trường hợp xảy ra:
Ø Trường hợp 1: Nếu mô hình [5.22] là đúng nhưng chúng ta chọn mô hình [5.21] nghĩa là chúng ta bỏ sót L biến quan trọng [XK+1,..XK+L]. Hậu quả là ước lượng các hệ số cho K-1 biến độc lập còn lại bị chệch, mô hình kém tính giải thích cho cả mục tiêu dự báo vào phân tích chính sách.
Ø Trường hợp 2: Nếu mô hình [5.21] là đúng nhưng chúng ta chọn mô hình [5.22], nghĩa là chúng ta đưa vào mô hình các biến không liên quan. Hậu quả là ước lượng hệ số cho các biến quan trọng vẫn không chệch nhưng không hiệu quả.
5.4.2. Kiểm định so sánh mô hình [5.21] và [5.22] - Kiểm định Wald
Chúng ta muốn kiểm định xem L biến [XK+1,..XK+L] có đáng được đưa vào mô hình hay không.
H0:
Trị thống kê
Quy tắc quyết dịnh: Nếu
5.4.3. Hai chiến lược xây dựng mô hình
Có hai chiến lược xây dựng mô hình kinh tế lượng là:
Ø Xây dựng mô hình từ đơn giản đến tổng quát: chứa tất cả các biến có liên quan trong mô hình và loại bỏ dần những biến ít ý nghĩa thống kê nhất cho đến khi nhận được mô hình “tốt nhất”.
Ø Xây dựng mô hình tổng quát đến đơn giản : Xuất phát từ biến độc lập có quan hệ kinh tế trực tiếp nhất với biến phụ thuộc, tiếp tục bổ sung biến mới cho đến khi nhận được mô hình “tốt nhất”.
Mỗi cách làm đều có những ưu và nhược điểm. Hiện nay với công cụ máy vi tính, người ta không còn ngại tính toán trên mô hình lớn và nhiều nhà kinh tế lượng cho rằng xây dựng mô hình từ tổng quát đến đơn giản thì hiệu quả hơn từ đơn giản đến tổng quát. Nét chung của cả hai chiến lược này là ở từng bước đều phải thực hiện kiểm định Wald.
CHƯƠNG 6
DỰ BÁO VỚI MÔ HÌNH HỒI QUY [Đọc thêm]
PHÂN LOẠI CÁC PHƯƠNG PHÁP DỰ BÁO
Có hai nhóm phương pháp dự báo chính là nhóm định tính và nhóm định lượng. Trong giáo trình này chúng ta chủ yếu sử dụng phương pháp định lượng có kết hợp với các phán đoán định tính để dự báo.
Các phương pháp dự báo định tính
Các phương pháp dự báo định tính dựa vào phán đoán chủ quan và trực giác để đưa ra dự báo thay cho vì dựa vào các số liệu quá khứ. Phương pháp dự báo định tính hữu ích cho việc dự báo toàn cục và một số trường hợp mà số liệu quá khứ không hữu ích cho dự báo.
Các phương pháp dự báo định lượng
Các kỹ thuật dự báo định lượng dựa vào việc phân tích số liệu quá khứ để đưa ra dự báo. Giả định của phương pháp này là các nhân tố từng tác động lên biến được dự báo trong quá khứ vẫn tiếp tục ảnh hưởng đến biến này trong tương lai. Vậy dựa vào diễn biến dữ liệu trong quá khứ ta có thể dự báo cho tương lai. Các phương pháp dự báo định lượng lại được chia thành hai nhóm chính: dự báo định lượng mang tính nhân quả và dự báo định lượng mang tính thống kê.
Các phương pháp dự báo định lượng mang tính nhân quả
Đại diện của nhóm phương pháp này là phân tích hồi quy. Mô hình dự báo có hai nhóm biến số: các biến số được dự báo được gọi là biến độc lập, các biến số dùng để dự báo được gọi là biến phụ thuộc. Chúng ta đã nghiên cứu mô hình hồi quy ở phần 1, nay chúng ta tiếp tục nghiên cứu việc áp dụng mô hình hồi quy cho dự báo và một số kỹ thuật phân tích hồi quy với dữ liệu chuỗi thời gian.
Các phương pháp dự báo định lượng mang tính thống kê
Nhóm các phương pháp dự báo mang tính thống kê chỉ quan tâm đến quy luật biến thiên của biến cần dự báo trong quá khứ để dưa ra dự báo. Biến thiên của một biến số kinh tế được chia thành các thành phần: xu hướng, chu kỳ, thời vụ và ngẫu nhiên.
Nhóm các phương pháp dự báo mang tính thống kê lại chia thành hai nhóm chính.
- Nhóm thứ nhất phân tích một thành phần hoặc kết hợp một số thành phần riêng biệt nêu trên như: đường xu hướng, san bằng số mũ, trung bình động.
- Nhóm thứ hai sử dụng các khái niệm thống kê về dữ liệu chuỗi thời gian mà không chia biến động của dữ liệu thành các thành phần riêng biệt như ở phương pháp luận Box-Jenkins.
6.1. Dự báo với mô hình hồi quy thông thường
Mô hình hồi quy
Chỉ số t chỉ thời kỳ thứ t.
Giả sử mô hình này thoả mãn các điều kiện của phương pháp ước lượng theo bình phương tối thiểu. Các tham số ước lượng từ mô hình tương ứng là
Ước đoán tốt nhất cho Yt+1 khi biết các Xi,t+1 là:
Độ lệch chuẩn của ước lượng là
Đối với hồi quy hai biến
Đối với hồi quy bội: công thức rất phức tạp và nằm ngoài phạm vi giáo trình này.
6.2. Tính chất “trễ” của dữ liệu chuỗi thời gian và hệ quả của nó đến mô hình
Khi chúng ta sử dụng mô hình [6.1] chúng ta giả định rằng các biến độc lập tác động tức thì lên biến phụ thuộc và biến phụ thuộc chỉ chịu tác động của biến độc lập. Đối với các biến số kinh tế các giả định này thường không đúng. Tác động của biến độc lập có thành phần tác động tức thời và có thành phần tác động trễ. Mặt khác, đôi khi bản thân biến phụ thuộc cũng có “quán tính” hay “sức ỳ” của nó. Có ba nguyên nhân gây ra “độ trễ” hay “sức ỳ” trong kinh tế là
[1] Nguyên nhân tâm lý
Khi thu nhập của một người giảm tiêu dùng của người đó có thể không giảm ngay lập tức do thói quen duy trì mức sống cao. Nếu tình hình thu nhập vẫn không phục hồi trong thời gian dài, anh ta phải học cách chi tiêu tiết kiệm hơn.
[2] Nguyên nhân kỹ thuật
Giả sử cầu nội địa đối với một mặt hàng tăng lên làm giá một mặt hàng này tăng. Sản lượng nội địa có thể không tăng tức thời vì để tăng sản lượng cần phải có thời gian xây dựng nhà máy, đầu tư máy móc thiết bị và đào tạo công nhân. Doanh nghiệp còn phải phân tích xem sự tăng cầu nội địa này có mang tính chất lâu dài hay chỉ là tức thời.
[3] Nguyên nhân định chế
Các ràng buộc pháp lý là nguyên nhân của một số hiện tượng tác động trễ. Ví dụ nếu hợp đồng tài trợ Giải bóng đá chuyên nghiệp Việt Nam đã được ký kết có hiệu lực 2 năm thì Liên đoàn Bóng đá Việt Nam không thể huỷ hợp đồng để ký lại với một đối tác khác có số tiền tài trợ cao hơn. Giả sử số tiền tài trợ phụ thuộc tầm ảnh hưởng của giải đấu lên công chúng thể hiện qua số lượt khán giả đến sân và số lượt khán giả theo dõi qua truyền hình. Số khán giả đến sân tăng lên chỉ có thể tác động làm tăng số tiền tài trợ của lần ký kết ở 2 năm sau.
Khi có tính chất “trễ” nêu trên của dữ liệu chuỗi thời gian, mô hình [6.1] có sai số hồi quy không thỏa mãn các điều kiện của mô hình hồi quy tuyến tính cổ điển.[Tại sao?]. Từ đó dự báo theo [6.2] sẽ không chính xác.
6.3. Mô hình tự hồi quy
Mô hình [6.4] còn được gọi là mô hình động vì nó thể hiện mối liên hệ giữa giá trị của biến phụ thuộc với giá trị quá khứ của nó.
6.4. Mô hình có độ trễ phân phối
Trong mô hình này k được gọi là độ trễ. Chúng ta phải xác định độ trễ k.
6.4.1. Cách tiếp cận của Alt và Tinberger:
Vì Xt là xác định và không tương quan với t nên Xt-1,Xt-2, …, Xt-k đều xác định và không tương quan với t. Do đó chúng ta có thể áp dụng OLS để ước lượng tham số cho mô hình [6.5]. Chúng ta sẽ xác định k bằng cách tăng dần độ trễ như sau:
[1] Hồi quy Yt theo Xt
[2] Hồi quy Yt theo Xt và Xt-1…
[k] Hồi quy Yt theo Xt, Xt-1, …, Xt-k
[k+1] Hồi quy Yt theo Xt, Xt-1, …, Xt-[k+1]
Quá trình này dừng ở độ trễ [k+1] hoặc [k+2] khi chúng ta nhận thấy các hệ số ứng với các biến trễ không có ý nghĩa thống kê hoặc đổi dấu.
Quá trình trên vướng phải bốn nhược điểm như sau:
[1] Không có tiên liệu trước là độ trễ sẽ là bao nhiêu.
[2] Mô hình có thêm một độ trễ thì mất đi một bậc tự do, nếu dữ liệu chuỗi thời gian không đủ dài thì ý nghĩa thống kê của mô hình ngày càng kém.
[3] Các biến giải thích thực chất là giá trị của một biến X theo thời gian, điều này gây ra sự tương quan giữa các biến giải thích trong mô hình, tức là có hiện tượng đa cộng tuyến. Ước lượng các tham số của mô hình trong trường hợp có đa cộng tuyến sẽ cho kết quả kém chính xác.
[4] Việc xác định độ trễ k của mô hình [6.5] theo cách thức trên là một dạng của “đào mỏ dữ liệu”.
6.4.2. Mô hình Koyck
Giả định:
[1] Tất cả các hệ số ứng với biến trễ có cùng dấu
[2] Các hệ số tuân theo cấp số nhân giảm dần:
Chúng ta viết lại mô hình [6.5] như sau
Tương tự
Nhân [6.7] với
Lấy [6.6] trừ [6.7]
Kết quả cuối cùng
Với
Mô hình [6.10] được gọi là mô hình chuyển dạng Koyck. Chúng ta đã chuyển mô hình trễ phân phối thành mô hình tự hồi quy.
6.4.3. Mô hình kỳ vọng thích nghi
Giả sử mô hình xác định cầu tiền có dạng như sau
Y : Cầu tiền
X*: Giá trị kỳ vọng của lãi suất danh nghĩa
: Sai số hồi quy
Lãi suất kỳ vọng của năm nay[năm t] không thể quan sát được một cách trực tiếp mà được xác định như sau
Biểu thức này hàm ý kỳ vọng của người ta thay đổi[thích hợp] theo lãi suất thực tế, hay nói cách khác người ta học hỏi từ sai lầm.
Thay [6.12] vào [6.11]
Qua một số phép biến đổi tương tự như mô hình Koyck ta có
Với
6.4.4. Mô hình hiệu chỉnh từng phần
Mô hình hiệu chỉnh từng phần phù hợp với phân tích hồi quy có độ trễ do lý do kỹ thuật và định chế.
Giả sử mức đầu tư tư bản tối ưu ứng với một mức sản lượng X cho trước là Y*. Mô hình hồi quy đơn giản Y* theo X như sau:
Thực tế chúng ta không trực tiếp quan sát được
Giả định
Trong đó
Từ [6.14] và[6.15] sau một vài phép biến đổi chúng ta nhận được
Một lần nữa chúng ta lại nhận được mô hình tự hồi quy.
6.5. Ước lượng mô hình tự hồi quy
Trong cả ba mô hình vừa xét, chúng ta đều nhận được mô hình cuối cùng có dạng tự hồi quy.
Koyck:
Kỳ vọng thích nghi
Hiệu chỉnh từng phần
Dạng chung của ba mô hình này là
Có hai vấn đề cần lưu tâm đối với mô hình [6.21]:
[1] Thứ nhất, có sự hiện diện của biến ngẫu nhiên trong các biến độc lập, đó là Yt-1. Điều này vi phạm điều kiện của mô hình hồi quy tuyến tính cổ điển.
[2] Thứ hai, có khả năng xảy ra hiện tượng tương quan chuỗi.
Để tránh các hệ quả bất lợi do Yt-1 gây ra người ta sử dụng một biến thay thế cho Yt-1 với đặc tính biến này tương quan mạnh với Yt-1 nhưng không tương quan với Xt. Biến độc lập có đặc tính vừa kể được gọi là biến công cụ.
6.6. Phát hiện tự tương quan trong mô hình tự hồi quy
Trị thống kê h
Trong đó: n = cỡ mẫu;
h có phân phối chuẩn hoá tiệm cận. Từ phân phối chuẩn hoá chúng ta có
P[-1,96 < h < 1,96] = 0,95
Quy tắc quyết định:
Ö Nếu h < -1,96, chúng ta bác bỏ H0 cho rằng mô hình không có tự tương quan bậc 1 nghịch.
Ö Nếu h > 1,96, chúng ta bác bỏ H0 cho rằng mô hình không có tự tương quan bậc 1 thuận.
Ö Nếu -1,96 < h < 1,96: chúng ta không thể bác bỏ H0 cho rằng không có tự tương quan bậc nhất.
CHƯƠNG 7
CÁC MÔ HÌNH DỰ BÁO MANG TÍNH THỐNG KÊ [Tham khảo]
7.1. Các thành phần của dữ liệu chuỗi thời gian
Các thành phần chính của dữ liệu chuỗi thời gian là
- Xu hướng
- Chu kỳ
- Thời vụ
- Ngẫu nhiên
7.1.1. Xu hướng dài hạn
Xu hướng dài hạn thể hiện sự tăng trưởng hoặc giảm sút của một biến số theo thời gian với khoảng thời gian đủ dài. Một số biến số kinh tế có xu hướng tăng giảm dài hạn như
- Tốc độ tăng dân số của Việt Nam có xu hướng giảm.
- Tỷ trọng nông nghiệp trong GDP của Việt Nam có xu hướng giảm.
- Mức giá có xu hướng tăng.
7.1.2. Chu kỳ
Các số liệu kinh tế vĩ mô thường có sự tăng giảm có quy luật theo chu kỳ kinh tế. Sau một thời kỳ suy thoái kinh tế sẽ là thời kỳ phục hồi và bùng nổ kinh tế, kế tiếp tăng trưởng kinh tế sẽ chựng lại và khỏi đầu cho một cuộc suy thoái mới. Tuỳ theo nền kinh tế mà chu kỳ kinh tế có thời hạn là 5 năm, 7 năm hay 10 năm.
7.1.3. Thời vụ
Biến động thời vụ của biến số kinh tế là sự thay đổi lặp đi lặp lại từ năm này sang năm khác theo mùa vụ. Biến động thời vụ xảy ra do khí hậu, ngày lễ, phong tục tập quán…Biến động thời vụ có tính ngắn hạn với chu kỳ lặp lại thường là 1 năm.
7.1.4. Ngẫu nhiên
Những dao động không thuộc ba loại trên được xếp vào dao động ngẫu nhiên. Các nguyên nhân gây ra biến động ngẫu nhiên có thể là thời tiết bất thường, chiến tranh, khủng hoảng năng lượng, biến động chính trị…
Hình 7.1. Xu hướng và thời vụ
Hình 7.2. Chu kỳ và ngẫu nhiên-Tăng trưởng kinh tế của Hoa Kỳ giai đoạn 1961-1999.
Nguồn : World Development Indicator CD-Rom 2000, World Bank.
7.2. Dự báo theo đường xu hướng dài hạn
7.2.1. Mô hình xu hướng tuyến tính
Chúng ta sử dụng mô hình xu hướng tuyến tính nếu tin rằng biến Y tăng một lượng không đổi trong một đơn vị thời gian.
hoặc dạng
Ứng với dữ liệu ở hình 7.2, phương trình đường xu hướng là
gt = 3,6544- 0,029t
Với gt = tốc độ tăng trưởng GDP của Hoa Kỳ, tính bằng %.
t = năm đang xét- 1991.
Dự báo tốc độ tăng trưởng kinh tế cho năm 2000 là
g2000 = 3,6544 – 0,029*[2000 – 1961] = 2,52 %
7.2.2. Mô hình xu hướng dạng mũ
Chúng ta sử dụng hàm mũ khi cho rằng có tỷ lệ tăng trưởng cố định trong một đơn vị thời gian.
chuyển dạng
Mô hình xu hướng dạng mũ dùng để dự báo dân số, sản lượng, nhu cầu năng lượng…Hình 7.3 cho thấy dân số của Việt Nam có dạng hàm mũ với phương trình ước lượng như sau:
Yt = 33,933e0,0214n
Từ dạng hàm [7.3], kết quả [7.4] cho thấy tốc độ tăng dân số của Việt Nam trong thời kỳ 1960-1999 khoảng 2,14 %.
Hình 7.3. Dân số Việt Nam giai đoạn 1960-1999
Nguồn : World Development Indicator CD-Rom 2000, World Bank.
7.2.3. Mô hình xu hướng dạng bậc hai
Dấu của các tham số quyết định dạng đường xu hướng như sau:
- Nếu 2 và 3 đều dương: Y tăng nhanh dần theo thời gian.
- Nếu 2 âm và 3 dương: Y giảm sau đó tăng
- Nếu 2 dương và 3 âm: Y tăng nhưng tốc độ tăng giảm dần sau đó đạt cực trị và bắt đầu giảm.
7.3. Một số kỹ thuật dự báo đơn giản
7.3.1. Trung bình trượt [Moving Average]
Giá trị dự báo bằng trung bình của m giá trị trước đó
Một lưu ý là khi làm trơn chuỗi dữ liệu bằng kỹ thuật trung bình trượt như trên mô hình giảm [m-1] bậc tự do. Chúng ta tạm gác lại việc thảo luận về số số hạng m của mô hình trung bình trượt [7.6].
7.3.2. San bằng số mũ [Exponential Smoothing Method]
Ý tưởng của mô hình san bằng số mũ tương tự mô hình kỳ vọng thích nghi mà chúng ta đã xét ở chương 6. Giá trị dự báo mới không chỉ phụ thuộc vào giá trị giai đoạn trước mà còn phụ thuộc giá trị dự báo của giai đoạn trước.
hoặc
- càng gần 1 thì dự báo mới càng gần với giá trị gần nhất, nếu càng gần 0 thì dự báo mới càng gần với dự báo gần nhất. Trong thực tế người ta sẽ thử với các giá trị khác nhau, giá trị được chọn là giá trị làm cho sai số dự báo bình phương trung bình[MSE] của mô hình nhỏ nhất.
- Có thể dùng trung bình của 5 đến 6 số đầu tiên để làm giá trị dự báo đầu tiên.
7.3.3. Tự hồi quy [Autoregression]
Giá trị dự báo được xác định từ mô hình tự hồi quy với m độ trễ.
Trong mô hình [7.7] có thể có số 0 hoặc không có 0. Trường hợp có 0 ứng với dữ liệu có xu hướng dài hạn tăng hoặc giảm, trường hợp không có 0 ứng với dữ liệu có tính dừng.
7.4. Tiêu chuẩn đánh giá mô hình dự báo
Gọi
Hai tiêu chuẩn thường được sử dụng để đánh giá và so sánh các mô hình dự báo là
Sai số dự báo tuyệt đối trung bình[Mean absolute deviation-MAD]
Sai số dự báo bình phương trung bình[Mean squared error-MSE]
Mô hình tốt là mô hình có MAD và MSE nhỏ.
7.5. Một ví dụ bằng số
Sử dụng số liệu giá bắp cải đến tháng 12/1992[hình7.1], chúng ta lập mô hình dự báo giá bắp cải và dự báo cho các tháng của năm 1993.
Mô hình 1: Lin
Xu hướng tuyến tính:
Mô hình 2: MA
Trung bình trượt:
Mô hình 3: Holt
Phuơng pháp Holt:
Mô hình 4: AR
Tự hồi quy:
Sau khi ước lượng các hệ số của mô hình 1 và 4 dựa trên số liệu đến hết 1992[trong mẫu], chúng ta ước lượng cho cả giai đoạn trước 1993[trong mẫu] và 1993[ngoài mẫu]. Chúng ta vẽ đồ thị các dãy số liệu dự báo và số liệu gốc như ở hình 7.5.
Kết quả tính toán sai số của các mô hình như sau:
Trong mẫu:
Mô hình
Lin
MA
Holt
AR
MSE trong mẫu, đồng^2
2.733
157
2.216
59.629
Ngoài mẫu
Mô hình
Lin
MA
Holt
AR
MSE dự báo, đồng^2
429.043
245.417
216.134
260.392
Trong trường hợp cụ thể của ví dụ này mô trung bình trượt[MA] cho MSE trong mẫu nhỏ nhất nhưng phương pháp Holt lại cho MSE nhỏ nhất ngoài mẫu.
Hình 7.4. Các phương pháp dự báo đơn giản
7.6. Giới thiệu mô hình ARIMA
7.6.1. Tính dừng của dữ liệu
Quá trình ngẫu nhiên[Stochastic process]
Bất cứ dữ liệu chuỗi thời gian nào cũng được tạo ra bằng một quá trình ngẫu nhiên. Một dãy số liệu thực tế cụ thể như giá bắp cải từng tháng ở hình 7.1 là kết quả của một quá trình ngẫu nhiên. Đối với dữ liệu chuỗi thời gian, chúng ta có những khái niệm về tổng thể và mẫu như sau:
- Quá trình ngẫu nhiên là một tổng thể.
- Số liệu thực tế sinh ra từ quá trình ngẫu nhiên là mẫu.
Tính dừng[Stationary]
Một quá trình ngẫu nhiên được gọi là có tính dừng khi nó có các tính chất sau:
- Kỳ vọng không đổi theo thời gian, E[Yt] = .
- Phương sai không đổi theo thời gian, Var[Yt] = E[Yt-] = 2.
- Đồng phương sai chỉ phụ thuộc khoảng cách của độ trễ mà không phụ thuộc thời điểm tính đồng phương sai đó, k = E[[Yt-][Yt-k-]] không phụ thuộc t.
Lưu ý: Chúng ta có thể biến dữ liệu chuỗi thời gian từ không có tính dừng thành có tính dừng bằng cách lấy sai phân của nó.
wt = Yt-Yt-1: Sai phân bậc nhất
7.6.2. Hàm tự tương quan và hàm tự tương quan mẫu
Hàm tự tương quan[ ACF ] ở độ trễ k được ký hiệu là
Tính chất của ACF
-
- Giá trị của
Trong thực tế chúng ta chỉ có thể có số liệu thực tế là kết quả của quá trình ngẫu nhiên, do đó chúng chỉ có thể tính toán được hàm tự tương quan mẫu[SAC], ký hiệu là
Độ lệch chuẩn hệ số tự tương quan mẫu
s[rj] =
Trị thống kê t
tk =
Với cỡ mẫu lớn thì tk ~ Z nên với t > 1,96 thì rk khác không có ý nghĩa thống kê, khi đó người ta gọi rk là 1 đỉnh.
Các phần mềm kinh tế lượng sẽ tính toán cho chúng ta kết quả của SAC và các giá trị đến hạn[hoặc trị thống kê t] của nó ứng với mức ý nghĩa = 5%.
Thống kê Ljung-Box
n là cỡ mẫu
m là chiều dài của độ trễ
H0: Tất cả các
H1: Không phải tất cả các
Nếu LB >
Một số phần mềm kinh tế lượng có tính toán trị thống kê LB.
7.6.3. Hàm tự tương quan riêng phần [PACF]
Hệ số tự tương quan riêng phần với độ trễ k đo lường tương quan của Yt-k với Yt sau khi loại trừ tác động tương quan của tất các các độ trễ trung gian. Công thức tính PACF như sau
Độ lệch chuẩn của rkk
Trị thống kê t
Với cỡ mẫu lớn thì tkk~ Z nên với tkk> 1,96 thì rkk khác không có ý nghĩa thống kê, khi đó người ta gọi rkk là 1 đỉnh.
Các chương trình kinh tế lượng có thể tính toán cho chúng ta các giá trị PACF, các giá trị tới hạn hay trị thống kê t.
7.6.4. Mô hình AR, MA và ARMA
Xét quá trình ngẫu nhiên có tính dừng với dữ liệu chuỗi thời gian Yt có E[Yt] = và sai số ngẫu nhiên t có trung bình bằng 0 và phương sai 2[nhiễu trắng].
Mô hình tự hồi quy [AR-Autoregressive Model]
Mô hình tự hồi quy bậc p được ký hiệu là AR[p] có dạng
Nhận dạng mô hình AR[p]: PACF có đỉnh đến độ trễ p và SAC suy giảm nhanh ngay sau độ trễ thứ nhất thì mô hình dự báo có dạng tự hồi quy bậc p.
Mô hình trung bình trượt[MA-Moving average Model]
Mô hình trung bình trượt bậc q được ký hiệu là MA[q] có dạng
với là hằng số, t là nhiễu trắng.
Nhận dạng mô hình MA[q]: SAC có đỉnh đến độ trễ q và SPAC suy giảm nhanh ngay sau độ trễ thứ nhất.
Mô hình kết hợp tự hồi quy kết hợp trung bình trượt[ARMA]
Mô hình có tự hồi quy bậc p và trung bình trượt bậc q được ký hiệu là ARMA[p,q] có dạng
Nhận dạng mô hình ARMA[p,q]: cả SAC và SPAC đều có giá trị giảm dần theo hàm mũ. Nhận dạng đúng p và q đòi hỏi phải có nhiều kinh nghiệm. Trong thực hành người ta chọn một vài mô hình ARMA và lựa chọn mô hình tốt nhất.
7.6.5. Mô hình ARIMA và SARIMA
ARIMA
Đa số dữ liệu kinh tế theo chuỗi thời gian không có tính dừng[stationary] mà có tính kết hợp[integrated]. Để nhận được dữ liệu có tính dừng, chúng ta phải sử dụng sai phân của dữ liệu.
Các bậc sai phân
Sai phân bậc 0 là I[0]: chính là dữ liệu gốc Yt.
Sai phân bậc 1 là I[1]: wt = Yt – Yt-1.
Sai phân bậc 2 là I[2]: w2t = wt – wt-1…
Sai phân bậc d ký hiệu I[d].
Mô hình ARMA[p,q] áp dụng cho I[d] được gọi là mô hình ARIMA[p,d,q].
SARIMA
Trong mô hình ARIMA nếu chúng ta tính toán sai phân bậc nhất với độ trễ lớn hơn 1 để khử tính mùa vụ như sau wt = Yt – Yt-s, với s là số kỳ giữa các mùa thì mô hình được gọi là SARIMA hay ARIMA có tính mùa vụ.
7.6.6. Phương pháp luận Box-Jenkins
Phương pháp luận Box-Jenkins cho mô hình ARIMA có bốn bước như sau:
Bước 1: Xác lập mô hình ARIMA[p,d,q]
- Dùng các đồ thị để xác định bậc sai phân cần thiết để đồ thị có tính dừng. Giả sử dữ liệu dùng ở I[d]. Dùng đồ thị SAC và SPAC của I[d] để xác định p và q.
- Triển khai dạng của mô hình.
Bước 2: Tính toán các tham số của mô hình.
Trong một số dạng ARIMA đơn giản chúng ta có thể dùng phương pháp bình phương tối thiểu. Một số dạng ARIMA phức tạp đòi hỏi phải sử dụng các ước lượng phi tuyến. Chúng ta không phải lo lắng về việc ước lượng tham số vì các phần mềm kinh tế lượng sẽ tính giúp chúng ta. Quay lại bước 1 xây dựng mô hình với cặp [p,q] khác dường như cũng phù hợp. Giả sử chúng ta ước lượng được m mô hình ARIMA.
Bước 3: Kiểm tra chẩn đoán
So sánh các mô hình ARIMA đã ước lượng với các mô hình truyền thống[tuyến tính, đường xu hướng, san bằng số mũ,…] và giữa các mô hình ARIMA với nhau để chọn mô hình tốt nhất.
Bước 4: Dự báo
Trong đa số trường hợp mô hình ARIMA cho kết quả dự báo ngắn hạn đáng tin cậy nhất trong các phương pháp dự báo. Tuy nhiên giới hạn của của ARIMA là:
- Số quan sát cần cho dự báo phải lớn.
- Chỉ dùng để dự báo ngắn hạn
- Không thể đưa các yếu tố thay đổi có ảnh hưởng đến biến số cần dự báo của thời kỳ cần dự báo vào mô hình.
Xây dựng mô hình ARIMA theo phương pháp luận Box-Jenkins có tính chất nghệ thuật hơn là khoa học, hơn nữa kỹ thuật và khối lượng tính toán khá lớn nên đòi hỏi phải có phần mềm kinh tế lượng chuyên dùng.