GLM python của mô hình nhà nước

Một thẻ đã tồn tại với tên chi nhánh được cung cấp. Nhiều lệnh Git chấp nhận cả tên thẻ và tên nhánh, vì vậy việc tạo nhánh này có thể gây ra hành vi không mong muốn. Bạn có chắc chắn muốn tạo nhánh này không?

Phần này cố gắng trình bày một dạng tổng quát của các mô hình dự đoán tuyến tính. Cuốn sổ tay này mang tính chất lý thuyết hơn với một vài ví dụ có thể thực hiện được. Ý tưởng về một mô hình tổng quát là, nó là tiền đề cơ bản để xây dựng một mô hình dự đoán. Mô hình dự đoán có thể được sử dụng để hồi quy [dự đoán một biến liên tục] hoặc phân loại [dự đoán một biến phân loại]. Trong mô-đun hiện tại này [Mô-đun hồi quy], chúng ta sẽ tìm hiểu về các mô hình hồi quy khác nhau, đây là các phiên bản chuyên biệt của GLM được sử dụng để hồi quy. Trong mô-đun tiếp theo [Mô-đun phân loại], chúng ta sẽ tìm hiểu về một số phiên bản chuyên biệt của GLM sẽ được sử dụng để dự đoán các biến phân loại theo phân loại

Mô hình Tuyến tính và Dạng Tổng quát¶

Mô hình hồi quy tuyến tính đơn giản có một số giả định

  • Nó giả định rằng tác động của các yếu tố dự đoán $x$ lên biến dự đoán $y$ có bản chất tuyến tính
  • Nó giả định rằng các giá trị của $y$, các giá trị đã cho của $x$, được phân phối chuẩn. Trong. e. $y$ được phân phối bình thường

Hai giả định này hạn chế rất nhiều kết quả mà chúng ta có thể thấy từ một mô hình dự đoán. Dạng tổng quát của mô hình hồi quy tuyến tính đạt được tính linh hoạt nhất định trong mô hình hóa bằng cách không giả định hai điều trên - không giả định rằng $y$ có phân phối chuẩn và không giả định rằng ảnh hưởng của $x$ lên $y $ chỉ có thể được mô hình hóa bằng một hàm tuyến tính

Dạng tổng quát của mô hình hồi quy nói rằng có 3 thành phần cơ bản của mô hình dự đoán

  • Thành phần ngẫu nhiên. Điều này chỉ định phân phối của $y. x$. [Đọc như y cho x]
  • Thành phần hệ thống. Điều này chỉ định sự kết hợp của các yếu tố dự đoán $x$ trong mô hình. Trong. e. nói $\beta_{0} + \beta_{1}x + \beta_{2}x^2 +. \beta_{n}x^n$
  • chức năng liên kết. Chức năng liên kết các thành phần ngẫu nhiên và hệ thống, i. e. biến phản hồi $y$ liên quan như thế nào đến sự kết hợp của các yếu tố dự đoán $x$

Hàm liên kết có thể là tuyến tính, logarit, hàm mũ, nhật ký bổ sung, v.v. tùy thuộc vào phân phối giả định cho $y$ có thể là Bình thường, Gamma, Nghịch đảo bình thường, Poisson, v.v.

Dạng tổng quát vs Bình phương nhỏ nhất thông thường¶

Hồi quy tuyến tính đơn giản có thể nói là một trường hợp đặc biệt của Mô hình hồi quy tổng quát. Chúng tôi sử dụng phương pháp Bình phương nhỏ nhất thông thường [OLS] để tính toán đường phù hợp nhất trong mô hình hồi quy tuyến tính đơn giản. Chúng tôi làm như vậy bằng cách giảm thiểu 'hàm chi phí'. 'Hàm chi phí' xác định khoảng cách thực tế so với các giá trị dự đoán/ước tính

Trong phương pháp ước tính bình phương nhỏ nhất thông thường, chúng tôi tính toán giá trị của các tham số bằng cách tính cực tiểu toàn cầu/cục bộ. Nếu biến $y$ không có phân phối chuẩn, chúng ta sẽ phải chuyển đổi biến phản hồi $y$ để áp dụng ước lượng OLS. Tuy nhiên, phép biến đổi sẽ làm thay đổi ý nghĩa của biến và do đó ảnh hưởng đến việc diễn giải.

Trong GLM, chúng ta không phải chuyển đổi biến $y$ và việc lựa chọn hàm liên kết tách biệt với việc lựa chọn thành phần ngẫu nhiên $y$, do đó chúng ta có thể linh hoạt hơn trong việc lập mô hình. Chúng tôi có thể chọn từ một loạt các chức năng liên kết và cũng có nhiều chức năng chính quy hóa [các chức năng xử phạt ảnh hưởng đến các tham số, bạn sẽ tìm hiểu về những chức năng này trong các Mô hình chính quy hóa]

Ngoài ra, GLM được mô hình hóa bằng cách sử dụng các kỹ thuật ước tính khả năng tối đa. Các tham số $\beta_{0}, \beta_{1}, \beta_{2},. \beta_{n}$ được ước tính bằng cách sử dụng các kỹ thuật MLE như Fisher Scoring hoặc Newton-Raphson, được lặp đi lặp lại trong tính toán

Triển khai GLM trong Python¶

Có nhiều cách để lập mô hình GLM cho một dữ liệu nhất định trong Python

Trong phần này, chúng tôi sẽ triển khai GLM từ thư viện mô hình thống kê trên tập dữ liệu mà chúng tôi đã sử dụng trước đó trong phần hồi quy đa thức

''' rf = df. sao chép[] rf = rf. dropna[]. sort_values[by=[var,outcome]]. reset_index[] print['Cảnh báo. các quan sát bị thiếu của các biến mô hình bị loại bỏ'] print[int[len[df]-len[rf]],' các quan sát bị loại bỏ khỏi đánh giá dạng chức năng'] if f_form == Không có. f_form = var khác. vượt qua nếu link_dist == Không có. liên kết_dist = sm. của gia đình. gia đình. nhị thức [cf. của gia đình. liên kết. logit] khác. vượt qua nếu [hoàng thổ == True]. [điểm == Đúng]. nếu result_type=='nhị phân'. djm = smf. glm[kết quả+'~ C['+var+']',rf,family=link_dist]. vừa [] djf = djm. get_prediction[rf]. tóm tắt_frame[] dj = pd. concat[[rf,djf],axis=1] dj. sort_values[var,inplace=True] nếu điểm == True. pf = dj. groupby[by=[var,'mean']]. đếm[]. reset_index[] nếu mất == True. yl = lowess[list[dj['mean']],list[dj[var]],frac=loess_value] lowess_x = list[zip[*yl]][0] lowess_y = list[zip[*yl]][ 1] Elif result_type=='liên tục'. nếu điểm == True. pf = rf. groupby[by=[var,outcome]]. đếm[]. reset_index[] nếu mất == True. yl = lowess[list[rf[outcome]],list[rf[var]],frac=loess_value] lowess_x = list[zip[*yl]][0] lowess_y = list[zip[*yl]][1]

GLM trong các mô hình nhà nước là gì?

Các mô hình tuyến tính tổng quát hiện hỗ trợ ước tính bằng cách sử dụng các họ hàm mũ một tham số. Xem Tham chiếu mô-đun để biết các lệnh và đối số

GLM trong Python là gì?

Hàm glm[] phù hợp với các mô hình tuyến tính tổng quát, một loại mô hình bao gồm hồi quy logistic . Cú pháp của hàm glm[] tương tự như cú pháp của lm[] , ngoại trừ việc chúng ta phải truyền vào đối số family=sm.

GLM có tốt hơn lm không?

Sự khác biệt duy nhất giữa hai hàm này là hàm glm[] bao gồm một đối số họ . Khi bạn sử dụng lm[] hoặc glm[] để khớp với mô hình hồi quy tuyến tính, kết quả sẽ giống hệt nhau.

Các mô hình trạng thái có tốt hơn Sklearn không?

Cả hai thư viện đều có công dụng riêng. Trước khi chọn cái này hơn cái kia, tốt nhất nên xem xét mục đích của mô hình. Một mô hình được thiết kế để dự đoán phù hợp nhất khi sử dụng scikit-learning, trong khi mô hình thống kê được sử dụng tốt nhất cho các mô hình giải thích .

Chủ Đề