Hồi quy có nghĩa là gì trong python?

Hồi quy được định nghĩa là một phương pháp thống kê giúp chúng ta phân tích và hiểu mối quan hệ giữa hai hoặc nhiều biến quan tâm. Quy trình được điều chỉnh để thực hiện phân tích hồi quy giúp hiểu được yếu tố nào là quan trọng, yếu tố nào có thể bỏ qua và chúng ảnh hưởng lẫn nhau như thế nào

Trong hồi quy, chúng ta thường có một biến phụ thuộc và một hoặc nhiều biến độc lập. Ở đây chúng tôi cố gắng “hồi quy” giá trị của biến phụ thuộc “Y” với sự trợ giúp của các biến độc lập. Nói cách khác, chúng tôi đang cố gắng hiểu giá trị của 'Y' thay đổi như thế nào. r. t thay đổi trong 'X'

Để phân tích hồi quy là một phương pháp thành công, chúng ta hiểu các thuật ngữ sau

  • Biến phụ thuộc. Đây là biến mà chúng tôi đang cố gắng hiểu hoặc dự báo
  • Biến độc lập. Đây là những yếu tố ảnh hưởng đến biến phân tích hoặc biến mục tiêu và cung cấp cho chúng ta thông tin về mối quan hệ của các biến với biến mục tiêu

Phân tích hồi quy là gì?

Phân tích hồi quy được sử dụng để dự đoán và dự báo. Điều này có sự trùng lặp đáng kể với lĩnh vực học máy. Phương pháp thống kê này được sử dụng trong các ngành công nghiệp khác nhau như,

  • Ngành tài chính- Hiểu xu hướng giá cổ phiếu, dự báo giá và đánh giá rủi ro trong lĩnh vực bảo hiểm
  • Tiếp thị- Hiểu hiệu quả của các chiến dịch thị trường và dự đoán giá cả và doanh số bán hàng của sản phẩm.  
  • Sản xuất- Đánh giá mối quan hệ của các biến xác định để xác định một động cơ tốt hơn để cung cấp hiệu suất tốt hơn
  • Y học- Dự báo sự kết hợp khác nhau của các loại thuốc để điều chế thuốc gốc cho các bệnh
Regression Meaning In Simple terms
Let’s understand the concept of regression with this example.
You are conducting a case study on a set of college students to understand if students with high CGPA also get a high GRE score. 
Your first task would be to collect the details of all the students.
We go ahead and collect the GRE scores and CGPAs of the students of this college. All the GRE scores are listed in one column and the CGPAs are listed in another column.
Now, if we are supposed to understand the relationship between these two variables, we can draw a scatter plot.
Here, we see that there’s a linear relationship between CGPA and GRE score which means that as the CGPA increases, the GRE score also increases. This would also mean that a student who has a high CGPA, would also have a higher probability of getting a high GRE score.
But what if I ask, “The CGPA of the student is 8.32, what will be the GRE score of the student?“
This is where Regression comes in. If we are supposed to find the relationship between two variables, we can apply regression analysis.

Nếu bạn muốn tìm hiểu mọi thứ cần biết về Phân tích hồi quy Excel, thì bạn có thể tham gia một khóa học trực tuyến. Bạn sẽ học cách sử dụng phân tích hồi quy để dự đoán xu hướng trong tương lai, hiểu dữ liệu và đưa ra quyết định tốt hơn

Các thuật ngữ được sử dụng trong Phân tích hồi quy

ngoại lệ

Giả sử có một quan sát trong tập dữ liệu có giá trị rất cao hoặc rất thấp so với các quan sát khác trong dữ liệu, i. e. nó không thuộc về dân số, một quan sát như vậy được gọi là một ngoại lệ. Nói một cách đơn giản, đó là một giá trị cực đoan. Một ngoại lệ là một vấn đề vì nhiều lần nó cản trở kết quả chúng ta nhận được

đa cộng tuyến

Khi các biến độc lập có tương quan cao với nhau thì các biến được gọi là đa cộng tuyến. Nhiều loại kỹ thuật hồi quy giả định đa cộng tuyến không nên có trong tập dữ liệu. Đó là bởi vì nó gây ra vấn đề trong việc xếp hạng các biến dựa trên tầm quan trọng của nó, hoặc nó gây khó khăn cho việc lựa chọn biến độc lập quan trọng nhất

phương sai thay đổi

Khi sự thay đổi giữa biến mục tiêu và biến độc lập không phải là hằng số, nó được gọi là phương sai thay đổi. Ví dụ-Khi thu nhập của một người tăng lên, sự thay đổi của tiêu dùng thực phẩm sẽ tăng lên. Một người nghèo hơn sẽ chi tiêu một số tiền khá ổn định bằng cách luôn ăn thức ăn rẻ tiền; . Những người có thu nhập cao hơn cho thấy mức tiêu thụ thực phẩm thay đổi nhiều hơn

Underfit và Overfit

Khi chúng ta sử dụng các biến giải thích không cần thiết, nó có thể dẫn đến trang bị quá mức. Overfitting có nghĩa là thuật toán của chúng ta hoạt động tốt trên tập huấn luyện nhưng không thể hoạt động tốt hơn trên tập kiểm tra. Nó còn được gọi là một vấn đề của phương sai cao

Khi thuật toán của chúng tôi hoạt động kém đến mức nó không thể phù hợp ngay cả với tập huấn luyện, thì nó được cho là không phù hợp với dữ liệu. Nó còn được gọi là vấn đề thiên vị cao

Các loại hồi quy

Đối với các loại phân tích Hồi quy khác nhau, có những giả định cần được xem xét cùng với việc hiểu bản chất của các biến và phân phối của chúng

  • hồi quy tuyến tính
  • hồi quy đa thức
  • Hồi quy logistic

hồi quy tuyến tính

Đơn giản nhất trong tất cả các loại hồi quy là Hồi quy tuyến tính cố gắng thiết lập mối quan hệ giữa các biến Độc lập và Phụ thuộc. Biến phụ thuộc được xem xét ở đây luôn là biến liên tục

Hồi quy tuyến tính là gì?

Hồi quy tuyến tính là một mô hình dự đoán được sử dụng để tìm mối quan hệ tuyến tính giữa một biến phụ thuộc và một hoặc nhiều biến độc lập

Ở đây, 'Y' là biến phụ thuộc của chúng tôi, là một số liên tục và chúng tôi đang cố gắng hiểu 'Y' thay đổi như thế nào với 'X'

Vì vậy, nếu chúng ta phải trả lời câu hỏi trên “Điểm GRE của học sinh sẽ là bao nhiêu, nếu CCGPA của anh ta là 8. 32?”

Ví dụ về các biến độc lập và phụ thuộc

• Ở đây x là Lượng mưa và y là Năng suất cây trồng

• Thứ hai, x là Chi phí quảng cáo và y là Doanh thu

• Cuối cùng, x là doanh thu bán hàng và y là GDP

Nếu mối quan hệ với biến phụ thuộc ở dạng các biến đơn lẻ, thì nó được gọi là Hồi quy tuyến tính đơn giản

Hồi quy tuyến tính cơ bản

X —–> Y

Nếu mối quan hệ giữa các biến độc lập và biến phụ thuộc là bội số thì được gọi là hồi quy tuyến tính bội

Nhiều hồi quy tuyến tính

Mô hình hồi quy tuyến tính đơn giản

Vì mô hình được sử dụng để dự đoán biến phụ thuộc, mối quan hệ giữa các biến có thể được viết ở định dạng dưới đây

Yi = β0 + β1 Xi +εi
Where,
Yi – Dependent variable
β0 -- Intercept
β1 – Slope Coefficient
Xi – Independent Variable
εi – Random Error Term

Yếu tố chính được coi là một phần của Phân tích hồi quy là hiểu được phương sai giữa các biến. Để hiểu phương sai, chúng ta cần hiểu các biện pháp thay đổi

SST = total sum of squares [Total Variation]
Measures the variation of the Y i values around their mean Y
SSR = regression sum of squares [Explained Variation]
Variation attributable to the relationship between X and Y
SSE = error sum of squares [Unexplained Variation]
Variation in Y attributable to factors other than X

Với tất cả các yếu tố này đã được xem xét, trước khi bắt đầu đánh giá xem mô hình có hoạt động tốt hay không, chúng ta cần xem xét các giả định của Hồi quy tuyến tính

giả định

Vì Hồi quy tuyến tính đánh giá xem một hay nhiều biến dự đoán có giải thích được biến phụ thuộc hay không và do đó nó có 5 giả định

  • Mối quan hệ tuyến tính
  • bình thường
  • Không hoặc ít đa cộng tuyến
  • Không có Autocorrelation trong các lỗi
  • phương sai đồng nhất

Với những giả định này được xem xét trong khi xây dựng mô hình, chúng ta có thể xây dựng mô hình và thực hiện dự đoán của mình cho biến phụ thuộc. Đối với bất kỳ loại mô hình học máy nào, chúng ta cần hiểu liệu các biến được xem xét cho mô hình có chính xác và đã được phân tích bằng một số liệu hay chưa. Trong trường hợp Phân tích hồi quy, thước đo thống kê đánh giá mô hình được gọi là hệ số xác định được biểu diễn là r2

Hệ số xác định là phần của tổng độ biến thiên của biến phụ thuộc được giải thích bởi độ biến thiên của biến độc lập. Giá trị r2 cao hơn tốt hơn mô hình có các biến độc lập được xem xét cho mô hình

r2 = SSR
SST
Note: The value of r2 is the range of 0≤ r2≤1

Hồi quy logistic

Hồi quy logistic còn được gọi là phân loại Logit, Maximum-Entropy là một phương pháp học có giám sát để phân loại. Nó thiết lập mối quan hệ giữa các biến lớp phụ thuộc và các biến độc lập bằng cách sử dụng hồi quy

Biến phụ thuộc là biến phân loại i. e. nó chỉ có thể nhận các giá trị tích phân đại diện cho các lớp khác nhau. Xác suất mô tả các kết quả có thể xảy ra của một điểm truy vấn được mô hình hóa bằng hàm logistic. Mô hình này thuộc họ các phân loại phân biệt. Họ dựa vào các thuộc tính phân biệt tốt các lớp. Mô hình này được sử dụng khi chúng ta có 2 lớp biến phụ thuộc. Khi có nhiều hơn 2 lớp, thì chúng ta có một phương pháp hồi quy khác giúp chúng ta dự đoán biến mục tiêu tốt hơn

Có hai loại thuật toán hồi quy logistic

  1. Hồi quy logistic nhị phân khi biến phụ thuộc là nhị phân nghiêm ngặt
  2. Hồi quy logistic đa thức là khi biến phụ thuộc có nhiều danh mục

Có hai loại hồi quy logistic đa thức

  1. Hồi quy logistic đa thức có thứ tự [biến phụ thuộc có các giá trị được sắp xếp]
  2. Hồi quy logistic đa thức danh nghĩa [biến phụ thuộc có danh mục   không có thứ tự]

Phương pháp quy trình

Hồi quy logistic xem xét các loại biến phụ thuộc khác nhau và gán xác suất cho sự kiện xảy ra cho mỗi hàng thông tin. Những xác suất này được tìm thấy bằng cách gán các trọng số khác nhau cho từng biến độc lập bằng cách hiểu mối quan hệ giữa các biến. Nếu mối tương quan giữa các biến cao, thì trọng số dương được gán và trong trường hợp mối quan hệ nghịch đảo, trọng số âm được gán

Vì mô hình chủ yếu được sử dụng để phân loại các lớp biến mục tiêu là 0 hoặc 1, do đó, hàm Sigmoid có được bằng cách triển khai hàm log-normal trên các xác suất được tính toán trên các biến độc lập này

Hàm Sigmoid

P[y= 1] = Sigmoid[Z] = 1/[1 + e -z]
P[y= 0] = 1 –P[y =1] = 1 –[1/[1 + e -z]] = e –z/ [1 + e -z]
y = 1 if P[y=1|X] > .5, else y = 0
where the default probability cut off is taken as 0.5.

Phương pháp này còn được gọi là tỷ lệ Odds Log

giả định

  • Biến phụ thuộc là biến phân loại. Phân đôi cho hồi quy logistic nhị phân và đa nhãn để phân loại nhiều lớp
  • Thuộc tính và log tỷ lệ cược i. e. log[p / 1-p] phải liên quan tuyến tính với các biến độc lập
  • Các thuộc tính độc lập với nhau [thấp hoặc không có đa cộng tuyến]
  • Trong hồi quy logistic nhị phân, lớp quan tâm được mã hóa bằng 1 và lớp khác 0
  • Trong phân loại nhiều lớp sử dụng hồi quy logistic đa thức hoặc sơ đồ OVR, lớp quan tâm được mã hóa 1 và phần còn lại 0 [điều này được thực hiện bởi thuật toán]
Note: The assumptions of Linear Regression such as homoscedasticity, normal distribution of error terms, a linear relationship between the dependent and independent variables are not required here.

Một số ví dụ mà mô hình này có thể được sử dụng để dự đoán

  • dự đoán thời tiết. Bạn chỉ có thể có một số loại thời tiết nhất định. Bão, nắng, nhiều mây, mưa và một vài điều nữa
  • chẩn đoán y tế. Dựa vào các triệu chứng dự đoán bệnh nhân đang mắc phải
  • Mặc định tín dụng. Nếu một ứng cử viên cụ thể phải vay một khoản tùy thuộc vào việc kiểm tra danh tính, tóm tắt tài khoản, bất kỳ tài sản nào anh ta nắm giữ, bất kỳ khoản vay nào trước đó, v.v.
  • Phân tích nhân sự. Các công ty IT tuyển dụng số lượng lớn, nhưng một trong những vấn đề họ gặp phải là sau khi nhận lời mời làm việc, nhiều ứng viên không tham gia. Vì vậy, điều này dẫn đến chi phí vượt mức vì họ phải lặp lại toàn bộ quy trình một lần nữa. Bây giờ khi bạn nhận được đơn đăng ký, bạn có thể thực sự dự đoán liệu ứng viên đó có khả năng tham gia tổ chức hay không [Kết quả nhị phân – Tham gia / Không tham gia]
  • bầu cử. Giả sử rằng chúng ta quan tâm đến các yếu tố ảnh hưởng đến việc một ứng cử viên chính trị có thắng cử hay không. Biến kết quả [phản hồi] là nhị phân [0/1]; . Các biến dự đoán được quan tâm là số tiền chi cho chiến dịch và lượng thời gian dành cho chiến dịch tiêu cực

Phân tích phân biệt tuyến tính [LDA]

Phân tích phân biệt được sử dụng để phân loại các quan sát thành một lớp hoặc danh mục dựa trên các biến dự đoán [độc lập] của dữ liệu

Phân tích phân biệt tạo ra một mô hình để dự đoán các quan sát trong tương lai nơi các lớp được biết đến.  

LDA đến để giải cứu chúng tôi trong các tình huống khi hồi quy logistic không ổn định khi

  1. Các lớp được phân tách tốt
  2. Dữ liệu nhỏ
  3. Khi chúng ta có nhiều hơn 2 lớp

Quy trình làm việc của mô hình LDA

Mô hình LDA sử dụng Định lý Bayes để ước tính xác suất. Họ đưa ra dự đoán dựa trên xác suất mà một tập dữ liệu đầu vào mới thuộc về mỗi lớp. Lớp có xác suất cao nhất được coi là lớp đầu ra và sau đó LDA đưa ra dự đoán

Dự đoán được thực hiện đơn giản bằng cách sử dụng định lý Bayes để ước tính xác suất của lớp đầu ra cho đầu vào. Họ cũng sử dụng xác suất của từng lớp và cả dữ liệu thuộc về lớp đó

P[Y=x|X=x] = [[Plk* fk[x]]] / [sum[Pll* fl[x]]]
Where
k=output class
Plk= Nk/n or base probability of each class observed in the training data. It is also called prior probability in Bayes’ theorem.
fk[x] = estimated probability of x belonging to class k.

Mô hình tuyến tính chính quy

Phương pháp này được sử dụng để giải quyết vấn đề khớp quá mức của mô hình phát sinh do mô hình hoạt động kém trên dữ liệu thử nghiệm. Mô hình này giúp chúng ta giải quyết vấn đề bằng cách thêm một số hạng sai số vào hàm mục tiêu để giảm độ chệch trong mô hình

Chính quy hóa thường hữu ích trong các tình huống sau

  • Một số lượng lớn các biến
  • Tỷ lệ số lượng quan sát so với số lượng biến thấp
  • Đa cộng tuyến cao

Chức năng mất L1 hoặc Chính quy hóa L1

Trong chính quy hóa L1, chúng tôi cố gắng giảm thiểu hàm mục tiêu bằng cách thêm một số hạng phạt vào tổng các giá trị tuyệt đối của các hệ số. Đây còn được gọi là phương pháp độ lệch tuyệt đối nhỏ nhất. Hồi quy Lasso [Toán tử bộ chọn co rút tuyệt đối ít nhất] sử dụng quy trình chuẩn hóa L1. Nhận giá trị tuyệt đối nhỏ nhất của các hệ số

Hàm chi phí cho hồi quy lasso

Min[||Y - X[theta]||^2 + λ||theta||]
λ is the hypermeter, whose value is equal to the alpha in the Lasso function
It is generally used when we have more number of features because it automatically does feature selection.

Chức năng mất L2 hoặc Chính quy hóa L2

Trong chính quy hóa L2, chúng tôi cố gắng giảm thiểu hàm mục tiêu bằng cách thêm một số hạng phạt vào tổng bình phương các hệ số. Hồi quy sườn hoặc hồi quy co ngót sử dụng chính quy hóa L2. Mô hình này giả định bình phương của các giá trị tuyệt đối của hệ số

Hàm chi phí cho hồi quy sườn

________số 8

Lambda là thời hạn hình phạt. λ đưa ra ở đây thực sự được biểu thị bằng một tham số alpha trong hàm sườn. Vì vậy, bằng cách thay đổi các giá trị của alpha, về cơ bản, chúng tôi đang kiểm soát thời hạn phạt. Giá trị của alpha càng cao, hình phạt càng lớn và do đó độ lớn của các hệ số càng giảm

Nó thu nhỏ các tham số, do đó nó chủ yếu được sử dụng để ngăn chặn đa cộng tuyến

Nó làm giảm độ phức tạp của mô hình bằng cách rút gọn hệ số

Giá trị của alpha, là siêu tham số của Ridge, có nghĩa là chúng không được mô hình học tự động thay vào đó chúng phải được đặt thủ công.  

Sự kết hợp của cả hai phương pháp hồi quy Lasso và Ridge tạo ra một phương pháp gọi là Hồi quy mạng đàn hồi trong đó hàm chi phí là

Min[||Y-Xtheta||^2 + Lambda1||theta|| + lambda2||theta||^2]

Những sai lầm nào mọi người mắc phải khi làm việc với phân tích hồi quy?

Khi làm việc với phân tích hồi quy, điều quan trọng là phải hiểu đúng tuyên bố vấn đề. Nếu tuyên bố vấn đề nói về dự báo, có lẽ chúng ta nên sử dụng hồi quy tuyến tính. Nếu báo cáo vấn đề nói về phân loại nhị phân, chúng ta nên sử dụng hồi quy logistic. Tương tự, tùy thuộc vào tuyên bố vấn đề, chúng tôi cần đánh giá tất cả các mô hình hồi quy của mình

Để tìm hiểu thêm về các khái niệm như vậy, hãy tham gia các Khóa học Chứng chỉ Khoa học Dữ liệu và Phân tích Kinh doanh và nâng cao kỹ năng ngay hôm nay. Học với sự trợ giúp của các buổi cố vấn trực tuyến và hỗ trợ nghề nghiệp. Nếu bạn có bất kỳ câu hỏi nào, vui lòng để lại trong phần bình luận bên dưới và chúng tôi sẽ liên hệ lại với bạn sớm nhất

Hồi quy Python là gì?

Thuật ngữ hồi quy được sử dụng khi bạn cố gắng tìm mối quan hệ giữa các biến . Trong Machine Learning và trong mô hình thống kê, mối quan hệ đó được sử dụng để dự đoán kết quả của các sự kiện trong tương lai.

Hồi quy cho chúng ta biết điều gì?

Phân tích hồi quy là phương pháp đáng tin cậy để xác định biến nào có tác động đến chủ đề quan tâm . Quá trình thực hiện hồi quy cho phép bạn tự tin xác định yếu tố nào quan trọng nhất, yếu tố nào có thể bỏ qua và các yếu tố này ảnh hưởng lẫn nhau như thế nào.

Hồi quy là gì và tại sao nó được sử dụng?

Hồi quy là một phương pháp thống kê được sử dụng trong lĩnh vực tài chính, đầu tư và các ngành khác nhằm xác định cường độ và đặc điểm của mối quan hệ giữa một biến phụ thuộc [thường được ký hiệu là Y] và một loạt các biến khác [được gọi là biến độc lập]

Một mô hình hồi quy trong thuật ngữ đơn giản là gì?

Mô hình hồi quy cung cấp hàm mô tả mối quan hệ giữa một hoặc nhiều biến độc lập và biến phản hồi, biến phụ thuộc hoặc mục tiêu . Ví dụ, mối quan hệ giữa chiều cao và cân nặng có thể được mô tả bằng mô hình hồi quy tuyến tính.

Chủ Đề