Điều kiện tiên quyết. Hồi quy tuyến tính Hồi quy tuyến tính là một thuật toán học máy dựa trên học có giám sát. Nó thực hiện một nhiệm vụ hồi quy. Mô hình hồi quy một giá trị dự đoán mục tiêu dựa trên các biến độc lập. Nó chủ yếu được sử dụng để tìm ra mối quan hệ giữa các biến và dự báo. Các mô hình hồi quy khác nhau khác nhau dựa trên – loại mối quan hệ giữa các biến phụ thuộc và biến độc lập, chúng đang xem xét và số lượng biến độc lập đang được sử dụng. Bài viết này sẽ trình bày cách sử dụng các thư viện Python khác nhau để triển khai hồi quy tuyến tính trên một tập dữ liệu nhất định. Chúng tôi sẽ chứng minh một mô hình tuyến tính nhị phân vì điều này sẽ dễ hình dung hơn. Trong phần trình diễn này, mô hình sẽ sử dụng Gradient Descent để tìm hiểu. Bạn có thể tìm hiểu về nó ở đây.
Bước 1. Nhập tất cả các thư viện cần thiết
Python3
import
numpy as np
import
pandas as pd
import
seaborn as sns
import
matplotlib.pyplot as plt
from
import
0import
import
2
from
import
4import
import
6
from
import
8import
numpy as np
0
Bước 2. Đọc bộ dữ liệu Bạn có thể tải xuống bộ dữ liệu
Python3
numpy as np
1numpy as np
2 numpy as np
3____14numpy as np
5
numpy as np
6numpy as np
2 numpy as np
8numpy as np
9import
0import
1import
2
import
3
import
4
import
5numpy as np
2 import
7import
8import
0pandas as pd
0pandas as pd
1
pandas as pd
2
pandas as pd
3
đầu ra
Bước 3. Khám phá phân tán dữ liệu
Python3
pandas as pd
4
pandas as pd
5numpy as np
2_______37pandas as pd
8numpy as np
2import
0import
1numpy as np
2 import
3numpy as np
2 import
5import
6numpy as np
2 import
8numpy as np
5
đầu ra.
Bước 4. Làm sạch dữ liệu
Python3
seaborn as sns
0
seaborn as sns
1numpy as np
2____53____54numpy as np
2 seaborn as sns
6numpy as np
5
Bước 5. Đào tạo mô hình của chúng tôi
Python3
seaborn as sns
8numpy as np
2 import
0_______08import
2import
3import
4import
0import
4numpy as np
5
import
8numpy as np
2 import
0pandas as pd
0import
2import
3import
4import
0import
4numpy as np
5
import
3
matplotlib.pyplot as plt
9
from
0
from
1
from
2numpy as np
2 seaborn as sns
6____15
import
3
from
7
from
8numpy as np
2 import
00numpy as np
2 import
02numpy as np
5
import
3
import
05
import
06numpy as np
2 import
08
import
3
import
10
import
11import
12
đầu ra
Bước 6. Khám phá kết quả của chúng tôi
Python3
import
13numpy as np
2 import
15
import
16numpy as np
2import
18numpy as np
5
import
20numpy as np
2____022numpy as np
5
import
3
import
25
import
26
đầu ra
Điểm chính xác thấp của mô hình của chúng tôi cho thấy rằng mô hình hồi quy của chúng tôi không phù hợp lắm với dữ liệu hiện có. Điều này cho thấy dữ liệu của chúng tôi không phù hợp cho hồi quy tuyến tính. Nhưng đôi khi, một tập dữ liệu có thể chấp nhận một biến hồi quy tuyến tính nếu chúng ta chỉ xem xét một phần của nó. Hãy để chúng tôi kiểm tra khả năng đó.
Bước 7. Làm việc với một tập dữ liệu nhỏ hơn
Python3
import
27numpy as np
2 import
29____030pandas as pd
1
import
32
import
33
pandas as pd
5numpy as np
2____37pandas as pd
8numpy as np
2import
0import
1numpy as np
2 import
42
import
43import
44numpy as np
2 import
5import
6numpy as np
2 import
8numpy as np
5
đầu ra
Chúng ta đã có thể thấy rằng 500 hàng đầu tiên tuân theo mô hình tuyến tính. Tiếp tục với các bước tương tự như trước.
Python3
import
51numpy as np
2____53____54numpy as np
2 seaborn as sns
6numpy as np
5
import
3
seaborn as sns
8numpy as np
2 import
61import
8import
2import
3import
4import
0import
4numpy as np
5
import
8numpy as np
2 import
61pandas as pd
0import
2import
3import
4import
0import
4numpy as np
5
import
3
import
80numpy as np
2 seaborn as sns
6____15
from
8numpy as np
2 import
00numpy as np
2 import
02numpy as np
5
import
3
import
06numpy as np
2 import
08
import
10
import
11import
12
đầu ra
Python3
import
13numpy as np
2 import
15
import
16numpy as np
2import
18numpy as np
5
import
20numpy as np
2____022numpy as np
5
import
3
import
25
đầu ra
Bước 8. Số liệu đánh giá hồi quy
Cuối cùng, chúng tôi kiểm tra hiệu suất của mô hình Hồi quy tuyến tính với sự trợ giúp của các số liệu đánh giá. Đối với các thuật toán Hồi quy, chúng tôi sử dụng rộng rãi các chỉ số mean_absolute_error và mean_squared_error để kiểm tra hiệu suất của mô hình.
Python3
from
numpy as np
11import
numpy as np
13
import
3
numpy as np
15numpy as np
2 numpy as np
17numpy as np
2numpy as np
19numpy as np
2numpy as np
21
numpy as np
22
numpy as np
23numpy as np
2 numpy as np
25numpy as np
2numpy as np
19numpy as np
2numpy as np
21numpy as np
30
numpy as np
31numpy as np
2 numpy as np
25numpy as np
2numpy as np
19numpy as np
2numpy as np
37numpy as np
2numpy as np
39numpy as np
5