Làm cách nào để nhập dữ liệu url vào python?

Dung lượng lưu trữ trên ổ cứng của tôi rất quý giá và tôi không muốn tải xuống một loạt dữ liệu khi tôi sắp xử lý chúng thành thứ gì đó có thể quản lý được

Đôi khi chúng tôi có thể dán một URL vào

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
7 hoặc
1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
8 và nó sẽ sẵn sàng đọc dữ liệu. Ví dụ: xarray bao gồm hỗ trợ cho OPeNDAP để truy cập một số, nhưng không phải tất cả, bộ dữ liệu qua HTTP

Bài đăng này sẽ mô tả một giải pháp mà bạn có thể sử dụng khi mọi thứ không đồng bộ và việc dán trực tiếp URL vào xarray không thành công. Tôi sẽ phác thảo cách đọc dữ liệu từ máy chủ web trực tiếp vào Python, thậm chí từ tệp zip, mà không cần ghi bất kỳ thứ gì vào đĩa

ý tưởng cơ bản

Mục tiêu là truy cập dữ liệu qua HTTP hoặc FTP, sử dụng cấu trúc yêu cầu và phản hồi. Ví dụ: chúng tôi có thể yêu cầu nội dung của một URL và máy chủ [hy vọng] sẽ gửi lại cho chúng tôi dữ liệu dưới dạng phản hồi. Đây là cách cấu trúc này hoạt động trong gói

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
9 Python

  1. 1 [600, 11]
    2
    3
    4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
    5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
    6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
    7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
    8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
    9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
    10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
    0. đây là URL chúng tôi muốn truy cập
  2. 1 [600, 11]
    2
    3
    4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
    5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
    6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
    7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
    8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
    9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
    10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
    1. tạo một đối tượng Yêu cầu chỉ định URL chúng tôi muốn
  3. 1 [600, 11]
    2
    3
    4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
    5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
    6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
    7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
    8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
    9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
    10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
    2. trả về một đối tượng phản hồi từ máy chủ cho URL được yêu cầu
  4. 1 [600, 11]
    2
    3
    4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
    5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
    6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
    7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
    8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
    9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
    10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
    3. đối tượng phản hồi [
    1 [600, 11]
    2
    3
    4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
    5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
    6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
    7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
    8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
    9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
    10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
    4] giống như tệp, có nghĩa là chúng ta có thể đọc nó

Bây giờ, hãy áp dụng ý tưởng cơ bản này cho một số dữ liệu thực

Đọc dữ liệu từ một URL

Mã bên dưới truy cập vào một năm cụ thể của nhiệt độ không khí từ phân tích lại NCEP. Tôi luôn thích sử dụng trình quản lý bối cảnh khi mở một URL nên tôi không quên đóng nó lại

Dòng cuối cùng trên mã này trả về tập dữ liệu xarray với dữ liệu của chúng tôi. Tuy nhiên, đường dây đó hơi bận, hãy giải nén nó

  • 1 [600, 11]
    2
    3
    4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
    5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
    6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
    7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
    8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
    9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
    10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
    5. là dữ liệu được yêu cầu của chúng tôi. Tuy nhiên, nó tính bằng byte
  • 1 [600, 11]
    2
    3
    4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
    5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
    6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
    7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
    8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
    9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
    10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
    70. Giữ dữ liệu được yêu cầu của chúng tôi dưới dạng byte trong bộ đệm trong bộ nhớ
  • 1 [600, 11]
    2
    3
    4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
    5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
    6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
    7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
    8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
    9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
    10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
    71. mở tệp byte dưới dạng tập dữ liệu xarray. Tôi có thể làm điều này vì URL tôi đã yêu cầu là một tệp NetCDF

Điều đó thật tuyệt. Với nỗ lực tối thiểu, chúng tôi có thể đọc dữ liệu vào bộ nhớ mà không cần tải xuống

Ghi chú

Nếu bạn gặp lỗi "không thể mở NetCDF dưới dạng byte", thì bạn cần cài đặt h5netcdf

conda install -c conda-forge h5netcdf

Nếu dữ liệu được nén thì sao?

Không thành vấn đề, gói Python

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
72 có thể giải quyết vấn đề đó. Trong mã bên dưới, tôi đang yêu cầu tệp zip từ máy chủ. Sau đó, tôi sử dụng gói
1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
72 để liệt kê các tệp bên trong. Cụ thể, tôi sử dụng phương pháp
1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
74. Cuối cùng, tôi sử dụng xarray để đọc nội dung của một trong các tệp NetCDF chứa bên trong bộ dữ liệu

Lỗi HTTP 403. Cấm

Nếu bạn từng yêu cầu quyền truy cập và nhận được thông báo lỗi này, điều đó có nghĩa là máy chủ biết bạn đang cố truy cập nó từ một chương trình. Tuy nhiên, chúng ta thông minh hơn máy tính và có thể đánh lừa nó nghĩ rằng chúng ta là một trình duyệt web. Điều này có thể được thực hiện bằng cách đính kèm Tác nhân người dùng vào yêu cầu của chúng tôi để có vẻ như nó đến từ một trình duyệt web. Tương tự như vậy, điều này giống như việc gõ cửa và thông báo chúng ta là ai. Việc đính kèm một Tác nhân người dùng khác tương tự như việc mạo danh ai đó mà chúng tôi không phải là

Bạn lấy URL dữ liệu ở đâu?

Khi bạn tìm một tập dữ liệu trên web thường sẽ có một nút để tải xuống tập dữ liệu. Chúng tôi muốn biết URL liên kết đến dữ liệu đó. Trong hầu hết các trình duyệt, bạn có thể nhấp chuột phải vào liên kết tải xuống và “Sao chép địa chỉ liên kết. ” Đây là một ví dụ sử dụng trình duyệt Brave để lấy liên kết đến tập dữ liệu hải dương học

suy nghĩ cuối cùng

Cách tiếp cận này có thể hợp lý hóa các đường dẫn dữ liệu và làm cho mã của bạn dễ dàng sao chép bởi những người khác. Tuy nhiên, có một số nhược điểm. Chẳng hạn, bạn sẽ không thể truy cập dữ liệu nếu máy chủ ngừng hoạt động. Cách tiếp cận này có thể không hoạt động trong mọi trường hợp, chẳng hạn như nếu tập dữ liệu quá lớn để vừa với bộ nhớ. Tôi chưa gặp bất kỳ sự cố nào, nhưng tôi không chắc phương pháp này sẽ hoạt động tốt như thế nào đối với các tập dữ liệu lớn vẫn có thể vừa với bộ nhớ

Nói chung, tôi thấy đây là một cách rõ ràng để làm cho mã của tôi có thể được sao chép bởi các nhà nghiên cứu khác. Lợi ích là tôi không dựa vào chúng để tải xuống dữ liệu trước. Ít nhất đây là một thủ thuật khác để thêm vào hộp công cụ của bạn

Các nhà khoa học dữ liệu dự kiến ​​sẽ xây dựng các mô hình máy học hiệu suất cao, nhưng điểm khởi đầu là đưa dữ liệu vào môi trường Python. Chỉ sau khi nhập dữ liệu, nhà khoa học dữ liệu mới có thể dọn dẹp, sắp xếp, trực quan hóa và xây dựng các mô hình dự đoán trên đó

Trong hướng dẫn này, bạn sẽ học các kỹ thuật nhập dữ liệu vào Python. Chúng tôi sẽ bắt đầu với các tệp phẳng, bao gồm. văn bản và. csv, là định dạng đơn giản và phổ biến để lưu trữ dữ liệu

Tệp CSV

Một trong những loại dữ liệu phổ biến nhất là định dạng CSV, là từ viết tắt của các giá trị được phân tách bằng dấu phẩy. Cấu trúc chung của tệp CSV sử dụng hàng làm quan sát và cột làm thuộc tính

Dòng mã đầu tiên bên dưới nhập gói pandas bằng bí danh

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
1 . Dòng thứ hai ghi. csv và lưu trữ nó dưới dạng khung dữ liệu gấu trúc bằng cách sử dụng hàm pandas
1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
2
. Dòng thứ ba in hình dạng của dữ liệu và dòng thứ tư hiển thị năm quan sát đầu tiên.

1import pandas as pd
2data = pd.read_csv["data_desc.csv"]
3print[data.shape]
4data.head[5]

con trăn

đầu ra

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|

Tệp văn bản

Loại tệp phẳng phổ biến khác là tệp văn bản, cũng chứa dữ liệu văn bản, nhưng không nhất thiết phải ở định dạng bảng. Ví dụ của chúng tôi, chúng tôi sẽ làm việc với moby_dick. tập tin txt. Đó là một tệp văn bản chứa các câu mở đầu của Moby Dick, một trong những tiểu thuyết vĩ đại nhất của Mỹ, của Herman Melville. Cuốn tiểu thuyết được xuất bản vào năm 1851 với tên The Whale và một tháng sau tại thành phố New York với tên Moby Dick

Dòng mã đầu tiên bên dưới đọc tệp văn bản bằng hàm pandas

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
3 . Dòng thứ hai in một vài dòng đầu tiên của tệp.

1data3 = pd.read_table["moby_dick.txt"]
2print[data3]

con trăn

đầu ra

1CHAPTER 1. Loomings.
20   Call me Ishmael. Some years ago--never mind ho...
31   little or no money in my purse, and nothing pa...
42   shore, I thought I would sail about a little a...
53   the world. It is a way I have of driving off t...
64   the circulation. Whenever I find myself growin...
75   whenever it is a damp, drizzly November in my ...
86   myself involuntarily pausing before coffin war...
97   the rear of every funeral I meet; and especial...
108   such an upper hand of me, that it requires a s...
119   prevent me from deliberately stepping into the...
1210  knocking people's hats off--then, I account it...
1311  as soon as I can. This is my substitute for pi...
1412  philosophical flourish Cato throws himself upo...
1513  take to the ship. There is nothing surprising ...
1614  it, almost all men in their degree, some time ...
1715  nearly the same feelings towards the ocean wit...

dữ liệu excel

Dữ liệu Excel không cần giới thiệu và được cho là loại dữ liệu được sử dụng rộng rãi nhất trong thế giới kinh doanh. Dòng mã đầu tiên bên dưới nhập và lưu trữ tập dữ liệu dưới dạng pandas dataframe, sử dụng hàm pandas

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
4 . Dòng thứ hai in tên trang tính trong tệp.

1data2= pd.ExcelFile["data_excel.xlsx"]
2print[data2.sheet_names]

con trăn

đầu ra

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
0

Đầu ra cho thấy tệp Excel có ba trang tính. Nếu chúng tôi không chỉ định tên trang tính, nó sẽ lấy trang tính đầu tiên theo mặc định. Nếu chúng tôi chỉ muốn tải một trang tính cụ thể từ tệp Excel để phân tích, chúng tôi có thể thực hiện việc đó bằng cách sử dụng dòng mã đầu tiên bên dưới. Dòng thứ hai in năm hàng đầu tiên của dữ liệu. Cũng có thể tùy chỉnh quá trình nhập, ví dụ: bỏ qua một số hàng nhất định, chỉ nhập các cột đã chọn hoặc thay đổi tên biến

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
1

con trăn

đầu ra

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
2

Nhập dữ liệu từ URL

Thông thường dữ liệu có sẵn trên một trang web và có thể được tải xuống hệ thống cục bộ. Tuy nhiên, nhược điểm là phương pháp này không thể lặp lại cũng như không thể mở rộng. Trong những trường hợp như vậy, chúng tôi có thể tải dữ liệu trực tiếp từ URL của trang web [Bộ định vị tài nguyên chung] vào môi trường Python và thực hiện phân tích

Chúng tôi sẽ sử dụng thư viện urllib để thực hiện tác vụ này, vì gói này cung cấp giao diện để tìm nạp dữ liệu trên web. Hai dòng mã đầu tiên bên dưới nhập các thư viện cần thiết. Dòng thứ ba chỉ định URL của tệp mà chúng tôi muốn nhập vào Python. Dòng thứ tư sử dụng hàm

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
5 để lưu tệp trong môi trường cục bộ. Ba dòng mã cuối cùng bên dưới đọc tệp vào khung dữ liệu và in hình dạng cũng như một vài quan sát đầu tiên của tập dữ liệu.

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
4

con trăn

đầu ra

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
5

Cơ sở dữ liệu SQL

Cơ sở dữ liệu quan hệ là nguồn lưu trữ dữ liệu nổi bật cho nhiều tổ chức và điều cực kỳ quan trọng là phải biết cách nhập dữ liệu từ cơ sở dữ liệu đó. Ngôn ngữ truy vấn có cấu trúc [hoặc SQL] là cơ sở dữ liệu được sử dụng rộng rãi nhất và chúng tôi có thể nhập dữ liệu từ các bảng được lưu trữ trong SQL Server bằng cách tạo kết nối. Bước đầu tiên là nhập các gói và chức năng cần thiết. Gói pyodbc được sử dụng trong hình minh họa bên dưới. Bước tiếp theo là thiết lập kết nối với cơ sở dữ liệu mà bạn sẽ cần có thông tin chi tiết về máy chủ, người dùng và cơ sở dữ liệu để thiết lập kết nối. Sau khi kết nối được thiết lập, bạn có thể chạy truy vấn SQL để trích xuất thông tin liên quan và lưu trữ thông tin đó trong khung dữ liệu để phân tích thêm. Một minh họa được hiển thị dưới đây

1 [600, 11]
2
3
4|   	| Marital_status 	| Dependents 	| Is_graduate 	| Income 	| Loan_amount 	| Term_months 	| Credit_score 	| approval_status 	| Age 	| Sex 	| Investment 	|
5|---	|----------------	|------------	|-------------	|--------	|-------------	|-------------	|--------------	|-----------------	|-----	|-----	|------------	|
6| 0 	| Yes            	| 2          	| Yes         	| 306800 	| 43500       	| 204         	| Satisfactory 	| Yes             	| 76  	| M   	| 199420     	|
7| 1 	| Yes            	| 3          	| Yes         	| 702100 	| 104000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 456365     	|
8| 2 	| No             	| 0          	| Yes         	| 558800 	| 66500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 363220     	|
9| 3 	| Yes            	| 2          	| Yes         	| 534500 	| 64500       	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 347425     	|
10| 4 	| Yes            	| 2          	| Yes         	| 468000 	| 135000      	| 384         	| Satisfactory 	| Yes             	| 75  	| M   	| 304200     	|
0

con trăn

Sự kết luận

Trong hướng dẫn này, bạn đã học các kỹ thuật nhập các loại dữ liệu khác nhau vào Python. Kiến thức về mô hình dự đoán là quan trọng, nhưng điều quan trọng không kém là biết cách nhập các tệp dữ liệu như tệp CSV, văn bản, tệp Excel từ máy cục bộ vào môi trường Python. Bạn cũng đã học cách nhập trực tiếp dữ liệu từ trang web vào môi trường làm việc của mình và quy trình làm việc cơ bản để nhập dữ liệu từ cơ sở dữ liệu SQL

Chủ Đề