Làm cách nào để nhập dữ liệu url vào python?
Dung lượng lưu trữ trên ổ cứng của tôi rất quý giá và tôi không muốn tải xuống một loạt dữ liệu khi tôi sắp xử lý chúng thành thứ gì đó có thể quản lý được Đôi khi chúng tôi có thể dán một URL vào 7 hoặc 8 và nó sẽ sẵn sàng đọc dữ liệu. Ví dụ: xarray bao gồm hỗ trợ cho OPeNDAP để truy cập một số, nhưng không phải tất cả, bộ dữ liệu qua HTTPBài đăng này sẽ mô tả một giải pháp mà bạn có thể sử dụng khi mọi thứ không đồng bộ và việc dán trực tiếp URL vào xarray không thành công. Tôi sẽ phác thảo cách đọc dữ liệu từ máy chủ web trực tiếp vào Python, thậm chí từ tệp zip, mà không cần ghi bất kỳ thứ gì vào đĩa ý tưởng cơ bản Mục tiêu là truy cập dữ liệu qua HTTP hoặc FTP, sử dụng cấu trúc yêu cầu và phản hồi. Ví dụ: chúng tôi có thể yêu cầu nội dung của một URL và máy chủ (hy vọng) sẽ gửi lại cho chúng tôi dữ liệu dưới dạng phản hồi. Đây là cách cấu trúc này hoạt động trong gói 9 Python
Bây giờ, hãy áp dụng ý tưởng cơ bản này cho một số dữ liệu thực Đọc dữ liệu từ một URL Mã bên dưới truy cập vào một năm cụ thể của nhiệt độ không khí từ phân tích lại NCEP. Tôi luôn thích sử dụng trình quản lý bối cảnh khi mở một URL nên tôi không quên đóng nó lại Dòng cuối cùng trên mã này trả về tập dữ liệu xarray với dữ liệu của chúng tôi. Tuy nhiên, đường dây đó hơi bận, hãy giải nén nó
Điều đó thật tuyệt. Với nỗ lực tối thiểu, chúng tôi có thể đọc dữ liệu vào bộ nhớ mà không cần tải xuống Ghi chúNếu bạn gặp lỗi "không thể mở NetCDF dưới dạng byte", thì bạn cần cài đặt h5netcdf conda install -c conda-forge h5netcdf Nếu dữ liệu được nén thì sao? Không thành vấn đề, gói Python 72 có thể giải quyết vấn đề đó. Trong mã bên dưới, tôi đang yêu cầu tệp zip từ máy chủ. Sau đó, tôi sử dụng gói 72 để liệt kê các tệp bên trong. Cụ thể, tôi sử dụng phương pháp 74. Cuối cùng, tôi sử dụng xarray để đọc nội dung của một trong các tệp NetCDF chứa bên trong bộ dữ liệuLỗi HTTP 403. CấmNếu bạn từng yêu cầu quyền truy cập và nhận được thông báo lỗi này, điều đó có nghĩa là máy chủ biết bạn đang cố truy cập nó từ một chương trình. Tuy nhiên, chúng ta thông minh hơn máy tính và có thể đánh lừa nó nghĩ rằng chúng ta là một trình duyệt web. Điều này có thể được thực hiện bằng cách đính kèm Tác nhân người dùng vào yêu cầu của chúng tôi để có vẻ như nó đến từ một trình duyệt web. Tương tự như vậy, điều này giống như việc gõ cửa và thông báo chúng ta là ai. Việc đính kèm một Tác nhân người dùng khác tương tự như việc mạo danh ai đó mà chúng tôi không phải là Bạn lấy URL dữ liệu ở đâu? Khi bạn tìm một tập dữ liệu trên web thường sẽ có một nút để tải xuống tập dữ liệu. Chúng tôi muốn biết URL liên kết đến dữ liệu đó. Trong hầu hết các trình duyệt, bạn có thể nhấp chuột phải vào liên kết tải xuống và “Sao chép địa chỉ liên kết. ” Đây là một ví dụ sử dụng trình duyệt Brave để lấy liên kết đến tập dữ liệu hải dương học suy nghĩ cuối cùng Cách tiếp cận này có thể hợp lý hóa các đường dẫn dữ liệu và làm cho mã của bạn dễ dàng sao chép bởi những người khác. Tuy nhiên, có một số nhược điểm. Chẳng hạn, bạn sẽ không thể truy cập dữ liệu nếu máy chủ ngừng hoạt động. Cách tiếp cận này có thể không hoạt động trong mọi trường hợp, chẳng hạn như nếu tập dữ liệu quá lớn để vừa với bộ nhớ. Tôi chưa gặp bất kỳ sự cố nào, nhưng tôi không chắc phương pháp này sẽ hoạt động tốt như thế nào đối với các tập dữ liệu lớn vẫn có thể vừa với bộ nhớ Nói chung, tôi thấy đây là một cách rõ ràng để làm cho mã của tôi có thể được sao chép bởi các nhà nghiên cứu khác. Lợi ích là tôi không dựa vào chúng để tải xuống dữ liệu trước. Ít nhất đây là một thủ thuật khác để thêm vào hộp công cụ của bạn Các nhà khoa học dữ liệu dự kiến sẽ xây dựng các mô hình máy học hiệu suất cao, nhưng điểm khởi đầu là đưa dữ liệu vào môi trường Python. Chỉ sau khi nhập dữ liệu, nhà khoa học dữ liệu mới có thể dọn dẹp, sắp xếp, trực quan hóa và xây dựng các mô hình dự đoán trên đó Trong hướng dẫn này, bạn sẽ học các kỹ thuật nhập dữ liệu vào Python. Chúng tôi sẽ bắt đầu với các tệp phẳng, bao gồm. văn bản và. csv, là định dạng đơn giản và phổ biến để lưu trữ dữ liệu Tệp CSVMột trong những loại dữ liệu phổ biến nhất là định dạng CSV, là từ viết tắt của các giá trị được phân tách bằng dấu phẩy. Cấu trúc chung của tệp CSV sử dụng hàng làm quan sát và cột làm thuộc tính Dòng mã đầu tiên bên dưới nhập gói pandas bằng bí danh
con trăn đầu ra
Tệp văn bảnLoại tệp phẳng phổ biến khác là tệp văn bản, cũng chứa dữ liệu văn bản, nhưng không nhất thiết phải ở định dạng bảng. Ví dụ của chúng tôi, chúng tôi sẽ làm việc với moby_dick. tập tin txt. Đó là một tệp văn bản chứa các câu mở đầu của Moby Dick, một trong những tiểu thuyết vĩ đại nhất của Mỹ, của Herman Melville. Cuốn tiểu thuyết được xuất bản vào năm 1851 với tên The Whale và một tháng sau tại thành phố New York với tên Moby Dick Dòng mã đầu tiên bên dưới đọc tệp văn bản bằng hàm pandas
con trăn đầu ra
dữ liệu excelDữ liệu Excel không cần giới thiệu và được cho là loại dữ liệu được sử dụng rộng rãi nhất trong thế giới kinh doanh. Dòng mã đầu tiên bên dưới nhập và lưu trữ tập dữ liệu dưới dạng pandas dataframe, sử dụng hàm pandas
con trăn đầu ra 0Đầu ra cho thấy tệp Excel có ba trang tính. Nếu chúng tôi không chỉ định tên trang tính, nó sẽ lấy trang tính đầu tiên theo mặc định. Nếu chúng tôi chỉ muốn tải một trang tính cụ thể từ tệp Excel để phân tích, chúng tôi có thể thực hiện việc đó bằng cách sử dụng dòng mã đầu tiên bên dưới. Dòng thứ hai in năm hàng đầu tiên của dữ liệu. Cũng có thể tùy chỉnh quá trình nhập, ví dụ: bỏ qua một số hàng nhất định, chỉ nhập các cột đã chọn hoặc thay đổi tên biến 1con trăn đầu ra 2Nhập dữ liệu từ URLThông thường dữ liệu có sẵn trên một trang web và có thể được tải xuống hệ thống cục bộ. Tuy nhiên, nhược điểm là phương pháp này không thể lặp lại cũng như không thể mở rộng. Trong những trường hợp như vậy, chúng tôi có thể tải dữ liệu trực tiếp từ URL của trang web (Bộ định vị tài nguyên chung) vào môi trường Python và thực hiện phân tích Chúng tôi sẽ sử dụng thư viện urllib để thực hiện tác vụ này, vì gói này cung cấp giao diện để tìm nạp dữ liệu trên web. Hai dòng mã đầu tiên bên dưới nhập các thư viện cần thiết. Dòng thứ ba chỉ định URL của tệp mà chúng tôi muốn nhập vào Python. Dòng thứ tư sử dụng hàm 4con trăn đầu ra 5Cơ sở dữ liệu SQLCơ sở dữ liệu quan hệ là nguồn lưu trữ dữ liệu nổi bật cho nhiều tổ chức và điều cực kỳ quan trọng là phải biết cách nhập dữ liệu từ cơ sở dữ liệu đó. Ngôn ngữ truy vấn có cấu trúc (hoặc SQL) là cơ sở dữ liệu được sử dụng rộng rãi nhất và chúng tôi có thể nhập dữ liệu từ các bảng được lưu trữ trong SQL Server bằng cách tạo kết nối. Bước đầu tiên là nhập các gói và chức năng cần thiết. Gói pyodbc được sử dụng trong hình minh họa bên dưới. Bước tiếp theo là thiết lập kết nối với cơ sở dữ liệu mà bạn sẽ cần có thông tin chi tiết về máy chủ, người dùng và cơ sở dữ liệu để thiết lập kết nối. Sau khi kết nối được thiết lập, bạn có thể chạy truy vấn SQL để trích xuất thông tin liên quan và lưu trữ thông tin đó trong khung dữ liệu để phân tích thêm. Một minh họa được hiển thị dưới đây 0con trăn Sự kết luậnTrong hướng dẫn này, bạn đã học các kỹ thuật nhập các loại dữ liệu khác nhau vào Python. Kiến thức về mô hình dự đoán là quan trọng, nhưng điều quan trọng không kém là biết cách nhập các tệp dữ liệu như tệp CSV, văn bản, tệp Excel từ máy cục bộ vào môi trường Python. Bạn cũng đã học cách nhập trực tiếp dữ liệu từ trang web vào môi trường làm việc của mình và quy trình làm việc cơ bản để nhập dữ liệu từ cơ sở dữ liệu SQL |