Cách đọc tệp csv lớn bằng Python
Chọn một trang web để nhận nội dung đã dịch nếu có và xem các sự kiện và ưu đãi tại địa phương. Dựa trên vị trí của bạn, chúng tôi khuyên bạn nên chọn. Show Bạn cũng có thể chọn một trang web từ danh sách sau Làm thế nào để có được hiệu suất trang web tốt nhấtChọn trang Trung Quốc (bằng tiếng Trung hoặc tiếng Anh) để có hiệu suất trang tốt nhất. Các trang web quốc gia khác của MathWorks không được tối ưu hóa cho các lượt truy cập từ vị trí của bạn Nếu bạn có tệp CSV rất lớn khiến bạn gặp sự cố khi cập nhật. Bạn có thể chia Dữ liệu bằng Python thành nhiều Sổ làm việc hơn. Nó nhanh hơn Macro VBA và thực hiện quy trình với ít dòng mã hơn. Sử dụng lệnh Chunk từ Thư viện Pandas Thật dễ dàng để tải xuống Python nếu bạn chưa cài đặt nó, hãy truy cập https. //www. con trăn. org/ và sau đó cài đặt Thư viện Pandas bằng Cửa sổ Dấu nhắc Lệnh, Nhập. pip cài đặt gấu trúc. Hay nhất là sử dụng mã Python miễn phí Sao chép Mã bên dưới và đổi tên Sổ làm việc CSV thành tên sổ làm việc của bạn, sau đó chạy mã từ IDLE. Chỉ cần nhập IDLE từ trường tìm kiếm bên dưới ở góc dưới cùng bên trái của Windows. Thay đổi kích thước Chunk thành số hàng bạn muốn có trên mỗi tệp TLDR. So sánh hiệu suất của 4 cách khác nhau để đọc tệp CSV lớn bằng Python. Tìm phương pháp phù hợp nhất với trường hợp sử dụng của bạn. Dấu. tất cả các phương pháp đều sử dụng trình tạo của Python bằng cách nào đó Tại sao lại so sánh các cách đọc tệp CSV khác nhau?Đọc CSV là trường hợp sử dụng rất phổ biến khi Python tiếp tục phát triển trong cộng đồng phân tích dữ liệu. Dữ liệu cũng đang phát triển và thường xảy ra trường hợp tất cả dữ liệu mà mọi người đang cố gắng xử lý sẽ không vừa với bộ nhớ Không phải lúc nào cũng cần tải tất cả dữ liệu vào bộ nhớ. Chúng ta có thể sử dụng các trình tạo trong Python để lặp qua các tệp lớn theo khối hoặc theo từng hàng Cuộc thí nghiệmChúng tôi sẽ tạo tệp CSV có 10 triệu hàng, rộng 15 cột, chứa các số nguyên lớn ngẫu nhiên. Tệp này đối với tôi là khoảng 1. 3GB, không quá lớn, nhưng đủ lớn cho các thử nghiệm của chúng tôi Mỗi cách tiếp cận sẽ đọc toàn bộ CSV và tính tổng của cột ở chỉ mục 2 Máy của tôi là Máy tính để bàn Windows 10 với RAM 16 GB, sử dụng AMD Ryzen 5 với 6 lõi (12 logic) Đây là tập lệnh tôi đã sử dụng để tạo 0
Sau đó, tôi đã sử dụng mô-đun 1 để tính thời gian thực thi toàn bộ tập lệnh cho từng phương pháp đọc tệp CSV lớnBốn cách để đọc tệp CSV lớn bằng PythonTrăn tinhCách tiếp cận này không sử dụng thư viện bổ sung. Dưới mui xe, 2 đang sử dụng trình tạo để đọc từng dòng mộtThời gian. 12. 13 giây
Trình đọc CSVỞ đây, chúng tôi sử dụng mô-đun 3 phổ biến để phân tích cú pháp tệp đang mở và sử dụng trình tạo của nó để lặp lại. Tôi không hoàn toàn chắc chắn tại sao hiệu suất lại bị ảnh hưởng nhưng đáng để tìm hiểu xem mô-đun 3 có thể bổ sung chi phí nào nếu bạn yêu cầu hiệu suất caoThời gian. 26. 32 giây
Pandas với chunksizeỞ đây chúng tôi sử dụng 0 để tạo nên một tập lệnh rất ngắn. Nếu bạn đã có 0 trong dự án của mình, bạn có thể sử dụng phương pháp này để đơn giản hóaChúng tôi chỉ định một 2 để 3 không đọc toàn bộ CSV vào bộ nhớ. Mỗi đoạn là một khung dữ liệuThời gian. số 8. 81 giây
Đa xử lý sau khi chia nhỏ tệpĐây là phương pháp phức tạp nhất nhưng có hiệu suất tốt nhất, giả sử trường hợp sử dụng xử lý CSV của bạn có thể cho phép chia nhỏ tệp Bạn có thể chia tệp trực tiếp trước khi sử dụng tập lệnh Python của mình nhưng tôi bao gồm lệnh gọi 4 từ Python để thực hiện việc chia. Một bước khác để thêm sẽ là xóa các tệp đã chia sau khi thực tếGiải pháp này có khả năng mở rộng nhất và tuân theo kiểu tiếp cận thu nhỏ bản đồ Thời gian. 3. 25 giây (Người chiến thắng)
Sự kết luậnGiống như bất kỳ công cụ nào, thường không có một giải pháp nào luôn tốt nhất Nếu bạn muốn trăn thuần túy thì cách tiếp cận đầu tiên này là khả thi. Nếu bạn muốn sự đơn giản và đã sử dụng gấu trúc, hãy sử dụng phương pháp gấu trúc. Nếu bạn có tập dữ liệu thực sự lớn, hãy thử đa xử lý với giải pháp tách tệp Cách nhanh nhất để đọc tệp CSV bằng Python là gì?Được đo hoàn toàn bằng CPU, fastparquet cho đến nay là nhanh nhất. Việc nó có mang lại cho bạn sự cải thiện về thời gian đã trôi qua hay không sẽ phụ thuộc vào việc bạn có tính năng song song hiện có hay không, máy tính cụ thể của bạn, v.v. Và các tệp CSV khác nhau có lẽ sẽ có chi phí phân tích cú pháp khác nhau; .
Làm cách nào để đọc dữ liệu lớn trong Python?3 cách xử lý tập dữ liệu lớn trong Python. Là một nhà khoa học dữ liệu, tôi thấy mình ngày càng phải đối mặt với “dữ liệu lớn”. . Giảm mức sử dụng bộ nhớ bằng cách tối ưu hóa các loại dữ liệu. . Chia dữ liệu thành nhiều khối. . Tận dụng đánh giá lười biếng |