Đây là bài viết hướng dẫn đơn giản về cách chúng ta có thể đọc các tệp văn bản bằng thư viện Pandas trong Python. Các tệp văn bản ngày nay giúp lưu trữ nhiều thông tin thô. Chúng là một trong những cách đơn giản nhất để truy cập một phần thông tin cụ thể. Họ có thể giữ những điều sau đây
- Mã số
- Thông tin thô
- liên kết
- Tin nhắn và nhiều hơn nữa
Vì vậy, để quản lý nó, có một số công cụ và kỹ thuật mà qua đó chúng ta có thể dễ dàng trích xuất những gì chúng ta cần. Một trong số đó là thông qua lập trình máy tính. Hãy để chúng tôi xem chi tiết hơn về cách thức hoạt động của nó
Các bước để đọc tệp văn bản bằng Python Pandas
Một tệp trong máy tính có thể lưu trữ nhiều tệp và phần mở rộng khác nhau. Nói chung, các tệp là để lưu trữ thông tin về mọi thứ. Vì vậy, không có định nghĩa cụ thể cho điều đó. Tuy nhiên, phần mở rộng của họ nói rất nhiều về họ. Mỗi tiện ích mở rộng xác định một bit dữ liệu khác nhau được lưu trữ trong đó
Ví dụ: một tệp của ngôn ngữ lập trình cụ thể như python có phần mở rộng là. py. Các tiện ích mở rộng chỉ đơn giản là để quảng cáo loại tệp đó là gì và nó đại diện cho dữ liệu gì
Tạo một mẫu. tệp txt trong cửa sổ
Quá trình rất đơn giản để tạo một tệp văn bản trong windows. Làm theo các bước dưới đây
- Chuyển đến thanh tìm kiếm của windows và nhập Notepad. bấm vào đó
- Nó mở ra với một trang trống. Ở đó chúng tôi có thể đặt bất kỳ văn bản hoặc thông tin nào chúng tôi muốn và thay đổi nó bất cứ lúc nào
- Sau khi hoàn thành công việc, nhấn Ctrl + S hoặc vào tùy chọn Tệp ở góc trên cùng bên trái và nhấp vào Lưu để lưu tệp ở vị trí bạn muốn
Đọc tệp văn bản trong Pandas
Pandas là một thư viện trong Python bao gồm một số dữ liệu cần thiết. Nó chủ yếu được sử dụng trong các lĩnh vực Khoa học dữ liệu và Học máy. Đây là một dự án nguồn mở giống như Python, nơi mọi người có thể đóng góp cho sự phát triển
Truy cập liên kết này để biết thêm thông tin. Sau đây là công dụng của nó
- Phân tích dữ liệu
- tiền xử lý dữ liệu
- Làm sạch dữ liệu
- sắp xếp dữ liệu
- Truy cập thông tin từ các tệp được nhúng trên các liên kết bên ngoài
- Trích xuất dữ liệu từ các định dạng tệp JSON, SQL, Excel
Hoàn toàn được tích hợp sẵn Python và các thư viện hỗ trợ khác, nó cung cấp không gian làm việc tốt nhất để quản lý hàng tấn dữ liệu
Phương thức tệp văn bản trong Python Pandas
Trong Khoa học dữ liệu, lượng thông tin chúng tôi tìm nạp rất lớn nên tất cả được chứa trong một tệp có tên là tập dữ liệu. Tập dữ liệu này có thể gồm hàng nghìn hàng và cột với nhiều đầu vào khác nhau. Pandas cung cấp nhiều chức năng và phương pháp hơn để xử lý dữ liệu của chúng tôi
- read_excel[]. đọc một tập tin excel
- read_csv[]. đọc một tệp giá trị được phân tách bằng dấu phẩy
- thông tin[]. hiển thị thông tin về tất cả các cột
- isna[]. kiểm tra các giá trị còn thiếu
- Tổng[]. tổng các giá trị của bất kỳ cột nào thuộc các loại dữ liệu khác nhau
- dropna[]. thả một cột
- cái đầu[]. trả về 5 hàng đầu tiên của tập dữ liệu. Nhưng, có thể trả về theo số khi ta cho vào trong dấu ngoặc
Đây là những chức năng chính. Để biết thêm về thư viện trước, hãy truy cập liên kết này để biết hướng dẫn bắt đầu
Cài đặt gấu trúc
Lệnh Python PIP cụ thể là 'trình cài đặt gói cho python' giúp dễ dàng cài đặt Pandas trong bất kỳ hệ thống nào. Nhưng, có một số hạn chế đối với điều này. Nhưng trước tiên, hãy vào dấu nhắc lệnh và gõ vào
python --version
Đảm bảo bạn có Python 3. 6 hoặc muộn hơn
Tiếp theo gõ lệnh pip install pandas như hình bên dưới
Cài đặt Pandas bằng Anaconda
Ghi chú. Đối với điều này, bạn cần cài đặt Anaconda trên hệ thống của mình
Pandas được cài đặt sẵn Anaconda nhưng để tham khảo, chúng ta sẽ biết cách thêm thư viện mới thông qua dấu nhắc conda
Vì vậy, hãy mở dấu nhắc Anaconda và gõ lệnh này
conda install pandas
Vì vậy, chúng tôi xác nhận rằng thư viện này đã có trong môi trường conda
nhập gấu trúc
Vì vậy, sau khi cài đặt và nhận được một số thông tin sơ bộ, đã đến lúc làm quen với nó. Điều đầu tiên cần làm là nhập thư viện và kiểm tra xem nó đã được cài đặt chính xác hay chưa
import pandas
Nếu nó không báo lỗi sau khi cài đặt thì nó đã sẵn sàng để sử dụng
Đọc một tập tin trong pandas
Hướng dẫn rất đơn giản về đọc một tập tin. Chúng tôi sẽ đọc ba loại tệp trong này
- Tệp giá trị được phân tách bằng dấu phẩy
- tập tin excel
- tệp văn bản
Có các chức năng đặc biệt để đọc từng tệp. Như đã thảo luận trước đó, nó có read_excel[] và read_csv[]. môi trường – ‘Jupyter Notebook’
Đọc một tệp excel bằng Python
Tệp mẫu được sử dụng – “đào tạo. xlsx”
import pandas as pd data = pd.read_excel['train.xlsx'] data.head[]
đầu ra
Đọc một tệp văn bản trong Python
Tệp mẫu được sử dụng – “titanic. txt”
import pandas as pd data_1 = read_csv['titanic.txt'] data_1.head[]
đầu ra
Phần kết luận
Đến đây, chúng tôi kết thúc chủ đề này. Vì vậy, theo cách này, chúng tôi có thể đọc một số tệp thông qua gấu trúc và làm cho hành trình học máy và khoa học dữ liệu của chúng tôi suôn sẻ hơn. Tôi nghĩ rằng đây là cách phù hợp nhất để bắt đầu với gấu trúc và định cấu hình nó trong hệ thống