Hướng dẫn how do you read data in python? - làm thế nào để bạn đọc dữ liệu trong python?

Trong khi làm việc với nhập dữ liệu và thu thập dữ liệu cho các mô hình đào tạo, chúng tôi bắt gặp các tệp .data..data files.

Đây là một phần mở rộng tệp được sử dụng bởi một vài phần mềm để lưu trữ dữ liệu, một ví dụ như vậy sẽ là Phân tích Studio, chuyên về phân tích thống kê và khai thác dữ liệu.Analysis Studio, specializing in statistical analysis and data mining.

Làm việc với tiện ích mở rộng tệp .data khá đơn giản và ít nhiều xác định cách sắp xếp dữ liệu và sau đó sử dụng các lệnh Python để truy cập tệp cho phù hợp..data file extension is pretty simple and is more or less identifying the way the data is sorted, and then using Python commands to access the file accordingly.

Tệp .Data là gì?

Các tệp .data được phát triển như một phương tiện để lưu trữ dữ liệu. files were developed as a means to store data.

Rất nhiều thời gian, dữ liệu ở định dạng này được đặt ở định dạng giá trị phân tách bằng dấu phẩy hoặc định dạng giá trị phân tách tab.comma separated value format or a tab separated value format.

Cùng với biến thể đó, tệp cũng có thể ở định dạng tệp văn bản hoặc trong nhị phân. Trong trường hợp đó, chúng tôi sẽ cần phải truy cập nó theo một phương pháp khác.

Chúng tôi sẽ làm việc với các tệp .csv cho bài viết này, nhưng trước tiên chúng ta hãy xác định xem nội dung của tệp có trong văn bản hay trong nhị phân hay không..csv files for this article, but let us first identify whether the content of the file is in text, or in binary.

Xác định dữ liệu bên trong các tệp .data

Các tệp .data có hai biến thể khác nhau và bản thân tệp ở dạng văn bản hoặc trong nhị phân. files come in two different variations, and the file itself is either in the form of text or in binary.

Để tìm ra cái nào mà nó thuộc về, chúng tôi sẽ cần phải tải nó lên và kiểm tra nó cho chính mình.

Bắt đầu nào!

1. Kiểm tra: Tệp văn bản

Các tệp .data chủ yếu có thể tồn tại dưới dạng tệp văn bản và truy cập các tệp trong Python khá đơn giản.

Được xây dựng trước như một tính năng được bao gồm trong Python, chúng tôi không cần nhập bất kỳ mô-đun nào để làm việc với xử lý tệp.

Điều đó đang được nói, cách để mở, đọc và ghi vào một tệp trong Python là như vậy:

# reading from the file
file = open("biscuits.data", "r")
file.read()
file.close()

# writing to the file
file = open("biscuits.data", "w")
file.write("Chocolate Chip")
file.close()

2. Kiểm tra: Tệp nhị phân

Các tệp .data cũng có thể ở dạng tệp nhị phân. Điều này có nghĩa là cách chúng ta phải truy cập tệp cũng cần thay đổi.

Chúng tôi sẽ làm việc với chế độ đọc nhị phân và ghi vào tệp, trong trường hợp này, chế độ là RB hoặc đọc nhị phân.rb, or read binary.

# reading from the file
file = open("biscuits.data", "rb")
file.read()
file.close()

# writing to the file
file = open("biscuits.data", "wb")
file.write("Oreos")
file.close()

Các hoạt động tệp tương đối dễ hiểu trong Python và đáng để xem xét nếu bạn muốn xem các chế độ và phương thức truy cập tệp khác nhau để truy cập chúng.

Một trong những phương pháp này nên hoạt động và sẽ cung cấp cho bạn một phương thức để truy xuất thông tin liên quan đến nội dung được lưu trữ bên trong tệp .data..data file.

Bây giờ chúng ta đã biết định dạng tệp nào có mặt, chúng ta có thể làm việc với gấu trúc để tạo khung dữ liệu cho tệp CSV.csv file.

3. Sử dụng gấu trúc để đọc các tệp .data

Một phương thức đơn giản để trích xuất thông tin từ các tệp này sau khi kiểm tra loại nội dung được cung cấp sẽ chỉ đơn giản là sử dụng hàm read_csv () do gandas cung cấp.

import pandas as pd
# reading csv files
data =  pd.read_csv('file.data', sep=",")
print(data)

# reading tsv files
data = pd.read_csv('otherfile.data', sep="\t")
print(data)

Phương pháp này cũng tự động chuyển đổi dữ liệu thành DataFrame.

Dưới đây được sử dụng là một tệp CSV mẫu, được định dạng lại thành tệp .data và được truy cập bằng mã tương tự như đã nêu ở trên..data file and accessed using the same code as given above.

   Series reference                                        Description   Period  Previously published  Revised
0    PPIQ.SQU900000                 PPI output index - All industries   2020.06                  1183     1184
1    PPIQ.SQU900001         PPI output index - All industries excl OOD  2020.06                  1180     1181
2    PPIQ.SQUC76745  PPI published output commodity - Transport sup...  2020.06                  1400     1603
3    PPIQ.SQUCC3100  PPI output index level 3 - Wood product manufa...  2020.06                  1169     1170
4    PPIQ.SQUCC3110  PPI output index level 4 - Wood product manufa...  2020.06                  1169     1170
..              ...                                                ...      ...                   ...      ...
73   PPIQ.SQNMN2100  PPI input index level 3 - Administrative and s...  2020.06                  1194     1195
74   PPIQ.SQNRS211X     PPI input index level 4 - Repair & maintenance  2020.06                  1126     1127
75       FPIQ.SEC14  Farm expenses price index - Dairy farms - Freight  2020.06                  1102     1120
76       FPIQ.SEC99  Farm expenses price index - Dairy farms - All ...  2020.06                  1067     1068
77       FPIQ.SEH14    Farm expenses price index - All farms - Freight  2020.06                  1102     1110

[78 rows x 5 columns]

Như bạn có thể thấy, nó thực sự đã cho chúng ta một bản dữ liệu như một đầu ra.

Các loại định dạng khác để lưu trữ dữ liệu là gì?

Đôi khi, phương pháp mặc định để lưu trữ dữ liệu chỉ không cắt nó. Vì vậy, các lựa chọn thay thế để làm việc với lưu trữ tệp là gì?

1. Tệp JSON

Là một phương pháp để lưu trữ thông tin, JSON là một cấu trúc dữ liệu tuyệt vời để làm việc và sự hỗ trợ to lớn cho mô -đun JSON trong Python có cảm giác tích hợp dường như hoàn hảo.JSON is a wonderful data structure to work with, and the immense support for the JSON module in Python has the integration feel seemingly flawless.

Tuy nhiên, để làm việc với nó trong Python, bạn sẽ cần nhập mô -đun json trong tập lệnh.

Bây giờ, sau khi xây dựng cấu trúc tương thích JSON, phương pháp lưu trữ nó là một hoạt động tệp đơn giản với json dumps.JSON compatible structure, the method to store it is a simple file operation with a json dumps.

# dumping the structure in the form of a JSON object in the file.
with open("file.json", "w") as f:
    json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}], f)
# you can also sort the keys, and pretty print the input using this module
with open("file.json", "w") as f:
    json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}], f, indent=4,  sort_keys=True)

Lưu ý rằng chúng tôi đang bỏ vào tệp bằng cách sử dụng biến f.f.

Hàm tương đương để truy xuất thông tin từ tệp JSON được gọi là

# reading from the file
file = open("biscuits.data", "rb")
file.read()
file.close()

# writing to the file
file = open("biscuits.data", "wb")
file.write("Oreos")
file.close()
0.JSON file is called
# reading from the file
file = open("biscuits.data", "rb")
file.read()
file.close()

# writing to the file
file = open("biscuits.data", "wb")
file.write("Oreos")
file.close()
0.

with open('file.json') as f:
    data = json.load(f)

Điều này cung cấp cho chúng tôi cấu trúc và thông tin của đối tượng JSON bên trong tệp.JSON object inside the file.

2. Dưa chua

Thông thường, khi bạn lưu trữ thông tin, thông tin được lưu trữ ở định dạng chuỗi thô, khiến đối tượng mất các thuộc tính của nó và chúng tôi sẽ cần tái tạo lại đối tượng từ một chuỗi qua Python.

Mô-đun Pickle được sử dụng để chống lại vấn đề này và được thực hiện để tuần tự hóa và khử serial hóa các cấu trúc đối tượng Python, sao cho nó có thể được lưu trữ trong một tệp.

Điều này có nghĩa là bạn có thể lưu trữ một danh sách thông qua Pickle và khi nó được tải lên bởi mô -đun Pickle vào lần tới, bạn sẽ không mất bất kỳ thuộc tính nào của đối tượng Danh sách.

Để sử dụng nó, chúng tôi sẽ cần nhập mô -đun

# reading from the file
file = open("biscuits.data", "rb")
file.read()
file.close()

# writing to the file
file = open("biscuits.data", "wb")
file.write("Oreos")
file.close()
1, không cần phải cài đặt nó vì nó là một phần của thư viện Python tiêu chuẩn.

Hãy để chúng tôi tạo một từ điển để làm việc với tất cả các hoạt động tệp của chúng tôi cho đến bây giờ.

apple = {"name": "Apple", "price": 40}
banana = {"name": "Banana", "price": 60}
orange = {"name": "Orange", "price": 30}

fruitShop = {}
fruitShop["apple"] = apple
fruitShop["banana"] = banana
fruitShop["orange"] = orange

Làm việc với mô -đun Pickle cũng đơn giản như làm việc với JSON.

file = open('fruitPickles', 'ab') 
# the 'ab' mode allows for us to append to the file  
# in a binary format

# the dump method appends to the file
# in a secure serialized format.
pickle.dump(fruitShop, file)                      
file.close()

file = open('fruitPickles', 'rb')
# now, we can read from the file through the loads function.
fruitShop = pickle.load(file)
file.close()

Sự kết luận

Bây giờ bạn biết các tệp .data là gì và cách làm việc với chúng. Cùng với điều này, bạn cũng biết các tùy chọn khác có sẵn để kiểm tra, để lưu trữ và truy xuất dữ liệu..data files are, and how to work with them. Along with this, you also know the other options available to test out, in order to store and retrieve data.

Nhìn vào các bài viết khác của chúng tôi để biết hướng dẫn chuyên sâu về từng mô-đun này-xử lý tệp, dưa chua và JSON.

Người giới thiệu

  • Stackoverflow phản hồi cho phần mở rộng tệp .data
  • Tài liệu xử lý tệp chính thức
  • Tài liệu mô -đun JSON chính thức

Làm thế nào để bạn đọc một tệp dữ liệu?

Các bước cơ bản trong việc đọc dữ liệu từ một tệp là:..
Cho chương trình tìm dữ liệu ở đâu ..
Mở đường dẫn đến dữ liệu ..
Thiết lập các biến chương trình để truy cập dữ liệu ..
Đọc dữ liệu ..
Đóng đường dẫn dữ liệu ..

Phương pháp nào được sử dụng để đọc dữ liệu từ tệp trong Python?

Phương thức python file read () Phương thức read () trả về số byte được chỉ định từ tệp.read() Method The read() method returns the specified number of bytes from the file.

Read () trong Python là gì?

Phương thức đọc () trong python được sử dụng để đọc nhiều nhất n byte từ tệp được liên kết với bộ mô tả tệp đã cho.Nếu kết thúc của tệp đã đạt được trong khi đọc các byte từ bộ mô tả tệp đã cho, HĐH.Phương thức đọc () sẽ trả về một đối tượng Byte trống cho tất cả các byte còn lại để đọc.used to read at most n bytes from the file associated with the given file descriptor. If the end of the file has been reached while reading bytes from the given file descriptor, os. read() method will return an empty bytes object for all bytes left to be read.

Làm thế nào để bạn đọc và tải dữ liệu trong Python?

5 cách khác nhau để tải dữ liệu trong Python..
Hàm thủ công ..
Chức năng LoadTXT ..
Chức năng GenFromTxt ..
hàm read_csv ..
Pickle..