Hướng dẫn encoding in python file - mã hóa trong tệp python
Nếu bạn không hài lòng với các công cụ tự động, bạn có thể thử tất cả các codec và xem codec nào đúng theo cách thủ công. Show
Nội phân Chính showShow
Nội phân chính
Nội phân chính Kịch bản này tạo ra ít nhất 9409 dòng đầu ra. Vì vậy, nếu đầu ra không thể phù hợp với màn hình đầu cuối, hãy cố gắng ghi đầu ra vào tệp văn bản. This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Reading and Writing Files in Python Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem cùng với hướng dẫn bằng văn bản để hiểu sâu hơn về sự hiểu biết của bạn: Đọc và ghi các tập tin bằng Python Một trong những nhiệm vụ phổ biến nhất mà bạn có thể làm với Python là đọc và viết tệp. Cho dù nó viết vào một tệp văn bản đơn giản, đọc nhật ký máy chủ phức tạp hoặc thậm chí phân tích dữ liệu byte thô, tất cả các tình huống này đều yêu cầu đọc hoặc viết một tệp.
Một số kịch bản cơ bản về đọc và ghi tệp Tệp là gì?Hướng dẫn này chủ yếu dành cho người mới bắt đầu đến trung gian Pythonistas, nhưng có một số lời khuyên ở đây mà các lập trình viên tiên tiến hơn cũng có thể đánh giá cao. Trước khi chúng ta có thể đi vào cách làm việc với các tệp trong Python, điều quan trọng là phải hiểu chính xác một tệp là gì và cách các hệ điều hành hiện đại xử lý một số khía cạnh của chúng. Tại cốt lõi của nó, một tệp là một tập hợp các byte tiếp giáp được sử dụng để lưu trữ dữ liệu. Dữ liệu này được tổ chức theo một định dạng cụ thể và có thể đơn giản như tệp văn bản hoặc phức tạp như một chương trình có thể thực thi. Cuối cùng, các tệp byte này sau đó được dịch thành nhị phân 6 và 7 để xử lý dễ dàng hơn bởi máy tính.
Kết thúc tệp (EOF): ký tự đặc biệt cho biết phần cuối của tệp Những gì dữ liệu này thể hiện phụ thuộc vào đặc tả định dạng được sử dụng, thường được biểu thị bằng một phần mở rộng. Ví dụ: một tệp có phần mở rộng / │ ├── path/ ← Referencing this parent folder | │ | ├── to/ ← Current working directory (cwd) | │ └── cats.gif | │ | └── dog_breeds.txt ← Accessing this file | └── animals.csv 8 rất có thể phù hợp với đặc tả định dạng trao đổi đồ họa. Có hàng trăm, nếu không phải hàng ngàn phần mở rộng tệp ngoài kia. Đối với hướng dẫn này, bạn sẽ chỉ xử lý các phần mở rộng tệp / │ ├── path/ ← Referencing this parent folder | │ | ├── to/ ← Current working directory (cwd) | │ └── cats.gif | │ | └── dog_breeds.txt ← Accessing this file | └── animals.csv 9 hoặc Pug\r\n Jack Russell Terrier\r\n English Springer Spaniel\r\n German Shepherd\r\n Staffordshire Bull Terrier\r\n Cavalier King Charles Spaniel\r\n Golden Retriever\r\n West Highland White Terrier\r\n Boxer\r\n Border Terrier\r\n 0.Đường dẫn tập tin
Tiện ích mở rộng: Phần cuối của đường dẫn tệp được ưu tiên với một khoảng thời gian ( 3) được sử dụng để chỉ ra loại tệp
Ở đây, một ví dụ nhanh chóng. Hãy nói rằng bạn có một tệp nằm trong cấu trúc tệp như thế này: Hãy nói rằng bạn muốn truy cập vào tệp 4 và vị trí hiện tại của bạn nằm trong cùng thư mục với 5. Để truy cập tệp, bạn cần đi qua thư mục 5 và sau đó là thư mục 7, cuối cùng đến tệp 4. Đường dẫn thư mục là 9. Tên tệp là 0. Phần mở rộng tệp là 8. Vì vậy, đường dẫn đầy đủ là 2.
Bây giờ, hãy để nói rằng vị trí hiện tại hoặc thư mục làm việc hiện tại của bạn (CWD) nằm trong thư mục 7 của cấu trúc thư mục ví dụ của chúng tôi. Thay vì đề cập đến 4 theo đường dẫn đầy đủ của 2, tệp có thể được tham chiếu đơn giản bằng tên tệp và tiện ích mở rộng 4.
DOT đôi ( 8) có thể được xích lại với nhau để vượt qua nhiều thư mục trên thư mục hiện tại. Ví dụ: để truy cập 3 từ thư mục 7, bạn sẽ sử dụng 5.Kết thúc dòngMột vấn đề thường gặp phải khi làm việc với dữ liệu tệp là biểu diễn của một dòng mới hoặc kết thúc dòng. Kết thúc dòng có nguồn gốc từ trở lại trong kỷ nguyên mã Morse, khi một ký hiệu ủng hộ cụ thể được sử dụng để truyền đạt sự kết thúc của việc truyền hoặc kết thúc của một dòng. Sau đó, điều này đã được tiêu chuẩn hóa cho các nhà giao dịch từ xa bởi cả Tổ chức Tiêu chuẩn hóa Quốc tế (ISO) và Hiệp hội Tiêu chuẩn Hoa Kỳ (ASA). ASA tiêu chuẩn nói rằng các kết thúc dòng nên sử dụng trình tự trả lại vận chuyển ( 6 hoặc 7) và các ký tự nguồn cấp dữ liệu dòng ( 8 hoặc 9) ( 0 hoặc 1). Tuy nhiên, tiêu chuẩn ISO cho phép các ký tự 0 hoặc chỉ là ký tự 8.Windows sử dụng các ký tự 0 để chỉ ra một dòng mới, trong khi các phiên bản UNIX và MAC mới hơn chỉ sử dụng ký tự 8. Điều này có thể gây ra một số biến chứng khi bạn xử lý các tệp trên một hệ điều hành khác với nguồn tệp. Ở đây, một ví dụ nhanh chóng. Hãy nói rằng chúng tôi kiểm tra tệp 7 được tạo trên hệ thống Windows:
Đầu ra tương tự này sẽ được giải thích trên một thiết bị UNIX khác nhau:
Điều này có thể làm cho việc lặp lại trên mỗi dòng có vấn đề và bạn có thể cần phải tính đến các tình huống như thế này. Mã hóa ký tựMột vấn đề phổ biến khác mà bạn có thể gặp phải là mã hóa dữ liệu byte. Một mã hóa là một bản dịch từ dữ liệu byte sang các ký tự có thể đọc được của con người. Điều này thường được thực hiện bằng cách gán một giá trị số để thể hiện một ký tự. Hai mã hóa phổ biến nhất là các định dạng ASCII và Unicode. ASCII chỉ có thể lưu trữ 128 ký tự, trong khi Unicode có thể chứa tới 1.114.112 ký tự. ASCII thực sự là một tập hợp con của Unicode (UTF-8), có nghĩa là ASCII và Unicode có chung số lượng với các giá trị ký tự. Điều quan trọng cần lưu ý là việc phân tích một tệp có mã hóa ký tự không chính xác có thể dẫn đến lỗi hoặc trình bày sai về ký tự. Ví dụ: nếu một tệp được tạo bằng mã hóa UTF-8 và bạn cố gắng phân tích nó bằng mã hóa ASCII, nếu có một ký tự nằm ngoài 128 giá trị đó, thì sẽ bị lỗi. Mở và đóng một tập tin trong PythonKhi bạn muốn làm việc với một tệp, điều đầu tiên cần làm là mở nó. Điều này được thực hiện bằng cách gọi chức năng tích hợp 7. 7 có một đối số bắt buộc duy nhất là đường dẫn đến tệp. 7 có một lần trả về duy nhất, đối tượng tệp:
Sau khi bạn mở một tập tin, điều tiếp theo để học là làm thế nào để đóng nó. Điều quan trọng cần nhớ là nó có trách nhiệm đóng tệp. Trong hầu hết các trường hợp, khi chấm dứt ứng dụng hoặc tập lệnh, cuối cùng một tệp sẽ được đóng. Tuy nhiên, không có gì đảm bảo khi chính xác điều đó sẽ xảy ra. Điều này có thể dẫn đến hành vi không mong muốn bao gồm rò rỉ tài nguyên. Nó cũng là một thực tiễn tốt nhất trong Python (Pythonic) để đảm bảo rằng mã của bạn hoạt động theo cách được xác định rõ và giảm bất kỳ hành vi không mong muốn nào. Khi bạn điều khiển một tệp, có hai cách bạn có thể sử dụng để đảm bảo rằng một tệp được đóng đúng, ngay cả khi gặp lỗi. Cách đầu tiên để đóng tệp là sử dụng khối 0:
Nếu bạn không quen thuộc với khối 0 là gì, hãy xem các ngoại lệ của Python: Giới thiệu.Cách thứ hai để đóng tệp là sử dụng câu lệnh 2:
Câu lệnh 2 tự động chăm sóc việc đóng tệp một khi nó rời khỏi khối 2, ngay cả trong trường hợp lỗi. Tôi thực sự khuyên bạn nên sử dụng câu lệnh 2 càng nhiều càng tốt, vì nó cho phép mã sạch hơn và giúp xử lý mọi lỗi bất ngờ dễ dàng hơn cho bạn.Nhiều khả năng, bạn cũng sẽ muốn sử dụng đối số vị trí thứ hai, 6. Đối số này là một chuỗi chứa nhiều ký tự để thể hiện cách bạn muốn mở tệp. Mặc định và phổ biến nhất là 7, đại diện cho việc mở tệp ở chế độ chỉ đọc dưới dạng tệp văn bản:
Các tùy chọn khác cho các chế độ được ghi lại đầy đủ trực tuyến, nhưng các tùy chọn được sử dụng phổ biến nhất là:
Hãy để Lừa quay lại và nói một chút về các đối tượng tệp. Một đối tượng tệp là:
Có ba loại đối tượng tệp khác nhau:
Mỗi loại tệp này được xác định trong mô -đun 4. Ở đây, một bản tóm tắt nhanh chóng về cách mọi thứ xếp hàng.Loại tệp văn bảnTệp văn bản là tệp phổ biến nhất mà bạn sẽ gặp. Dưới đây là một số ví dụ về cách các tệp này được mở: 0Với các loại tệp này, 7 sẽ trả về đối tượng tệp 6:>>> 1Đây là đối tượng tệp mặc định được trả về bởi 7.Các loại tệp nhị phân được đệmMột loại tệp nhị phân được đệm được sử dụng để đọc và viết các tệp nhị phân. Dưới đây là một số ví dụ về cách các tệp này được mở: 2Với các loại tệp này, 7 sẽ trả về đối tượng tệp 9 hoặc 00:>>> 3Đây là đối tượng tệp mặc định được trả về bởi reader = open('dog_breeds.txt') try: # Further file processing goes here finally: reader.close() 7.Các loại tệp nhị phân được đệm
Với các loại tệp này, 7 sẽ trả về đối tượng tệp 9 hoặc 00:Các loại tệp thô 4Một loại tệp thô là: >>> 5Đây là đối tượng tệp mặc định được trả về bởi reader = open('dog_breeds.txt') try: # Further file processing goes here finally: reader.close() 7.Các loại tệp nhị phân được đệm
Đọc và viết các tệp đã mở >>> 6Đây là đối tượng tệp mặc định được trả về bởi 7.>>> 7Đây là đối tượng tệp mặc định được trả về bởi 7.>>> 8Đây là đối tượng tệp mặc định được trả về bởi 7.>>> 9Đây là đối tượng tệp mặc định được trả về bởi reader = open('dog_breeds.txt') try: # Further file processing goes here finally: reader.close() 7.Các loại tệp nhị phân được đệm >>> 0Đây là đối tượng tệp mặc định được trả về bởi 7.>>> 1Đây là đối tượng tệp mặc định được trả về bởi 7.>>> 2Đây là đối tượng tệp mặc định được trả về bởi 7.Các loại tệp nhị phân được đệm
Ở đây, một ví dụ về cách các tệp này được mở: 3Với các loại tệp này, reader = open('dog_breeds.txt') try: # Further file processing goes here finally: reader.close() 7 sẽ trả về đối tượng tệp / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 02:Đọc và viết các tệp đã mở >>> 4Đây là đối tượng tệp mặc định được trả về bởi 7.Các loại tệp nhị phân được đệmMột loại tệp nhị phân được đệm được sử dụng để đọc và viết các tệp nhị phân. Dưới đây là một số ví dụ về cách các tệp này được mở:
Chắc chắn, khi bạn mở tệp và đọc các byte này một cách riêng lẻ, bạn có thể thấy rằng đây thực sự là một tệp tiêu đề 29:>>> 5Một ví dụ đầy đủ: dos2unix.pyHãy để Lừa mang toàn bộ điều này về nhà và xem xét một ví dụ đầy đủ về cách đọc và ghi vào một tập tin. Sau đây là công cụ giống như 40 sẽ chuyển đổi một tệp chứa các kết thúc dòng của 1 thành 9.Công cụ này được chia thành ba phần chính. Đầu tiên là 43, chuyển đổi một chuỗi từ các kết thúc dòng 1 thành 9. Thứ hai là 46, chuyển đổi một chuỗi chứa 1 ký tự thành 9. 46 gọi 43 trong nội bộ. Cuối cùng, có khối 51, chỉ được gọi là khi tệp được thực thi dưới dạng tập lệnh. Hãy nghĩ về nó như là hàm 52 được tìm thấy trong các ngôn ngữ lập trình khác. 6Các mẹo và thủ thuậtBây giờ bạn đã thành thạo những điều cơ bản về đọc và viết các tập tin, đây là một số mẹo và thủ thuật để giúp bạn phát triển kỹ năng của mình. / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 53Thuộc tính 53 là một thuộc tính đặc biệt của các mô -đun, tương tự như 55. Nó là:
Ở đây, một ví dụ thế giới thực. Trong một trong những công việc trước đây của tôi, tôi đã thực hiện nhiều bài kiểm tra cho một thiết bị phần cứng. Mỗi bài kiểm tra được viết bằng tập lệnh Python với tên tệp tập lệnh thử nghiệm được sử dụng làm tiêu đề. Các tập lệnh này sau đó sẽ được thực thi và có thể in trạng thái của chúng bằng thuộc tính đặc biệt 53. Ở đây, một cấu trúc thư mục ví dụ: 7Chạy 57 Sản xuất như sau: 8Tôi đã có thể chạy và nhận trạng thái của tất cả các bài kiểm tra của mình một cách linh hoạt thông qua việc sử dụng thuộc tính đặc biệt của 53.Nối vào một tập tinĐôi khi, bạn có thể muốn nối vào một tệp hoặc bắt đầu viết ở cuối tệp đã có. Điều này dễ dàng được thực hiện bằng cách sử dụng ký tự 59 cho đối số 6: 9Khi bạn kiểm tra lại 7, bạn sẽ thấy rằng phần đầu của tệp không thay đổi và 62 hiện được thêm vào cuối tệp:>>> 0Một ví dụ đầy đủ: dos2unix.pyHãy để Lừa mang toàn bộ điều này về nhà và xem xét một ví dụ đầy đủ về cách đọc và ghi vào một tập tin. Sau đây là công cụ giống như 40 sẽ chuyển đổi một tệp chứa các kết thúc dòng của 1 thành 9. 1Công cụ này được chia thành ba phần chính. Đầu tiên là / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 43, chuyển đổi một chuỗi từ các kết thúc dòng reader = open('dog_breeds.txt') try: # Further file processing goes here finally: reader.close() 1 thành file = open('dog_breeds.txt') 9. Thứ hai là / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 46, chuyển đổi một chuỗi chứa reader = open('dog_breeds.txt') try: # Further file processing goes here finally: reader.close() 1 ký tự thành file = open('dog_breeds.txt') 9. / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 46 gọi / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 43 trong nội bộ. Cuối cùng, có khối / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 51, chỉ được gọi là khi tệp được thực thi dưới dạng tập lệnh. Hãy nghĩ về nó như là hàm / │ ├── path/ | │ │ ├── to/ │ │ └── cats.gif │ │ │ └── dog_breeds.txt | └── animals.csv 52 được tìm thấy trong các ngôn ngữ lập trình khác.Các mẹo và thủ thuật Bây giờ bạn đã thành thạo những điều cơ bản về đọc và viết các tập tin, đây là một số mẹo và thủ thuật để giúp bạn phát triển kỹ năng của mình. Thuộc tính 53 là một thuộc tính đặc biệt của các mô -đun, tương tự như 55. Nó là: 2Tên đường dẫn của tệp mà mô -đun được tải, nếu nó được tải từ một tệp. (Nguồn 3Ở đây, một ví dụ thế giới thực. Trong một trong những công việc trước đây của tôi, tôi đã thực hiện nhiều bài kiểm tra cho một thiết bị phần cứng. Mỗi bài kiểm tra được viết bằng tập lệnh Python với tên tệp tập lệnh thử nghiệm được sử dụng làm tiêu đề. Các tập lệnh này sau đó sẽ được thực thi và có thể in trạng thái của chúng bằng thuộc tính đặc biệt 53. Ở đây, một cấu trúc thư mục ví dụ: 4Chạy 57 Sản xuất như sau:>>> 5Một ví dụ đầy đủ: dos2unix.pyHãy để Lừa mang toàn bộ điều này về nhà và xem xét một ví dụ đầy đủ về cách đọc và ghi vào một tập tin. Sau đây là công cụ giống như 40 sẽ chuyển đổi một tệp chứa các kết thúc dòng của 1 thành 9.
Bây giờ bạn đã thành thạo những điều cơ bản về đọc và viết các tập tin, đây là một số mẹo và thủ thuật để giúp bạn phát triển kỹ năng của mình.
Có những lúc bạn có thể muốn đọc một tệp và ghi vào một tệp khác cùng một lúc. Nếu bạn sử dụng ví dụ được hiển thị khi bạn đang học cách ghi vào một tệp, thì nó thực sự có thể được kết hợp thành các vấn đề sau:
Bạn là một pháp sư tập tin Harry!Bạn làm được rồi!Bây giờ bạn đã biết cách làm việc với các tệp với Python, bao gồm một số kỹ thuật nâng cao.Làm việc với các tệp trong Python bây giờ sẽ dễ dàng hơn bao giờ hết và là một cảm giác bổ ích khi bạn bắt đầu thực hiện nó. Trong hướng dẫn này, bạn đã học được:
Nếu bạn có bất kỳ câu hỏi, hãy đánh chúng tôi trong các ý kiến. Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự.Xem cùng với hướng dẫn bằng văn bản để hiểu sâu hơn về sự hiểu biết của bạn: Đọc và ghi các tập tin bằng Python This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Reading and Writing Files in Python |