Hướng dẫn change python encoding to utf-8 - thay đổi mã hóa python thành utf-8

Đầu tiên:

0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...
6 và thiết lập một số mã hóa mặc định ngẫu nhiên chỉ liên quan đến sự cần thiết của luồng đầu ra là thực hành xấu.
0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...
7 thường thay đổi những thứ trong SYS đã được đưa ra tùy thuộc vào môi trường - ví dụ: sys.stdin/stdout streams, sys.excepthook, v.v.

Giải quyết vấn đề mã hóa trên stdout

Giải pháp tốt nhất mà tôi biết để giải quyết vấn đề mã hóa của các chuỗi unicode ____ 28 và Beyond-ASCII ________ 29 (ví dụ: từ các chữ) trên sys.stdout là: để chăm sóc sys.stdout (đối tượng giống như tệp) có khả năng và Tùy chọn khoan dung về các nhu cầu:

  • Khi

       P           y           t           h           o           n
    0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
       0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
    
    0 là
       P           y           t           h           o           n
    0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
       0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
    
    1 vì một số lý do, hoặc không tồn tại hoặc sai lầm sai hoặc "ít hơn" so với thiết bị đầu cuối hoặc luồng stdout thực sự có khả năng, sau đó cố gắng cung cấp một thuộc tính
       P           y           t           h           o           n
    0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
       0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
    
    2 chính xác. Cuối cùng bằng cách thay thế
       P           y           t           h           o           n
    0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
       0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
    
    3 bằng một đối tượng giống như tệp.

  • Khi thiết bị đầu cuối / luồng vẫn không thể mã hóa tất cả các ký tự unicode xảy ra và khi bạn không muốn phá vỡ ____ 28 chỉ vì điều đó, bạn có thể giới thiệu một hành vi mã hóa không thay thế trong đối tượng giống như tệp.

Đây là một ví dụ:

#!/usr/bin/env python
# encoding: utf-8
import sys

class SmartStdout:
    def __init__(self, encoding=None, org_stdout=None):
        if org_stdout is None:
            org_stdout = getattr(sys.stdout, 'org_stdout', sys.stdout)
        self.org_stdout = org_stdout
        self.encoding = encoding or \
                        getattr(org_stdout, 'encoding', None) or 'utf-8'
    def write(self, s):
        self.org_stdout.write(s.encode(self.encoding, 'backslashreplace'))
    def __getattr__(self, name):
        return getattr(self.org_stdout, name)

if __name__ == '__main__':
    if sys.stdout.isatty():
        sys.stdout = sys.stderr = SmartStdout()

    us = u'aouäöüфżß²'
    print us
    sys.stdout.flush()

Sử dụng các chữ số đơn giản Beyond-ASCII trong mã Python 2/2 + 3

Lý do chính đáng duy nhất để thay đổi mã hóa mặc định toàn cầu (chỉ với UTF-8) Tôi nghĩ là liên quan đến quyết định mã nguồn ứng dụng-và không phải vì các vấn đề mã hóa luồng I/O Để luôn luôn sử dụng

   P           y           t           h           o           n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
5 Phong cách unicode thoát ra. Điều này có thể được thực hiện khá nhất quán (mặc dù những gì bài viết của Anonbadger nói) bằng cách chăm sóc cơ sở mã nguồn Python 2 hoặc Python 2 + 3 sử dụng các chuỗi đơn giản ASCII hoặc UTF -8 một cách nhất quán - theo như các chuỗi có khả năng trải qua quá trình chuyển đổi unicode im lặng và di chuyển giữa các mô -đun hoặc có khả năng đi đến stdout. Đối với điều đó, thích "
   P           y           t           h           o           n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
6" hoặc ASCII (không tuyên bố). Thay đổi hoặc thả thư viện vẫn dựa một cách rất ngu ngốc về các lỗi mã hóa mặc định ASCII ngoài CHR #127 (rất hiếm ngày nay).source code decision - and not because of I/O stream encodings issues: For writing beyond-ascii string literals into code without being forced to always use
   P           y           t           h           o           n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
5 style unicode escaping. This can be done rather consistently (despite what anonbadger's article says) by taking care of a Python 2 or Python 2 + 3 source code basis which uses ascii or UTF-8 plain string literals consistently - as far as those strings potentially undergo silent unicode conversion and move between modules or potentially go to stdout. For that, prefer "
   P           y           t           h           o           n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
6" or ascii (no declaration). Change or drop libraries which still rely in a very dumb way fatally on ascii default encoding errors beyond chr #127 (which is rare today).

Và thích điều này khi bắt đầu ứng dụng (và/hoặc thông qua sitecustomize.py) ngoài sơ đồ

   P           y           t           h           o           n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
7 ở trên - mà không sử dụng
0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...
6:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s

Theo cách này, chuỗi chữ và hầu hết các hoạt động (ngoại trừ lặp lại nhân vật) hoạt động thoải mái mà không cần suy nghĩ về chuyển đổi Unicode như thể sẽ chỉ có Python3. Tệp I/O Tất nhiên luôn cần được chăm sóc đặc biệt về mã hóa - như trong Python3.

Lưu ý: Các chuỗi Plain sau đó được chuyển đổi hoàn toàn từ UTF-8 sang Unicode trong

   P           y           t           h           o           n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
7 trước khi được chuyển đổi thành mã đầu ra.

Phóng thích

1.12

Howto này thảo luận về hỗ trợ Python, cho đặc tả Unicode để đại diện cho dữ liệu văn bản và giải thích các vấn đề khác nhau mà mọi người thường gặp khi cố gắng làm việc với Unicode.

Giới thiệu về Unicode¶

Định nghĩa¶

Ngày nay, các chương trình của nhóm cần có khả năng xử lý nhiều nhân vật khác nhau. Các ứng dụng thường được quốc tế hóa để hiển thị thông điệp và đầu ra bằng nhiều ngôn ngữ có thể chọn người dùng; Chương trình tương tự có thể cần xuất ra một thông báo lỗi bằng tiếng Anh, tiếng Pháp, tiếng Nhật, tiếng Do Thái hoặc tiếng Nga. Nội dung web có thể được viết bằng bất kỳ ngôn ngữ nào trong số này và cũng có thể bao gồm nhiều biểu tượng biểu tượng cảm xúc. Loại chuỗi Python, sử dụng tiêu chuẩn Unicode để biểu diễn các ký tự, cho phép các chương trình Python hoạt động với tất cả các ký tự có thể khác nhau này.

Unicode (https://www.unicode.org/) là một đặc điểm kỹ thuật nhằm liệt kê mọi nhân vật được sử dụng bởi ngôn ngữ con người và cung cấp cho mỗi nhân vật mã duy nhất của riêng mình. Các thông số kỹ thuật Unicode được sửa đổi và cập nhật liên tục để thêm các ngôn ngữ và ký hiệu mới.

Một ký tự là thành phần nhỏ nhất có thể của một văn bản. ‘A,’ ’B,’ C, v.v., đều là những nhân vật khác nhau. Cũng vậy ’è và’ í. Các nhân vật khác nhau tùy thuộc vào ngôn ngữ hoặc bối cảnh mà bạn đang nói. Ví dụ, có một nhân vật cho một số Roman Roman một, ‘ⅰ ⅰ, đó là cách tách biệt với chữ hoa‘ i. Họ thường trông giống nhau, nhưng đây là hai nhân vật khác nhau có ý nghĩa khác nhau.character is the smallest possible component of a text. ‘A’, ‘B’, ‘C’, etc., are all different characters. So are ‘È’ and ‘Í’. Characters vary depending on the language or context you’re talking about. For example, there’s a character for “Roman Numeral One”, ‘Ⅰ’, that’s separate from the uppercase letter ‘I’. They’ll usually look the same, but these are two different characters that have different meanings.

Tiêu chuẩn Unicode mô tả cách các ký tự được biểu diễn bằng các điểm mã. Giá trị điểm mã là một số nguyên trong phạm vi 0 đến 0x10FFFF (khoảng 1,1 triệu giá trị, số thực được gán ít hơn thế). Trong tiêu chuẩn và trong tài liệu này, một điểm mã được viết bằng ký hiệu

try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")
0 có nghĩa là ký tự có giá trị
try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")
1 (9,822 trong thập phân).code points. A code point value is an integer in the range 0 to 0x10FFFF (about 1.1 million values, the actual number assigned is less than that). In the standard and in this document, a code point is written using the notation
try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")
0 to mean the character with value
try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")
1 (9,822 in decimal).

Tiêu chuẩn Unicode chứa rất nhiều bảng liệt kê các ký tự và các điểm mã tương ứng của chúng:

0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...

Nghiêm túc, những định nghĩa này ngụ ý rằng nó vô nghĩa khi nói ‘Đây là ký tự

try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")
0.
try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")
0 là một điểm mã, đại diện cho một số ký tự cụ thể; Trong trường hợp này, nó đại diện cho nhân vật ‘Knight Chess Black,‘ ♞. Trong bối cảnh không chính thức, sự khác biệt giữa các điểm mã và ký tự đôi khi sẽ bị lãng quên.

Một ký tự được thể hiện trên màn hình hoặc trên giấy bởi một tập hợp các yếu tố đồ họa mà Lọ gọi là glyph. Ví dụ, glyph cho chữ A, ví dụ, là hai nét chéo và đột quỵ ngang, mặc dù các chi tiết chính xác sẽ phụ thuộc vào phông chữ được sử dụng. Hầu hết các mã Python không cần phải lo lắng về glyphs; Tìm ra glyph chính xác để hiển thị nói chung là công việc của bộ công cụ GUI hoặc trình kết xuất phông chữ Terminal.glyph. The glyph for an uppercase A, for example, is two diagonal strokes and a horizontal stroke, though the exact details will depend on the font being used. Most Python code doesn’t need to worry about glyphs; figuring out the correct glyph to display is generally the job of a GUI toolkit or a terminal’s font renderer.

Mã hóa

Để tóm tắt phần trước: Chuỗi Unicode là chuỗi các điểm mã, là số từ 0 đến

try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")
4 (1,114,111 thập phân). Trình tự các điểm mã này cần được biểu diễn trong bộ nhớ dưới dạng một tập hợp các đơn vị mã và các đơn vị mã sau đó được ánh xạ tới 8 bit byte. Các quy tắc để dịch một chuỗi unicode thành một chuỗi byte được gọi là mã hóa ký tự hoặc chỉ là một mã hóa.code units, and code units are then mapped to 8-bit bytes. The rules for translating a Unicode string into a sequence of bytes are called a character encoding, or just an encoding.

Mã hóa đầu tiên mà bạn có thể nghĩ là sử dụng các số nguyên 32 bit làm đơn vị mã, và sau đó sử dụng biểu diễn CPU của các số nguyên 32 bit. Trong đại diện này, chuỗi Py Python có thể trông như thế này:

   P           y           t           h           o           n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Đại diện này là đơn giản nhưng sử dụng nó thể hiện một số vấn đề.

  1. Nó không di động; Các bộ xử lý khác nhau đặt hàng byte khác nhau.

  2. Nó rất lãng phí không gian. Trong hầu hết các văn bản, phần lớn các điểm mã nhỏ hơn 127, hoặc dưới 255, do đó, rất nhiều không gian bị chiếm bởi

    try:
        with open('/tmp/input.txt', 'r') as f:
            ...
    except OSError:
        # 'File not found' error message.
        print("Fichier non trouvé")
    
    5 byte. Chuỗi trên mất 24 byte so với 6 byte cần thiết cho biểu diễn ASCII. Việc sử dụng RAM tăng không quan trọng quá nhiều (máy tính để bàn có gigabyte ram, và chuỗi thường không lớn), nhưng việc mở rộng việc sử dụng băng thông đĩa và mạng của chúng tôi bằng hệ số 4 là không thể chịu đựng được.

  3. Nó không tương thích với các chức năng C hiện có như

    try:
        with open('/tmp/input.txt', 'r') as f:
            ...
    except OSError:
        # 'File not found' error message.
        print("Fichier non trouvé")
    
    6, vì vậy một gia đình mới gồm các hàm chuỗi rộng sẽ cần được sử dụng.

Do đó, mã hóa này được sử dụng rất nhiều, và thay vào đó mọi người chọn các mã hóa khác hiệu quả và thuận tiện hơn, chẳng hạn như UTF-8.

UTF-8 là một trong những mã hóa được sử dụng phổ biến nhất và Python thường mặc định sử dụng nó. UTF là viết tắt của định dạng chuyển đổi Unicode, và ‘8 8 có nghĩa là các giá trị 8 bit được sử dụng trong mã hóa. (Ngoài ra còn có mã hóa UTF-16 và UTF-32, nhưng chúng ít được sử dụng hơn UTF-8.) UTF-8 sử dụng các quy tắc sau:

  1. Nếu điểm mã là <128, thì nó được biểu thị bằng giá trị byte tương ứng.

  2. Nếu điểm mã là> = 128, thì nó đã biến thành một chuỗi gồm hai, ba hoặc bốn byte, trong đó mỗi byte của chuỗi nằm trong khoảng từ 128 đến 255.

UTF-8 có một số thuộc tính thuận tiện:

  1. Nó có thể xử lý bất kỳ điểm mã Unicode.

  2. Một chuỗi unicode được biến thành một chuỗi các byte chỉ chứa các byte không được nhúng khi chúng đại diện cho ký tự null (U+0000). Điều này có nghĩa là các chuỗi UTF-8 có thể được xử lý bởi các hàm C như

    try:
        with open('/tmp/input.txt', 'r') as f:
            ...
    except OSError:
        # 'File not found' error message.
        print("Fichier non trouvé")
    
    7 và được gửi qua các giao thức có thể xử lý số byte không cho bất cứ thứ gì khác ngoài các điểm đánh dấu cuối chuỗi.

  3. Một chuỗi văn bản ASCII cũng là văn bản UTF-8 hợp lệ.

  4. UTF-8 khá nhỏ gọn; Phần lớn các ký tự thường được sử dụng có thể được biểu diễn bằng một hoặc hai byte.

  5. Nếu byte bị hỏng hoặc bị mất, thì có thể xác định điểm bắt đầu của điểm mã được mã hóa UTF-8 tiếp theo và đồng bộ hóa. Nó cũng không chắc rằng dữ liệu 8 bit ngẫu nhiên sẽ trông giống như UTF-8 hợp lệ.

  6. UTF-8 là mã hóa theo định hướng byte. Mã hóa chỉ định rằng mỗi ký tự được biểu diễn bằng một chuỗi cụ thể của một hoặc nhiều byte. Điều này tránh các vấn đề đặt hàng byte có thể xảy ra với các mã hóa theo định hướng số nguyên và từ, như UTF-16 và UTF-32, trong đó chuỗi byte thay đổi tùy thuộc vào phần cứng mà chuỗi được mã hóa.

Người giới thiệu¶

Trang web Unicode Consortium có biểu đồ ký tự, bảng thuật ngữ và phiên bản PDF của đặc tả Unicode. Hãy chuẩn bị cho một số đọc khó đọc. Một niên đại về nguồn gốc và sự phát triển của Unicode cũng có sẵn trên trang web.

Trên kênh YouTube máy tính, Tom Scott thảo luận ngắn gọn về lịch sử của Unicode và UTF-8 (9 phút 36 giây).

Để giúp hiểu tiêu chuẩn, Jukka Korpela đã viết một hướng dẫn giới thiệu để đọc các bảng ký tự Unicode.

Một bài viết giới thiệu tốt khác được viết bởi Joel Spolsky. Nếu phần giới thiệu này đã làm cho mọi thứ rõ ràng với bạn, bạn nên thử đọc bài viết thay thế này trước khi tiếp tục.

Các mục Wikipedia thường hữu ích; Ví dụ, xem các mục cho mã hóa ký tự và UTF-8 và UTF-8.

Python sườn Unicode Hỗ trợ Không

Bây giờ bạn đã học được sự thô sơ của Unicode, chúng ta có thể xem xét các tính năng của Python.

Loại chuỗi

Kể từ Python 3.0, loại ngôn ngữ

try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")
8 chứa các ký tự Unicode, có nghĩa là bất kỳ chuỗi nào được tạo bằng cách sử dụng cú pháp chuỗi được trích xuất ba, hoặc cú pháp chuỗi được trích xuất ba được lưu trữ dưới dạng unicode.

Mã hóa mặc định cho mã nguồn Python là UTF-8, do đó bạn có thể chỉ cần bao gồm một ký tự Unicode trong một chuỗi chữ:

try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")

Lưu ý bên: Python 3 cũng hỗ trợ bằng cách sử dụng các ký tự Unicode trong số nhận dạng:

répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")

Nếu bạn có thể nhập một ký tự cụ thể vào trình chỉnh sửa của mình hoặc muốn giữ mã nguồn ASCII-chỉ vì một số lý do, bạn cũng có thể sử dụng các chuỗi thoát trong các chữ viết. (Tùy thuộc vào hệ thống của bạn, bạn có thể thấy Glyph vốn thực tế thay vì thoát U.)

>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'

Ngoài ra, người ta có thể tạo một chuỗi bằng phương pháp

répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
1 của
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
2. Phương thức này có một đối số mã hóa, chẳng hạn như
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
3 và tùy chọn là một đối số lỗi.

Đối số lỗi chỉ định phản hồi khi chuỗi đầu vào có thể được chuyển đổi theo các quy tắc mã hóa. Các giá trị pháp lý cho đối số này là

répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
4 (tăng ngoại lệ
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
5),
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
6 (sử dụng
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
7,
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
8),
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
9 (chỉ cần để ký tự ra khỏi kết quả Unicode) hoặc
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
0 (chèn chuỗi thoát
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
1). Các ví dụ sau đây cho thấy sự khác biệt:

>>> b'\x80abc'.decode("utf-8", "strict")  
Traceback (most recent call last):
    ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0:
  invalid start byte
>>> b'\x80abc'.decode("utf-8", "replace")
'\ufffdabc'
>>> b'\x80abc'.decode("utf-8", "backslashreplace")
'\\x80abc'
>>> b'\x80abc'.decode("utf-8", "ignore")
'abc'

Mã hóa được chỉ định là các chuỗi chứa tên mã hóa. Python đi kèm với khoảng 100 mã hóa khác nhau; Xem tham chiếu thư viện Python tại các mã hóa tiêu chuẩn để biết danh sách. Một số mã hóa có nhiều tên; Ví dụ,

>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
2,
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
3 và
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
4, đều là từ đồng nghĩa với cùng một mã hóa.Standard Encodings for a list. Some encodings have multiple names; for example,
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
2,
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
3 and
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
4’ are all synonyms for the same encoding.

Các chuỗi unicode một ký tự cũng có thể được tạo với hàm tích hợp

>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
5, lấy số nguyên và trả về một chuỗi unicode có độ dài 1 có chứa điểm mã tương ứng. Hoạt động ngược là hàm
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
6 tích hợp có chuỗi Unicode một ký tự và trả về giá trị điểm mã:

>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344

Chuyển đổi sang byte¶

Phương pháp ngược lại của

>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
7 là
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
8, trả về biểu diễn
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
2 của chuỗi unicode, được mã hóa trong mã hóa được yêu cầu.

Tham số lỗi giống như tham số của phương thức

répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
1 nhưng hỗ trợ một vài trình xử lý có thể. Cũng như
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
4,
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
9 và
répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")
6 (trong trường hợp này chèn một dấu câu hỏi thay vì ký tự không thể kiểm soát), cũng có
>>> b'\x80abc'.decode("utf-8", "strict")  
Traceback (most recent call last):
    ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0:
  invalid start byte
>>> b'\x80abc'.decode("utf-8", "replace")
'\ufffdabc'
>>> b'\x80abc'.decode("utf-8", "backslashreplace")
'\\x80abc'
>>> b'\x80abc'.decode("utf-8", "ignore")
'abc'
4 (chèn tham chiếu ký tự XML),
>>> b'\x80abc'.decode("utf-8", "strict")  
Traceback (most recent call last):
    ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0:
  invalid start byte
>>> b'\x80abc'.decode("utf-8", "replace")
'\ufffdabc'
>>> b'\x80abc'.decode("utf-8", "backslashreplace")
'\\x80abc'
>>> b'\x80abc'.decode("utf-8", "ignore")
'abc'
5 (chèn chuỗi thoát ____76) và
>>> b'\x80abc'.decode("utf-8", "strict")  
Traceback (most recent call last):
    ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0:
  invalid start byte
>>> b'\x80abc'.decode("utf-8", "replace")
'\ufffdabc'
>>> b'\x80abc'.decode("utf-8", "backslashreplace")
'\\x80abc'
>>> b'\x80abc'.decode("utf-8", "ignore")
'abc'
8 Trình tự thoát).

Ví dụ sau đây cho thấy các kết quả khác nhau:

>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')  
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'ꀀabcd޴'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'

Các thói quen cấp thấp để đăng ký và truy cập các mã hóa có sẵn được tìm thấy trong mô-đun

>>> b'\x80abc'.decode("utf-8", "strict")  
Traceback (most recent call last):
    ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0:
  invalid start byte
>>> b'\x80abc'.decode("utf-8", "replace")
'\ufffdabc'
>>> b'\x80abc'.decode("utf-8", "backslashreplace")
'\\x80abc'
>>> b'\x80abc'.decode("utf-8", "ignore")
'abc'
9. Việc thực hiện các mã hóa mới cũng đòi hỏi phải hiểu mô -đun
>>> b'\x80abc'.decode("utf-8", "strict")  
Traceback (most recent call last):
    ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0:
  invalid start byte
>>> b'\x80abc'.decode("utf-8", "replace")
'\ufffdabc'
>>> b'\x80abc'.decode("utf-8", "backslashreplace")
'\\x80abc'
>>> b'\x80abc'.decode("utf-8", "ignore")
'abc'
9. Tuy nhiên, các chức năng mã hóa và giải mã được trả về bởi mô-đun này thường ở mức thấp hơn so với thoải mái và viết mã hóa mới là một nhiệm vụ chuyên dụng, vì vậy mô-đun giành chiến thắng được đề cập trong howto này.

Unicode theo nghĩa đen trong mã nguồn Python

Trong mã nguồn Python, các điểm mã unicode cụ thể có thể được viết bằng chuỗi thoát

>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344
1, theo sau là bốn chữ số hex đưa ra điểm mã. Trình tự thoát
>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344
2 là tương tự nhau, nhưng mong đợi tám chữ số hex, không phải bốn:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
0

Sử dụng trình tự thoát cho các điểm mã lớn hơn 127 là tốt với liều nhỏ, nhưng trở thành một khó khăn nếu bạn sử dụng nhiều ký tự có dấu, như bạn sẽ làm trong một chương trình có tin nhắn bằng tiếng Pháp hoặc một số ngôn ngữ sử dụng giọng nói khác. Bạn cũng có thể lắp ráp các chuỗi bằng hàm tích hợp

>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
5, nhưng điều này thậm chí còn tẻ nhạt hơn.

Lý tưởng nhất là bạn muốn có thể viết các chữ bằng ngôn ngữ của bạn. Sau đó, bạn có thể chỉnh sửa mã nguồn Python với trình soạn thảo yêu thích của bạn sẽ hiển thị các ký tự có dấu một cách tự nhiên và có các ký tự phù hợp được sử dụng trong thời gian chạy.

Python hỗ trợ viết mã nguồn trong UTF-8 theo mặc định, nhưng bạn có thể sử dụng hầu hết mọi mã hóa nếu bạn tuyên bố mã hóa được sử dụng. Điều này được thực hiện bằng cách bao gồm một nhận xét đặc biệt là dòng đầu tiên hoặc thứ hai của tệp nguồn:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
1

Cú pháp được lấy cảm hứng từ ký hiệu Emacs, để chỉ định các biến cục bộ vào tệp. Emacs hỗ trợ nhiều biến khác nhau, nhưng Python chỉ hỗ trợ ‘mã hóa. Các biểu tượng

>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344
4 chỉ ra cho Emac rằng nhận xét là đặc biệt; Họ không có ý nghĩa đối với Python nhưng là một quy ước. Python tìm kiếm
>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344
5 hoặc
>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344
6 trong bình luận.

Nếu bạn không bao gồm một nhận xét như vậy, mã hóa mặc định được sử dụng sẽ được UTF-8 như đã đề cập. Xem thêm PEP 263 để biết thêm thông tin.PEP 263 for more information.

Thuộc tính unicode

Thông số kỹ thuật Unicode bao gồm một cơ sở dữ liệu thông tin về các điểm mã. Đối với mỗi điểm mã được xác định, thông tin bao gồm tên ký tự, danh mục của nó, giá trị số nếu có (đối với các ký tự đại diện cho các khái niệm số như chữ số La Mã, các phân số như một phần ba và bốn phần năm, v.v.). Ngoài ra còn có các thuộc tính liên quan đến hiển thị, chẳng hạn như cách sử dụng điểm mã trong văn bản hai chiều.

Chương trình sau đây hiển thị một số thông tin về một số ký tự và in giá trị số của một ký tự cụ thể:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
2

Khi chạy, bản in này:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
3

Các mã danh mục là chữ viết tắt mô tả bản chất của nhân vật. Chúng được nhóm thành các danh mục như chữ cái, chữ số, số lượng, số lần, dấu chấm câu, hoặc biểu tượng của người Hồi giáo, từ đó được chia thành các tiểu thể loại. Để lấy các mã từ đầu ra ở trên,

>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344
7 có nghĩa là ‘chữ cái, chữ thường,
>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344
8 có nghĩa là số, số khác,
>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344
9 là Mark Mark, không định vị, và
>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')  
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'ꀀabcd޴'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'
0 là biểu tượng, khác. Xem phần Giá trị danh mục chung của tài liệu cơ sở dữ liệu ký tự Unicode để biết danh sách các mã danh mục.

So sánh chuỗi

Unicode thêm một số biến chứng để so sánh các chuỗi, bởi vì cùng một tập hợp các ký tự có thể được biểu diễn bằng các chuỗi điểm mã khác nhau. Ví dụ: một chữ cái như 'Ê' có thể được biểu diễn dưới dạng một điểm mã U+00EA hoặc dưới dạng U+0065 U+0302, là điểm mã cho 'e' theo sau là điểm mã để 'kết hợp âm thanh chu vi' . Chúng sẽ tạo ra cùng một đầu ra khi được in, nhưng một là một chuỗi có độ dài 1 và một chuỗi còn lại có độ dài 2.

Một công cụ để so sánh không nhạy cảm trường hợp là phương thức chuỗi

>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')  
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'ꀀabcd޴'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'
1 chuyển đổi chuỗi thành dạng không nhạy cảm trường hợp theo thuật toán được mô tả bởi tiêu chuẩn Unicode. Thuật toán này có xử lý đặc biệt cho các ký tự như chữ cái tiếng Đức ‘ß, (điểm mã U+00DF), trở thành cặp chữ thường‘ ss.

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
4

Một công cụ thứ hai là hàm

>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')  
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'ꀀabcd޴'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'
2 ____ ____993 chuyển đổi chuỗi thành một trong một số dạng thông thường, trong đó các chữ cái theo sau là một ký tự kết hợp được thay thế bằng các ký tự đơn.
>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')  
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'ꀀabcd޴'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'
3 có thể được sử dụng để thực hiện các so sánh chuỗi giành được sự bất bình đẳng báo cáo sai nếu hai chuỗi sử dụng kết hợp các ký tự khác nhau:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
5

Khi chạy, điều này xuất bản:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
6

Đối số đầu tiên cho hàm

>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')  
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'ꀀabcd޴'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'
3 là một chuỗi đưa ra biểu mẫu chuẩn hóa mong muốn, có thể là một trong những ‘NFC,‘ NFKC, ‘NFD, và‘ NFKD.

Tiêu chuẩn Unicode cũng chỉ định cách so sánh Casless:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
7

Điều này sẽ in

>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')  
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'ꀀabcd޴'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'
6. .

Unicode biểu thức chính quy

Các biểu thức thông thường được hỗ trợ bởi mô -đun

>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')  
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'ꀀabcd޴'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'
9 có thể được cung cấp dưới dạng byte hoặc chuỗi. Một số chuỗi ký tự đặc biệt như
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
00 và
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
01 có ý nghĩa khác nhau tùy thuộc vào việc mẫu được cung cấp là byte hay chuỗi. Ví dụ:
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
00 sẽ khớp với các ký tự
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
03 trong byte nhưng trong các chuỗi sẽ phù hợp với bất kỳ ký tự nào mà trong danh mục
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
04.

Chuỗi trong ví dụ này có số 57 được viết bằng cả chữ số Thái Lan và tiếng Ả Rập:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
8

Khi được thực hiện,

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
05 sẽ khớp với các chữ số Thái Lan và in chúng ra. Nếu bạn cung cấp cờ
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
06 cho
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
07, thay vào đó,
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
05 sẽ phù hợp với bộ con 57 57.

Tương tự,

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
01 phù hợp với nhiều ký tự Unicode nhưng chỉ
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
10 trong byte hoặc nếu
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
06 được cung cấp và
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
12 sẽ khớp với các ký tự Whitespace Unicode hoặc
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
13.

Người giới thiệu¶

Một số cuộc thảo luận thay thế tốt về hỗ trợ unicode của Python là:

  • Xử lý các tệp văn bản trong Python 3, bởi Nick Coghlan.

  • Unicode thực dụng, một bài thuyết trình PYCON 2012 của Ned Batchelder.

Loại

try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")
8 được mô tả trong tham chiếu thư viện Python ở loại chuỗi văn bản - str.Text Sequence Type — str.

Tài liệu cho mô -đun

>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')  
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'ꀀabcd޴'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'
2.

Tài liệu cho mô -đun

>>> b'\x80abc'.decode("utf-8", "strict")  
Traceback (most recent call last):
    ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0:
  invalid start byte
>>> b'\x80abc'.decode("utf-8", "replace")
'\ufffdabc'
>>> b'\x80abc'.decode("utf-8", "backslashreplace")
'\\x80abc'
>>> b'\x80abc'.decode("utf-8", "ignore")
'abc'
9.

Marc-André Lemburg đã trình bày một bài thuyết trình có tựa đề là Py Python và Unicode, (slide PDF) tại Europython 2002. Các slide là một tổng quan tuyệt vời về thiết kế của các tính năng Unicode của Python 2 (trong đó loại chuỗi Unicode được gọi .

Đọc và viết dữ liệu Unicode

Khi bạn đã viết một số mã hoạt động với dữ liệu Unicode, vấn đề tiếp theo là đầu vào/đầu ra. Làm thế nào để bạn có được chuỗi Unicode vào chương trình của bạn và làm thế nào để bạn chuyển đổi Unicode thành một hình thức phù hợp để lưu trữ hoặc truyền?

Nó có thể là bạn có thể không cần phải làm bất cứ điều gì tùy thuộc vào nguồn đầu vào và điểm đến đầu ra của bạn; Bạn nên kiểm tra xem các thư viện được sử dụng trong ứng dụng của bạn hỗ trợ Unicode tự nhiên. Trình phân tích cú pháp XML thường trả về dữ liệu Unicode chẳng hạn. Nhiều cơ sở dữ liệu quan hệ cũng hỗ trợ các cột có giá trị Unicode và có thể trả về các giá trị Unicode từ truy vấn SQL.

Dữ liệu Unicode thường được chuyển đổi thành một mã hóa cụ thể trước khi nó được ghi vào đĩa hoặc gửi qua ổ cắm. Nó có thể tự mình thực hiện tất cả các công việc: mở một tệp, đọc một đối tượng byte 8 bit từ nó và chuyển đổi byte bằng

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
19. Tuy nhiên, phương pháp thủ công không được khuyến khích.

Một vấn đề là bản chất đa byte của mã hóa; Một ký tự Unicode có thể được biểu diễn bằng một số byte. Nếu bạn muốn đọc tệp bằng các khối có kích thước tùy ý (giả sử, 1024 hoặc 4096 byte), bạn cần viết mã xử lý lỗi để bắt trường hợp chỉ có một phần của byte mã hóa một ký tự unicode duy nhất được đọc ở cuối một khối. Một giải pháp sẽ là đọc toàn bộ tệp vào bộ nhớ và sau đó thực hiện giải mã, nhưng điều đó ngăn bạn làm việc với các tệp cực kỳ lớn; Nếu bạn cần đọc tệp 2 Gib, bạn cần 2 GIB RAM. (Thêm, thực sự, vì trong ít nhất một khoảnh khắc bạn cần phải có cả chuỗi được mã hóa và phiên bản Unicode của nó trong bộ nhớ.)

Giải pháp sẽ là sử dụng giao diện giải mã cấp thấp để bắt gặp trường hợp của các chuỗi mã hóa một phần. Công việc thực hiện điều này đã được thực hiện cho bạn: hàm

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
20 tích hợp có thể trả về một đối tượng giống như tệp giả định nội dung tệp trong một mã hóa được chỉ định và chấp nhận các tham số Unicode cho các phương thức như
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
21 và
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
22. Điều này hoạt động thông qua các tham số mã hóa và lỗi của ____ 120 được giải thích giống như trong
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
8 và
>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'
7.

Do đó, đọc Unicode từ một tệp rất đơn giản:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
9

Nó cũng có thể mở các tệp ở chế độ cập nhật, cho phép cả đọc và viết:

0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...
0

Ký tự Unicode

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
26 được sử dụng làm nhãn hiệu thứ tự byte (BOM) và thường được viết là ký tự đầu tiên của một tệp để hỗ trợ tự động phát hiện đơn đặt hàng byte. Một số mã hóa, chẳng hạn như UTF-16, mong đợi một BOM sẽ có mặt khi bắt đầu một tập tin; Khi một mã hóa như vậy được sử dụng, BOM sẽ tự động được viết dưới dạng ký tự đầu tiên và sẽ được giảm âm thầm khi đọc tệp. Có các biến thể của các mã hóa này, chẳng hạn như ‘UTF-16-LE, và‘ UTF-16-BE cho các mã hóa Little-Endian và Big-Endian, chỉ định một thứ tự byte cụ thể và don don bỏ qua BOM.

Ở một số khu vực, cũng là quy ước để sử dụng một BOM BOM khi bắt đầu các tệp được mã hóa UTF-8; Tên này là sai lệch vì UTF-8 không phụ thuộc vào thứ tự byte. Dấu chỉ đơn giản là thông báo rằng tệp được mã hóa trong UTF-8. Để đọc các tệp như vậy, hãy sử dụng codec ‘UTF-8-SIG để tự động bỏ qua dấu nếu có.

Tên tệp Unicode

Hầu hết các hệ điều hành được sử dụng phổ biến ngày nay hỗ trợ các tên tệp có chứa các ký tự Unicode tùy ý. Thông thường điều này được thực hiện bằng cách chuyển đổi chuỗi unicode thành một số mã hóa khác nhau tùy thuộc vào hệ thống. Ngày nay, Python đang hội tụ sử dụng UTF-8: Python trên MacOS đã sử dụng UTF-8 cho một số phiên bản và Python 3.6 đã chuyển sang sử dụng UTF-8 trên Windows. Trên các hệ thống Unix, sẽ chỉ có mã hóa hệ thống tập tin. Nếu bạn đã đặt các biến môi trường

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
27 hoặc
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
28; Nếu bạn thiên đường, mã hóa mặc định lại là UTF-8.filesystem encoding. if you’ve set the
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
27 or
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
28 environment variables; if you haven’t, the default encoding is again UTF-8.

Hàm

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
29 trả về mã hóa để sử dụng trên hệ thống hiện tại của bạn, trong trường hợp bạn muốn thực hiện mã hóa thủ công, nhưng ở đó không có nhiều lý do để bận tâm. Khi mở tệp để đọc hoặc viết, bạn thường chỉ có thể cung cấp chuỗi Unicode dưới dạng tên tệp và nó sẽ được tự động chuyển đổi sang mã hóa phù hợp với bạn:

0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...
1

Các chức năng trong mô -đun

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
30 như
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
31 cũng sẽ chấp nhận tên tệp unicode.

Hàm

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
32 trả về tên tệp, làm tăng sự cố: nó có nên trả về phiên bản unicode của tên tệp hay nó nên trả về byte chứa các phiên bản được mã hóa?
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
32 có thể thực hiện cả hai, tùy thuộc vào việc bạn cung cấp đường dẫn thư mục là byte hay chuỗi unicode. Nếu bạn vượt qua chuỗi Unicode làm đường dẫn, tên tệp sẽ được giải mã bằng cách sử dụng mã hóa hệ thống tập tin và danh sách các chuỗi Unicode sẽ được trả về, trong khi đi qua đường dẫn byte sẽ trả về các tên tệp dưới dạng byte. Ví dụ: giả sử mã hóa hệ thống tập tin mặc định là UTF-8, chạy chương trình sau:filesystem encoding is UTF-8, running the following program:

0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...
2

sẽ tạo ra đầu ra sau:

0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...
3

Danh sách đầu tiên chứa các tên tệp được mã hóa UTF-8 và danh sách thứ hai chứa các phiên bản Unicode.

Lưu ý rằng trong hầu hết các trường hợp, bạn nên chỉ có thể sử dụng Unicode với các API này. Các API byte chỉ nên được sử dụng trên các hệ thống nơi có thể có tên tệp không thể mã hóa; Đó là khá nhiều hệ thống UNIX bây giờ.

Mẹo để viết các chương trình nhận biết Unicode

Phần này cung cấp một số gợi ý về việc viết phần mềm liên quan đến Unicode.

Mẹo quan trọng nhất là:

Phần mềm chỉ nên hoạt động với các chuỗi Unicode bên trong, giải mã dữ liệu đầu vào càng sớm càng tốt và mã hóa đầu ra ở cuối.

Nếu bạn cố gắng viết các chức năng xử lý chấp nhận cả chuỗi unicode và byte, bạn sẽ thấy chương trình của mình dễ bị lỗi ở bất cứ nơi nào bạn kết hợp hai loại chuỗi khác nhau. Không có mã hóa hoặc giải mã tự động: Nếu bạn làm, ví dụ:

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
34, A
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
35 sẽ được nâng lên.

Khi sử dụng dữ liệu đến từ trình duyệt web hoặc một số nguồn không đáng tin cậy khác, một kỹ thuật phổ biến là kiểm tra các ký tự bất hợp pháp trong một chuỗi trước khi sử dụng chuỗi trong một dòng lệnh được tạo hoặc lưu trữ nó trong cơ sở dữ liệu. Nếu bạn làm điều này, hãy cẩn thận để kiểm tra chuỗi được giải mã, không phải là dữ liệu byte được mã hóa; Một số mã hóa có thể có các thuộc tính thú vị, chẳng hạn như không tương thích hoàn toàn hoặc không tương thích với ASCII. Điều này đặc biệt đúng nếu dữ liệu đầu vào cũng chỉ định mã hóa, vì kẻ tấn công sau đó có thể chọn một cách thông minh để ẩn văn bản độc hại trong byteStream được mã hóa.

Chuyển đổi giữa mã hóa tệp

Lớp

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
36 có thể chuyển đổi một cách minh bạch giữa các mã hóa, lấy một luồng trả về dữ liệu trong mã hóa số 1 và hoạt động như một luồng trả về dữ liệu trong mã hóa #2.

Ví dụ: nếu bạn có một tệp đầu vào f mà Latin-1, bạn có thể bọc nó bằng

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
36 để trả về byte được mã hóa trong UTF-8:

0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...
4

Các tệp trong một mã hóa không xác định

Bạn có thể làm gì nếu bạn cần thực hiện thay đổi cho một tệp, nhưng không biết mã hóa tệp? Nếu bạn biết mã hóa tương thích ASCII và chỉ muốn kiểm tra hoặc sửa đổi các phần ASCII, bạn có thể mở tệp bằng trình xử lý lỗi

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
38:

0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...
5

Trình xử lý lỗi

...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
38 sẽ giải mã bất kỳ byte không ASCII nào dưới dạng các điểm mã trong một phạm vi đặc biệt chạy từ U+DC80 đến U+DCFF. Các điểm mã này sau đó sẽ quay lại thành cùng một byte khi trình xử lý lỗi
...
def set_defaultencoding_globally(encoding='utf-8'):
    assert sys.getdefaultencoding() in ('ascii', 'mbcs', encoding)
    import imp
    _sys_org = imp.load_dynamic('_sys_org', 'sys')
    _sys_org.setdefaultencoding(encoding)

if __name__ == '__main__':
    sys.stdout = sys.stderr = SmartStdout()
    set_defaultencoding_globally('utf-8') 
    s = 'aouäöüфżß²'
    print s
38 được sử dụng để mã hóa dữ liệu và ghi lại.

Người giới thiệu¶

Một phần của việc làm chủ Python 3 đầu vào/đầu ra, một cuộc nói chuyện PYCON 2010 của David Beazley, thảo luận về xử lý văn bản và xử lý dữ liệu nhị phân.

Các slide PDF cho bài thuyết trình của Marc-André Lemburg, Viết các ứng dụng nhận biết Unicode trong Python, thảo luận về các câu hỏi về mã hóa nhân vật cũng như cách quốc tế hóa và bản địa hóa một ứng dụng. Các slide này chỉ bao gồm Python 2.x.

Guts of Unicode trong Python là một cuộc nói chuyện của Pycon 2013 của Benjamin Peterson, thảo luận về đại diện Unicode nội bộ trong Python 3.3.

Sự nhìn nhận¶

Bản thảo ban đầu của tài liệu này được viết bởi Andrew Kuchling. Nó đã được sửa đổi thêm bởi Alexander Belopolsky, Georg Brandl, Andrew Kuchling và Ezio Melotti.

Cảm ơn những người sau đây đã lưu ý các lỗi hoặc đưa ra đề xuất về bài viết này: , Eryk Sun, Chad Whitacre, Graham Wideman.

Làm cách nào để thay đổi mã hóa thành UTF

Làm thế nào để chuyển đổi một chuỗi thành UTF-8 trong Python ?..
String1 = "Apple" String2 = "preeti125" String3 = "12345" String4 = "pre@12".
sợi dây.mã hóa (mã hóa = 'UTF-8', lỗi = 'nghiêm ngặt').
# chuỗi unicode chuỗi = 'pythön!'# Mã hóa mặc định thành UTF-8 String_utf = String.Encode () in ('Phiên bản được mã hóa là:', String_utf).

Mã hóa là gì = 'utf

UTF-8 là mã hóa theo định hướng byte.Mã hóa chỉ định rằng mỗi ký tự được biểu diễn bằng một chuỗi cụ thể của một hoặc nhiều byte.specifies that each character is represented by a specific sequence of one or more bytes.

Làm thế nào để bạn chuyển đổi từ Latin1 sang UTF

Một loại unicode là một tập hợp các byte có thể được chuyển đổi thành bất kỳ số lượng mã hóa nào, phổ biến nhất là UTF-8 và Latin-1 (ISO8859-1), lệnh in có logic riêng để mã hóa, được đặt thành SYS.Stdout.mã hóa và mặc định cho UTF-8.

Làm cách nào để thay đổi Unicode trong Python?

Phương thức số 2: Sử dụng Định dạng nối () + định dạng () + ord () Trong đó, nhiệm vụ thay thế trong chuỗi được định dạng unicode được thực hiện bằng định dạng () và ord () được sử dụng để chuyển đổi.Using join() + format() + ord() In this, task of substitution in unicode formatted string is done using format() and ord() is used for conversion.