Hướng dẫn how to type symbols in python - cách gõ ký hiệu trong python

Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem nó cùng với hướng dẫn bằng văn bản để làm sâu sắc thêm sự hiểu biết của bạn: Unicode in Python: Làm việc với mã hóa ký tự

Xử lý mã hóa ký tự trong Python hoặc bất kỳ ngôn ngữ nào khác có thể có vẻ đau đớn. Những nơi như Stack Overflow có hàng ngàn câu hỏi xuất phát từ sự nhầm lẫn về các ngoại lệ như

6 và minh họa rằng làm việc với dữ liệu văn bản và nhị phân trong Python 3 có thể là một trải nghiệm suôn sẻ. Hỗ trợ của Python sườn Unicode rất mạnh mẽ và mạnh mẽ, nhưng phải mất một thời gian để làm chủ.

Hướng dẫn này là khác nhau bởi vì nó không phải là ngôn ngữ-bất khả tri mà thay vào đó là cố tình trung tâm. Bạn vẫn sẽ nhận được một đoạn mồi không liên tục ngôn ngữ, nhưng sau đó bạn sẽ đi sâu vào các hình minh họa trong Python, với các đoạn văn nặng về văn bản được giữ ở mức tối thiểu. Bạn có thể thấy cách sử dụng các khái niệm mã hóa ký tự trong mã Python trực tiếp.

Đến cuối hướng dẫn này, bạn sẽ:

  • Nhận tổng quan về khái niệm về mã hóa ký tự và hệ thống đánh số
Các hệ thống mã hóa và đánh số ký tự được kết nối chặt chẽ đến mức chúng cần được đề cập trong cùng một hướng dẫn hoặc nếu không thì việc điều trị của một trong hai sẽ hoàn toàn không đủ.

Những gì một nhân vật mã hóa?

Có hàng chục nếu không phải hàng trăm mã hóa nhân vật. Cách tốt nhất để bắt đầu hiểu những gì chúng là bao gồm một trong những mã hóa nhân vật đơn giản nhất, ASCII.

Cho dù bạn tự học hay có nền tảng khoa học máy tính chính thức, rất có thể bạn đã thấy một bảng ASCII một hoặc hai lần. ASCII là một nơi tốt để bắt đầu tìm hiểu về mã hóa ký tự vì nó là một mã hóa nhỏ và có chứa. [Quá nhỏ, hóa ra.]

Nó bao gồm những điều sau đây:

  • Chữ cái chữ thường chữ cái: a đến z: a through z
  • Chữ hoa chữ hoa: a đến z: A through Z
  • Một số dấu câu và biểu tượng:
Vậy một định nghĩa chính thức hơn về mã hóa ký tự là gì?

Ở cấp độ rất cao, nó có một cách dịch các ký tự [như chữ cái, dấu câu, ký hiệu, khoảng trắng và ký tự điều khiển] sang số nguyên và cuối cùng là các bit. Mỗi ký tự có thể được mã hóa thành một chuỗi các bit duy nhất. Đừng lo lắng nếu bạn run rẩy về khái niệm bit, bởi vì chúng tôi sẽ sớm nhận được chúng.

Các loại khác nhau được phác thảo đại diện cho các nhóm ký tự. Mỗi ký tự duy nhất có một điểm mã tương ứng, mà bạn có thể nghĩ là chỉ là một số nguyên. Các ký tự được phân đoạn thành các phạm vi khác nhau trong bảng ASCII:code point, which you can think of as just an integer. Characters are segmented into different ranges within the ASCII table:

Phạm vi điểm mãLớp
0 đến 31Ký tự điều khiển/không in
32 đến 64Dấu câu, biểu tượng, số và không gian
65 đến 90Chữ cái chữ cái chữ hoa
91 đến 96Các biểu đồ bổ sung, chẳng hạn như
127 Del [xóa]

Mô -đun
>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'

Mô-đun Python sườn

>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'
43 là một cửa một cửa thuận tiện cho các hằng số chuỗi rơi vào bộ ký tự ASCII.

Ở đây, cốt lõi của mô -đun trong tất cả vinh quang của nó:

# From lib/python3.7/string.py

whitespace = ' \t\n\r\v\f'
ascii_lowercase = 'abcdefghijklmnopqrstuvwxyz'
ascii_letters = ascii_lowercase + ascii_uppercase
digits = '0123456789'
hexdigits = digits + 'abcdef' + 'ABCDEF'
octdigits = '01234567'
punctuation = r"""!"#$%&'[]*+,-./:;?@[\]^_`{|}~"""
printable = digits + ascii_letters + punctuation + whitespace

Hầu hết các hằng số này nên tự ghi chép trong tên định danh của chúng. Chúng tôi sẽ bao gồm những gì

>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'
45 và
>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'
46 trong thời gian ngắn.

Bạn có thể sử dụng các hằng số này để thao tác chuỗi hàng ngày:


>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'

Một chút bồi dưỡng

Bây giờ là thời điểm tốt cho việc bồi dưỡng ngắn về bit, đơn vị thông tin cơ bản nhất mà máy tính biết.bit, the most fundamental unit of information that a computer knows.

Một chút là một tín hiệu chỉ có hai trạng thái có thể. Có nhiều cách khác nhau để thể hiện một chút một chút mà tất cả đều có nghĩa là cùng một điều:

  • 0 hoặc 1
  • "có hay không"
  • Số thập phân

Nhị phân [nhỏ gọn]

Nhị phân [dạng đệm]


Thật tuyệt vời khi các biểu thức này phổ biến như thế nào trong thư viện tiêu chuẩn Python. Nếu bạn muốn tự mình nhìn thấy, hãy điều hướng đến bất cứ nơi nào thư mục

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
70] thành các số nguyên dương, khác biệt. Một mã hóa nhân vật cần cung cấp thêm một chút.Unicode itself is not an encoding. Rather, Unicode is implemented by different character encodings, which you’ll see soon. Unicode is better thought of as a map [something like a
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
67] or a 2-column database table. It maps characters [like
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
69, or even
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
70] to distinct, positive integers. A character encoding needs to offer a bit more.

Unicode chứa hầu như mọi nhân vật mà bạn có thể tưởng tượng, bao gồm cả những người không thể in bổ sung. Một trong những mục yêu thích của tôi là dấu hiệu từ phải sang trái, có mã điểm 8207 và được sử dụng trong văn bản với cả các tập lệnh ngôn ngữ từ trái sang phải và từ phải, chẳng hạn như một bài viết có chứa cả đoạn văn tiếng Anh và tiếng Ả Rập .

Unicode vs UTF-8

Nó đã không mất nhiều thời gian để mọi người nhận ra rằng tất cả các nhân vật trên thế giới không thể được đóng gói thành một byte. Nó rõ ràng từ đó rằng các mã hóa hiện đại, toàn diện hơn sẽ cần sử dụng nhiều byte để mã hóa một số ký tự.

Bạn cũng thấy ở trên rằng Unicode không phải là một mã hóa ký tự toàn diện. Tại sao vậy?

Có một điều mà Unicode không nói với bạn: Nó không cho bạn biết làm thế nào để có được các bit thực tế từ văn bản chỉ các điểm mã. Nó không cho bạn biết đủ về cách chuyển đổi văn bản thành dữ liệu nhị phân và ngược lại.

Unicode là một tiêu chuẩn mã hóa trừu tượng, không phải là mã hóa. Đó là nơi mà UTF-8 và các chương trình mã hóa khác xuất hiện. Tiêu chuẩn Unicode [Bản đồ các ký tự cho các điểm mã] xác định một số mã hóa khác nhau từ bộ ký tự đơn của nó.

UTF-8 cũng như anh em họ ít sử dụng hơn, UTF-16 và UTF-32, là các định dạng mã hóa để đại diện cho các ký tự Unicode dưới dạng dữ liệu nhị phân của một hoặc nhiều byte trên mỗi ký tự. Chúng tôi sẽ thảo luận về UTF-16 và UTF-32 trong một khoảnh khắc, nhưng UTF-8 đã chiếm phần chia sẻ lớn nhất của chiếc bánh.

Điều đó đưa chúng ta đến một định nghĩa đã quá hạn lâu. Nó có nghĩa là gì, chính thức, để mã hóa và giải mã?encode and decode?

Mã hóa và giải mã trong Python 3

Loại Python 3

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
7 có nghĩa là đại diện cho văn bản có thể đọc được của con người và có thể chứa bất kỳ ký tự Unicode nào.


def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
8, ngược lại, đại diện cho dữ liệu nhị phân hoặc chuỗi byte thô, bản chất không có mã hóa được gắn vào nó.

Mã hóa và giải mã là quá trình đi từ cái này sang cái khác:

Mã hóa so với giải mã [Hình ảnh: Python thật]


>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
73 và
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
74, tham số
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
75 là
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
76 theo mặc định, mặc dù nó thường an toàn hơn và không rõ ràng hơn để chỉ định nó:


Đây là lý do tại sao, khi gọi

>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
80, tương thích ASCII
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
81 được phép được biểu diễn như nó là, nhưng N với Tilde được thoát đến
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
82. Trình tự trông lộn xộn đó đại diện cho hai byte,
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
83 và
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
84 trong hex:


>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'

Đó là, ký tự

>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
85 yêu cầu hai byte cho biểu diễn nhị phân của nó theo UTF-8.

  Python 3: All-in on unicode

  • Python 3 là tất cả trên Unicode và UTF-8 cụ thể. Ở đây, điều đó có nghĩa là gì:

  • Mã nguồn Python 3 được coi là UTF-8 theo mặc định. Điều này có nghĩa là bạn không cần

    >>> def make_bitseq[s: str] -> str:
    ...     if not s.isascii[]:
    ...         raise ValueError["ASCII only allowed"]
    ...     return " ".join[f"{ord[i]:08b}" for i in s]
    >>> make_bitseq["bits"]
    '01100010 01101001 01110100 01110011'
    >>> make_bitseq["CAPS"]
    '01000011 01000001 01010000 01010011'
    >>> make_bitseq["$25.43"]
    '00100100 00110010 00110101 00101110 00110100 00110011'
    >>> make_bitseq["~5"]
    '01111110 00110101'
    86 ở đầu các tệp
    >>> def make_bitseq[s: str] -> str:
    ...     if not s.isascii[]:
    ...         raise ValueError["ASCII only allowed"]
    ...     return " ".join[f"{ord[i]:08b}" for i in s]
    >>> make_bitseq["bits"]
    '01100010 01101001 01110100 01110011'
    >>> make_bitseq["CAPS"]
    '01000011 01000001 01010000 01010011'
    >>> make_bitseq["$25.43"]
    '00100100 00110010 00110101 00101110 00110100 00110011'
    >>> make_bitseq["~5"]
    '01111110 00110101'
    87 trong Python 3.

  • Tất cả văn bản [

    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    7] là Unicode theo mặc định. Văn bản unicode được mã hóa được biểu diễn dưới dạng dữ liệu nhị phân [
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    8]. Loại
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    7 có thể chứa bất kỳ ký tự unicode theo nghĩa đen nào, chẳng hạn như
    >>> def make_bitseq[s: str] -> str:
    ...     if not s.isascii[]:
    ...         raise ValueError["ASCII only allowed"]
    ...     return " ".join[f"{ord[i]:08b}" for i in s]
    >>> make_bitseq["bits"]
    '01100010 01101001 01110100 01110011'
    >>> make_bitseq["CAPS"]
    '01000011 01000001 01010000 01010011'
    >>> make_bitseq["$25.43"]
    '00100100 00110010 00110101 00101110 00110100 00110011'
    >>> make_bitseq["~5"]
    '01111110 00110101'
    91, tất cả chúng sẽ được lưu trữ dưới dạng Unicode.

  • Python 3 chấp nhận nhiều điểm mã Unicode trong các định danh, có nghĩa là

    >>> def make_bitseq[s: str] -> str:
    ...     if not s.isascii[]:
    ...         raise ValueError["ASCII only allowed"]
    ...     return " ".join[f"{ord[i]:08b}" for i in s]
    >>> make_bitseq["bits"]
    '01100010 01101001 01110100 01110011'
    >>> make_bitseq["CAPS"]
    '01000011 01000001 01010000 01010011'
    >>> make_bitseq["$25.43"]
    '00100100 00110010 00110101 00101110 00110100 00110011'
    >>> make_bitseq["~5"]
    '01111110 00110101'
    92 là hợp lệ nếu điều này tạo ra sự ưa thích của bạn.

Mô -đun Python từ

>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
93 mặc định là cờ
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
94 thay vì
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
95. Điều này có nghĩa là, ví dụ,
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
96 phù hợp với các ký tự từ Unicode, không chỉ các chữ cái ASCII.


Đó là, ký tự

>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
85 yêu cầu hai byte cho biểu diễn nhị phân của nó theo UTF-8.variable-length encoding. It’s tempting to gloss over what this means, but it’s worth delving into.

Python 3: All-in on unicode

Python 3 là tất cả trên Unicode và UTF-8 cụ thể. Ở đây, điều đó có nghĩa là gì:Mã nguồn Python 3 được coi là UTF-8 theo mặc định. Điều này có nghĩa là bạn không cần
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
86 ở đầu các tệp
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
87 trong Python 3.Tất cả văn bản [
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
7] là Unicode theo mặc định. Văn bản unicode được mã hóa được biểu diễn dưới dạng dữ liệu nhị phân [
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
8]. Loại
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
7 có thể chứa bất kỳ ký tự unicode theo nghĩa đen nào, chẳng hạn như
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
91, tất cả chúng sẽ được lưu trữ dưới dạng Unicode.Python 3 chấp nhận nhiều điểm mã Unicode trong các định danh, có nghĩa là
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
92 là hợp lệ nếu điều này tạo ra sự ưa thích của bạn.
Mô -đun Python từ
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
93 mặc định là cờ
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
94 thay vì
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
95. Điều này có nghĩa là, ví dụ,
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
96 phù hợp với các ký tự từ Unicode, không chỉ các chữ cái ASCII.
Mặc định
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
75 trong
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
77 và
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
99 là UTF-8.
Có một thuộc tính khác có nhiều sắc thái hơn, đó là mặc định
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
75 cho
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
01 tích hợp phụ thuộc vào nền tảng và phụ thuộc vào giá trị của
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Một lần nữa, bài học ở đây là cẩn thận về việc đưa ra các giả định khi nói đến tính phổ quát của UTF-8, ngay cả khi đó là mã hóa chiếm ưu thế. Không bao giờ đau khi được rõ ràng trong mã của bạn.
Một byte, hai byte, ba byte, bốnMột tính năng quan trọng là UTF-8 là một mã hóa có độ dài thay đổi. Nó rất hấp dẫn để che giấu ý nghĩa của điều này, nhưng nó đáng để đi sâu vào.Nghĩ lại phần trên ASCII. Tất cả mọi thứ trong nhu cầu đất đai mở rộng nhiều nhất là một byte không gian. Bạn có thể nhanh chóng chứng minh điều này với biểu thức máy phát sau:UTF-8 khá khác nhau. Một ký tự unicode nhất định có thể chiếm bất cứ nơi nào từ một đến bốn byte. Ở đây, một ví dụ về một ký tự unicode duy nhất chiếm bốn byte:
Đây là một tính năng tinh tế nhưng quan trọng của
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Độ dài của một ký tự unicode duy nhất là Python
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
7 sẽ luôn luôn là 1, bất kể nó chiếm bao nhiêu byte.
Độ dài của cùng một ký tự được mã hóa thành
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
8 sẽ ở bất cứ đâu trong khoảng từ 1 đến 4.
Bảng dưới đây tóm tắt những loại ký tự chung nào phù hợp với mỗi nhóm có độ dài byte:
Phạm vi thập phânPhạm vi hexNhững gì bao gồmVí dụ

0 đến 127
**A huge array of languages and symbols—mostly Chinese, Japanese, and Korean by volume [also ASCII and Latin alphabets]
***Additional Chinese, Japanese, Korean, and Vietnamese characters, plus more symbols and emojis

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
06 đến
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits


def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits


>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'

128 đến 2047

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
12 đến
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

Hầu hết các bảng chữ cái Latin*

Mã hóaByte trên mỗi ký tự [bao gồm]Chiều dài thay đổi
UTF-81 đến 4Đúng
UTF-162 đến 4Đúng
UTF-164 2 đến 4



>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'

Một khía cạnh gây tò mò khác của gia đình UTF là UTF-8 sẽ không phải lúc nào cũng chiếm ít không gian hơn UTF-16. Điều đó có vẻ phản trực giác về mặt toán học, nhưng nó hoàn toàn có thể:


Lý do cho điều này là các điểm mã trong phạm vi

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
32 đến
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
33 [2048 đến 65535 trong thập phân] chiếm ba byte trong UTF-8 so với chỉ hai trong UTF-16.

Tôi không phải là bất kỳ phương tiện nào khuyến nghị bạn nhảy lên tàu UTF-16, bất kể bạn có hoạt động bằng ngôn ngữ mà các nhân vật thường nằm trong phạm vi này hay không. Trong số các lý do khác, một trong những lập luận mạnh mẽ cho việc sử dụng UTF-8 là, trong thế giới mã hóa, đó là một ý tưởng tuyệt vời để hòa nhập với đám đông.

Chưa kể, đó là năm 2019: Bộ nhớ máy tính rẻ, vì vậy hãy tiết kiệm 4 byte bằng cách cố gắng sử dụng UTF-16 được cho là không xứng đáng.

Chức năng tích hợp của Python

  • def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
  • def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
  • def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
  • def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
  • def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
  • >>> import string
    >>> s = "What's wrong with ASCII?!?!?"
    >>> s.rstrip[string.punctuation]
    'What's wrong with ASCII'
  • def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
  • >>> import string
    >>> s = "What's wrong with ASCII?!?!?"
    >>> s.rstrip[string.punctuation]
    'What's wrong with ASCII'
  • def n_possible_values[nbits: int] -> int:
        return 2 ** nbits

Bạn đã thực hiện nó thông qua phần khó khăn. Thời gian để sử dụng những gì bạn đã thấy cho đến nay trong Python.

  • Python có một nhóm các chức năng tích hợp liên quan theo một cách nào đó để đánh số hệ thống và mã hóa ký tự: are for obtaining a different representation of an input. Each one produces a

    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    7. The first,
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    34, produces an ASCII only representation of an object, with non-ASCII characters escaped. The remaining three give binary, hexadecimal, and octal representations of an integer, respectively. These are only representations, not a fundamental change in the input.

  • Chúng có thể được nhóm lại một cách hợp lý dựa trên mục đích của chúng: are class constructors for their respective types,

    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    7, and
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    9. They each offer ways of coercing the input into the desired type. For instance, as you saw earlier, while
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    55 is probably more common, you might also see
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits

  • def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    38 và
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    40 là để có được một biểu diễn khác của đầu vào. Mỗi người tạo ra một
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    7. Đầu tiên,
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    34, tạo ra một đại diện chỉ ASCII của một đối tượng, với các ký tự không phải ASCII đã thoát ra. Ba phần còn lại cho các biểu diễn nhị phân, thập lục phân và phân bổ của một số nguyên, tương ứng. Đây chỉ là những đại diện, không phải là một thay đổi cơ bản trong đầu vào.
    are inverses of each other in that the Python
    >>> import string
    >>> s = "What's wrong with ASCII?!?!?"
    >>> s.rstrip[string.punctuation]
    'What's wrong with ASCII'
    51 function converts a
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    7 character to its base-10 code point, while
    def n_possible_values[nbits: int] -> int:
        return 2 ** nbits
    37 does the opposite.

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
42 và
>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'
60 là các hàm tạo lớp cho các loại tương ứng của chúng,
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
7 và
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
9. Mỗi người cung cấp các cách ép buộc đầu vào vào loại mong muốn. Chẳng hạn, như bạn đã thấy trước đó, trong khi
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
55 có lẽ là phổ biến hơn, bạn cũng có thể thấy
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'
51 và
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
37 là nghịch đảo của nhau ở chỗ hàm Python
>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'
51 chuyển đổi ký tự
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
7 thành điểm mã cơ sở-10 của nó, trong khi
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
37 thực hiện ngược lại.Ở đây, một cái nhìn chi tiết hơn về mỗi chín chức năng này:Hàm sốChữ kýChấp nhận
Loại trở lạiMục đích
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Thay đổi
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
ASCII chỉ đại diện cho một đối tượng, với các ký tự không phải ASCII đã thoát ra
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Thay đổi
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Thay đổi
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
ASCII chỉ đại diện cho một đối tượng, với các ký tự không phải ASCII đã thoát ra
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Thay đổi
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
ASCII chỉ đại diện cho một đối tượng, với các ký tự không phải ASCII đã thoát ra
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Thay đổi
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Thay đổi
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
ASCII chỉ đại diện cho một đối tượng, với các ký tự không phải ASCII đã thoát ra
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Thay đổi
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
ASCII chỉ đại diện cho một đối tượng, với các ký tự không phải ASCII đã thoát ra
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]

>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Thay đổi
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]

>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
Thay đổi

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

ASCII chỉ đại diện cho một đối tượng, với các ký tự không phải ASCII đã thoát ra


>>> import string

>>> s = "What's wrong with ASCII?!?!?"
>>> s.rstrip[string.punctuation]
'What's wrong with ASCII'

>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'

Một khía cạnh gây tò mò khác của gia đình UTF là UTF-8 sẽ không phải lúc nào cũng chiếm ít không gian hơn UTF-16. Điều đó có vẻ phản trực giác về mặt toán học, nhưng nó hoàn toàn có thể:


>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'

Bên cạnh việc đặt các ký tự Unicode thực tế, không được phân loại vào bảng điều khiển, có những cách khác để nhập các chuỗi Unicode.

Một trong những phần dày đặc nhất của tài liệu Python, là phần về phân tích từ vựng, cụ thể là phần về chuỗi và byte. Cá nhân, tôi đã phải đọc phần này về một, hai, hoặc có thể chín lần để nó thực sự chìm vào.

Một phần của những gì nó nói là có tối đa sáu cách mà Python sẽ cho phép bạn nhập cùng một ký tự Unicode.

Cách đầu tiên và phổ biến nhất là gõ chính nhân vật theo nghĩa đen, như bạn đã thấy. Phần khó khăn với phương pháp này là tìm các tổ hợp phím thực tế. Đó là nơi mà các phương pháp khác để nhận và đại diện cho các nhân vật phát huy tác dụng. Ở đây, danh sách đầy đủ:

Trình tự thoátNghĩaCách thể hiện
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
Ký tự có giá trị bát phân
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
Nhân vật có giá trị hex
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
Ký tự có tên
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
31 trong cơ sở dữ liệu Unicode
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
Ký tự với giá trị hex 16 bit [2 byte]
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
Ký tự với giá trị hex 32 bit [4 byte]
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]

Ở đây, một số bằng chứng và xác nhận của những điều trên:


>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'

Bây giờ, có hai cảnh báo chính:

  1. Không phải tất cả các hình thức này hoạt động cho tất cả các ký tự. Đại diện Hex của số nguyên 300 là

    >>> from math import ceil, log
    >>> def n_bits_required[nvalues: int] -> int:
    ...     return ceil[log[nvalues] / log[2]]
    >>> n_bits_required[256]
    39, đơn giản là sẽ phù hợp với mã thoát 2-hex-chữ số
    >>> from math import ceil, log
    >>> def n_bits_required[nvalues: int] -> int:
    ...     return ceil[log[nvalues] / log[2]]
    >>> n_bits_required[256]
    27. Điểm mã cao nhất mà bạn có thể siết chặt vào chuỗi thoát này là
    >>> from math import ceil, log
    >>> def n_bits_required[nvalues: int] -> int:
    ...     return ceil[log[nvalues] / log[2]]
    >>> n_bits_required[256]
    41 [
    >>> from math import ceil, log
    >>> def n_bits_required[nvalues: int] -> int:
    ...     return ceil[log[nvalues] / log[2]]
    >>> n_bits_required[256]
    42]. Tương tự đối với
    >>> from math import ceil, log
    >>> def n_bits_required[nvalues: int] -> int:
    ...     return ceil[log[nvalues] / log[2]]
    >>> n_bits_required[256]
    24, nó sẽ chỉ hoạt động lên đến
    >>> from math import ceil, log
    >>> def n_bits_required[nvalues: int] -> int:
    ...     return ceil[log[nvalues] / log[2]]
    >>> n_bits_required[256]
    44 [
    >>> from math import ceil, log
    >>> def n_bits_required[nvalues: int] -> int:
    ...     return ceil[log[nvalues] / log[2]]
    >>> n_bits_required[256]

  2. Đối với

    >>> from math import ceil, log
    >>> def n_bits_required[nvalues: int] -> int:
    ...     return ceil[log[nvalues] / log[2]]
    >>> n_bits_required[256]
    >>> from math import ceil, log
    >>> def n_bits_required[nvalues: int] -> int:
    ...     return ceil[log[nvalues] / log[2]]
    >>> n_bits_required[256]
    47 và
    >>> from math import ceil, log
    >>> def n_bits_required[nvalues: int] -> int:
    ...     return ceil[log[nvalues] / log[2]]
    >>> n_bits_required[256]
    48, chính xác là nhiều chữ số được yêu cầu như được hiển thị trong các ví dụ này. Điều này có thể ném bạn cho một vòng lặp vì cách các bảng Unicode thường hiển thị các mã cho các ký tự, với số lượng ký tự hex hàng đầu và biến đổi. Điều quan trọng là các bảng Unicode thường không có các mã này.

Chẳng hạn, nếu bạn tham khảo unicode-table.com để biết thông tin về chữ gothic faihu [hoặc FEHU],

>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
50, bạn sẽ thấy rằng nó được liệt kê là có mã
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]

Làm thế nào để bạn đặt điều này vào

>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
33 hoặc
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
36? Chà, bạn có thể phù hợp với nó trong
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
33 bởi vì nó là một nhân vật 4 byte và sử dụng
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
36 để thể hiện nhân vật này, bạn sẽ cần phải bỏ qua trình tự:

Điều này cũng có nghĩa là mẫu

>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
36 là chuỗi thoát duy nhất có khả năng giữ bất kỳ ký tự unicode nào.

Các mã hóa khác có sẵn trong Python

Cho đến nay, bạn đã thấy bốn mã hóa nhân vật:

  1. Ascii
  2. UTF-8
  3. UTF-16
  4. UTF-32

Có rất nhiều người khác ngoài kia.

Một ví dụ là Latin-1 [còn được gọi là ISO-8859-1], về mặt kỹ thuật là mặc định cho giao thức chuyển siêu văn bản [HTTP], mỗi RFC 2616. Windows có biến thể Latin-1 riêng được gọi là CP1252.

Danh sách đầy đủ các mã hóa được chấp nhận được chôn vùi trong tài liệu cho mô -đun

>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
57, là một phần của thư viện tiêu chuẩn Python.

Có một mã hóa được công nhận hữu ích hơn để nhận thức được, đó là

>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
58. Nếu bạn có một
def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
7 được giải mã và muốn nhanh chóng nhận được một đại diện cho chữ Unicode đã thoát ra của nó, thì bạn có thể chỉ định mã hóa này trong
>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'


>>> def make_bitseq[s: str] -> str:
...     if not s.isascii[]:
...         raise ValueError["ASCII only allowed"]
...     return " ".join[f"{ord[i]:08b}" for i in s]

>>> make_bitseq["bits"]
'01100010 01101001 01110100 01110011'

>>> make_bitseq["CAPS"]
'01000011 01000001 01010000 01010011'

>>> make_bitseq["$25.43"]
'00100100 00110010 00110101 00101110 00110100 00110011'

>>> make_bitseq["~5"]
'01111110 00110101'

Bạn biết những gì họ nói về các giả định

Chỉ vì Python đưa ra giả định mã hóa UTF-8 cho các tệp và mã mà bạn tạo ra không có nghĩa là bạn, lập trình viên, nên hoạt động với cùng một giả định về dữ liệu bên ngoài.

Hãy để nói điều đó một lần nữa bởi vì nó là một quy tắc để sống bằng cách: khi bạn nhận được dữ liệu nhị phân [byte] từ nguồn bên thứ ba, cho dù đó là từ một tệp hoặc qua mạng, thực tế tốt nhất là kiểm tra xem dữ liệu chỉ định mã hóa. Nếu nó không có, thì nó sẽ hỏi bạn.

Tất cả I/O xảy ra trong byte, không phải văn bản và byte chỉ là những cái và số không cho máy tính cho đến khi bạn nói với nó bằng cách thông báo về mã hóa.

Ở đây, một ví dụ về nơi mọi thứ có thể đi sai. Bạn đã đăng ký API gửi cho bạn một công thức trong ngày mà bạn nhận được trong

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
8 và luôn được giải mã bằng cách sử dụng
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
62 mà không có vấn đề gì. Vào ngày đặc biệt này, một phần của công thức trông như thế này:


def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

Có vẻ như công thức gọi một số bột, nhưng chúng tôi không biết bao nhiêu:


def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

Uh oh. Có một số người mắc bệnh

def n_possible_values[nbits: int] -> int:
    return 2 ** nbits
4 có thể cắn bạn khi bạn đưa ra các giả định về mã hóa. Bạn kiểm tra với máy chủ API. Lo và kìa, dữ liệu thực sự được gửi qua được mã hóa trong Latin-1:


def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

Chúng tôi đi ở đó. Trong Latin-1, mọi nhân vật đều phù hợp với một byte duy nhất, trong khi ký tự ¼ ¼ chiếm hai byte trong UTF-8 [

>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]

Bài học ở đây là nó có thể nguy hiểm khi cho rằng việc mã hóa bất kỳ dữ liệu nào được gửi cho bạn. Nó thường là UTF-8 trong những ngày này, nhưng nó có tỷ lệ nhỏ trong các trường hợp mà nó không phải là điều đó sẽ thổi bay mọi thứ.

Nếu bạn thực sự cần phải từ bỏ tàu và đoán mã hóa, thì hãy xem thư viện

>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
65, sử dụng phương pháp từ Mozilla để đưa ra một phỏng đoán có giáo dục về văn bản được mã hóa mơ hồ. Điều đó nói rằng, một công cụ như
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
65 nên là phương sách cuối cùng của bạn, không phải đầu tiên của bạn.

Tỷ lệ cược và kết thúc:
>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]

Chúng tôi sẽ không đề cập đến

>>> from math import ceil, log

>>> def n_bits_required[nvalues: int] -> int:
...     return ceil[log[nvalues] / log[2]]

>>> n_bits_required[256]
67 từ Thư viện tiêu chuẩn Python, cho phép bạn tương tác và tra cứu trên cơ sở dữ liệu ký tự Unicode [UCD]:


def n_possible_values[nbits: int] -> int:
    return 2 ** nbits

Gói lên

Trong bài viết này, bạn đã giải mã chủ đề rộng rãi và áp đặt mã hóa nhân vật trong Python.

Bạn đã bao phủ rất nhiều mặt đất ở đây:

  • Các khái niệm cơ bản của mã hóa ký tự và hệ thống đánh số
  • Số nguyên, nhị phân, bát phân, hex, str và byte theo nghĩa đen trong Python
  • Các chức năng tích hợp của Python, liên quan đến hệ thống mã hóa và đánh số ký tự
  • Python 3 Xử lý văn bản so với dữ liệu nhị phân

Bây giờ, đi ra và mã hóa!

Tài nguyên

Để biết thêm chi tiết về các chủ đề được đề cập ở đây, hãy xem các tài nguyên này:

  • Joel Spolsky: Tối thiểu tuyệt đối mỗi nhà phát triển phần mềm hoàn toàn, tích cực phải biết về các bộ unicode và ký tự [không có lý do!] The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets [No Excuses!]
  • David Zentgraf: Điều mà mọi lập trình hoàn toàn cần biết về bộ mã hóa và bộ nhân vật để làm việc với văn bản What every programmer absolutely, positively needs to know about encodings and character sets to work with text
  • Mozilla: Một cách tiếp cận tổng hợp để phát hiện ngôn ngữ/mã hóa A composite approach to language/encoding detection
  • Wikipedia: UTF-8 UTF-8
  • John Skeet: Unicode và .net Unicode and .NET
  • Charles Petzold: Mã: Ngôn ngữ ẩn của phần cứng và phần mềm máy tính Code: The Hidden Language of Computer Hardware and Software
  • Nhóm làm việc mạng, RFC 3629: UTF-8, Định dạng chuyển đổi của ISO 10646 UTF-8, a transformation format of ISO 10646
  • Tiêu chuẩn kỹ thuật Unicode #18: Các biểu thức chính quy Unicode Unicode Regular Expressions

Các tài liệu Python có hai trang về chủ đề:

  • Những gì mới trong Python 3.0
  • Unicode Howto

Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem nó cùng với hướng dẫn bằng văn bản để làm sâu sắc thêm sự hiểu biết của bạn:

