Hướng dẫn lexical parser python - trăn phân tích từ vựng

Question

Một chương trình Python được đọc bởi một trình phân tích cú pháp. Đầu vào cho trình phân tích cú pháp là một luồng mã thông báo, được tạo bởi máy phân tích từ vựng. Chương này mô tả cách trình phân tích từ vựng chia một tệp vào mã thông báo.

Nội dung chính Show

2.1. Cấu trúc dòngLine structure¶
2.1.1. Dòng logicLogical lines¶
2.1.2. Các dòng vật lýPhysical lines¶
2.1.4. Tuyên bố mã hóaEncoding declarations¶
2.1.5. Dòng rõ ràng tham giaExplicit line joining¶
2.1.6. Dòng tiềm ẩn tham giaImplicit line joining¶
2.1.7. Các dòng trốngBlank lines¶
2.1.8. Vết lõmIndentation¶
2.1.9. Khoảng trắng giữa mã thông báoWhitespace between tokens¶
2.2. Token khácOther tokens¶
2.3. Số nhận dạng và từ khóaIdentifiers and keywords¶
2.3.1. Từ khóaKeywords¶
2.3.2. Từ khóa mềmSoft Keywords¶
2.3.3. Các lớp định danh dành riêngReserved classes of identifiers¶
2.4. Theo nghĩa chữLiterals¶
2.4.1. Chuỗi và byte theo nghĩa chữString and Bytes literals¶
Trình tự thoát chỉ được công nhận trong các chuỗi chữ là:String literal concatenation¶
Ký tự với giá trị hex 32 bit xxxxxxxxFormatted string literals¶
2.4.4. Chữ số chữNumeric literals¶
2.4.5. Integer Ligesals¶Integer literals¶
2.4.6. Bình luận nổiFloating point literals¶
2.4.7. Văn học tưởng tượngImaginary literals¶
2.5. Người điều khiển trongOperators¶
2.6. Phân loạiDelimiters¶

Python đọc văn bản chương trình dưới dạng điểm mã Unicode; Việc mã hóa một tệp nguồn có thể được đưa ra bằng cách khai báo mã hóa và mặc định là UTF-8, xem PEP 3120 để biết chi tiết. Nếu tệp nguồn không thể được giải mã, một

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

6 sẽ được nâng lên.PEP 3120 for details. If the source file cannot be decoded, a

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

6 is raised.

2.1. Cấu trúc dòngLine structure¶

Một chương trình Python được chia thành một số dòng logic.

2.1.1. Dòng logicLogical lines¶

Phần cuối của một dòng logic được biểu thị bằng đường dây mới. Các câu lệnh không thể vượt qua các ranh giới dòng logic ngoại trừ khi đường mới được phép bởi cú pháp (ví dụ: giữa các câu lệnh trong các câu lệnh ghép). Một dòng logic được xây dựng từ một hoặc nhiều dòng vật lý bằng cách tuân theo các quy tắc tham gia dòng rõ ràng hoặc tiềm ẩn.

2.1.2. Các dòng vật lýPhysical lines¶

Một dòng vật lý là một chuỗi các ký tự bị chấm dứt bởi một chuỗi cuối dòng. Trong các tệp và chuỗi nguồn, bất kỳ chuỗi kết thúc dòng tiêu chuẩn nào có thể được sử dụng - Mẫu UNIX sử dụng ASCII LF (LineFeed), biểu mẫu Windows sử dụng trình tự ASCII CR LF (trả về sau là LineFeed) hoặc Mẫu Macintosh cũ bằng cách sử dụng Nhân vật ASCII CR (trả lại). Tất cả các hình thức này có thể được sử dụng như nhau, bất kể nền tảng. Phần cuối của đầu vào cũng đóng vai trò là người kết thúc ngầm cho dòng vật lý cuối cùng.

Khi nhúng python, các chuỗi mã nguồn nên được truyền vào API Python bằng cách sử dụng các quy ước C tiêu chuẩn cho các ký tự dòng mới (ký tự ____27, đại diện cho ASCII LF, là bộ kết thúc dòng).

2.1.4. Tuyên bố mã hóaEncoding declarations¶

Nếu một nhận xét trong dòng thứ nhất hoặc thứ hai của tập lệnh Python phù hợp với biểu thức thông thường

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

8, nhận xét này được xử lý như một khai báo mã hóa; Nhóm đầu tiên của biểu thức này đặt tên cho việc mã hóa tệp mã nguồn. Tuyên bố mã hóa phải xuất hiện trên một dòng của riêng nó. Nếu đó là dòng thứ hai, dòng đầu tiên cũng phải là một dòng chỉ có bình luận. Các hình thức được đề xuất của biểu thức mã hóa là

# -*- coding:  -*-

cũng được công nhận bởi GNU Emacs, và

# vim:fileencoding=

được công nhận bởi Bram Moolenaar từ VIM.

Nếu không tìm thấy khai báo mã hóa, mã hóa mặc định là UTF-8. Ngoài ra, nếu các byte đầu tiên của tệp là dấu đặt hàng byte UTF-8 (

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

9), mã hóa tệp được khai báo là UTF-8 (điều này được hỗ trợ, trong số những người khác, bởi Microsoft Microsoft Notepad).notepad).

Nếu một mã hóa được khai báo, tên mã hóa phải được nhận dạng bởi Python (xem mã hóa tiêu chuẩn). Mã hóa được sử dụng cho tất cả các phân tích từ vựng, bao gồm các chữ, nhận xét và định danh.Standard Encodings). The encoding is used for all lexical analysis, including string literals, comments and identifiers.

2.1.5. Dòng rõ ràng tham giaExplicit line joining¶

Hai hoặc nhiều dòng vật lý có thể được nối thành các dòng logic bằng cách sử dụng các ký tự dấu gạch chéo ngược (

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

0), như sau: Khi một dòng vật lý kết thúc trong một dấu gạch chéo ngược không phải là một phần của chuỗi theo nghĩa đen hoặc nhận xét, nó được nối với hình thành một Dòng, xóa dấu gạch chéo ngược và ký tự kết thúc sau. Ví dụ:

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

Một dòng kết thúc trong một dấu gạch chéo ngược không thể mang một bình luận. Một dấu gạch chéo ngược không tiếp tục bình luận. Một dấu gạch chéo ngược không tiếp tục mã thông báo ngoại trừ các chữ cái (nghĩa là, các mã thông báo khác với các chữ cái có thể được phân chia trên các dòng vật lý bằng cách sử dụng dấu gạch chéo ngược). Một dấu gạch chéo ngược là bất hợp pháp ở những nơi khác trên một dòng bên ngoài một chuỗi theo nghĩa đen.

2.1.6. Dòng tiềm ẩn tham giaImplicit line joining¶

Biểu thức trong ngoặc đơn, dấu ngoặc vuông hoặc niềng răng xoăn có thể được phân chia trên nhiều dòng vật lý mà không cần sử dụng dấu gạch chéo ngược. Ví dụ:

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

Các dòng tiếp tục ngầm có thể mang ý kiến. Việc thụt dòng của các dòng tiếp tục không quan trọng. Các dòng tiếp tục trống được cho phép. Không có mã thông báo mới giữa các dòng tiếp tục ngầm. Các dòng tiếp tục ngầm cũng có thể xảy ra trong các chuỗi được trích dẫn ba (xem bên dưới); Trong trường hợp đó họ không thể mang ý kiến.

2.1.7. Các dòng trốngBlank lines¶

Một dòng logic chỉ chứa các khoảng trắng, tab, formfeed và có thể là một nhận xét, bị bỏ qua (tức là, không có mã thông báo mới nào được tạo ra). Trong quá trình đầu vào tương tác của các câu lệnh, việc xử lý một dòng trống có thể khác nhau tùy thuộc vào việc thực hiện vòng lặp in-eval in. Trong trình thông dịch tương tác tiêu chuẩn, một dòng logic hoàn toàn trống (nghĩa là một dòng không chứa khoảng trắng hoặc bình luận) chấm dứt một câu lệnh đa dòng.

2.1.8. Vết lõmIndentation¶

Khoảng cách hàng đầu (khoảng trắng và tab) ở đầu một đường logic được sử dụng để tính toán mức thụt của dòng, từ đó được sử dụng để xác định nhóm các câu lệnh.

Các tab được thay thế (từ trái sang phải) bằng một đến tám khoảng trống sao cho tổng số ký tự lên đến và bao gồm cả sự thay thế là bội số của tám (điều này được dự định là quy tắc tương tự như được sử dụng bởi UNIX). Tổng số không gian trước ký tự không trống đầu tiên sau đó xác định thụt dòng. Thắng không thể được phân chia trên nhiều dòng vật lý bằng cách sử dụng dấu gạch chéo ngược; khoảng trắng lên đến dấu gạch chéo ngược đầu tiên xác định thụt lề.

Thắng bị từ chối là không nhất quán nếu một tệp nguồn trộn các tab và không gian theo cách làm cho ý nghĩa phụ thuộc vào giá trị của một tab trong không gian; Một

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

1 được nâng lên trong trường hợp đó.

Lưu ý tương thích đa nền tảng: Do tính chất của các trình chỉnh sửa văn bản trên các nền tảng không phải là Unix, việc sử dụng hỗn hợp các khoảng trống và tab cho thụt vào một tệp nguồn duy nhất là không khôn ngoan. Cũng cần lưu ý rằng các nền tảng khác nhau có thể hạn chế rõ ràng mức thụt tối đa. because of the nature of text editors on non-UNIX platforms, it is unwise to use a mixture of spaces and tabs for the indentation in a single source file. It should also be noted that different platforms may explicitly limit the maximum indentation level.

Một ký tự FormFeed có thể có mặt ở đầu dòng; Nó sẽ được bỏ qua cho các tính toán thụt vào trên. Các ký tự FormFeed xảy ra ở những nơi khác trong khoảng trắng hàng đầu có hiệu ứng không xác định (ví dụ, chúng có thể đặt lại số lượng không gian về 0).

Các cấp độ thụt của các dòng liên tiếp được sử dụng để tạo ra các mã thông báo thụt lề và cống hiến, sử dụng một ngăn xếp, như sau.

Trước khi dòng đầu tiên của tệp được đọc, một số 0 được đẩy trên ngăn xếp; Điều này sẽ không bao giờ được bật ra nữa. Các số được đẩy trên ngăn xếp sẽ luôn tăng nghiêm ngặt từ dưới lên trên. Ở đầu mỗi đường logic, mức thụt dòng của dòng được so sánh với đỉnh của ngăn xếp. Nếu nó bằng nhau, không có gì xảy ra. Nếu nó lớn hơn, nó được đẩy lên ngăn xếp và một mã thông báo thụt lề được tạo ra. Nếu nó nhỏ hơn, nó phải là một trong những con số xảy ra trên ngăn xếp; Tất cả các số trên ngăn xếp lớn hơn được bật ra và đối với mỗi số đã xuất hiện một mã thông báo khấu trừ được tạo ra. Vào cuối tệp, một mã thông báo dành cho một số còn lại trên ngăn xếp lớn hơn 0.

Dưới đây là một ví dụ về một mảnh ghép chính xác (mặc dù khó hiểu) của mã Python:

def perm(l):
        # Compute the list of all permutations of l
    if len(l) <= 1:
                  return [l]
    r = []
    for i in range(len(l)):
             s = l[:i] + l[i+1:]
             p = perm(s)
             for x in p:
              r.append(l[i:i+1] + x)
    return r

Ví dụ sau đây cho thấy các lỗi thụt khác nhau:

 def perm(l):                       # error: first line indented
for i in range(len(l)):             # error: not indented
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # error: unexpected indent
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # error: inconsistent dedent

.

2.1.9. Khoảng trắng giữa mã thông báoWhitespace between tokens¶

Ngoại trừ khi bắt đầu một dòng logic hoặc trong các chuỗi chữ, không gian, tab và formfeed của SETESPACE có thể được sử dụng thay thế cho các mã thông báo tách biệt. Chỉ cần khoảng trắng giữa hai mã thông báo nếu cách ghép của chúng có thể được hiểu là một mã thông báo khác nhau (ví dụ: AB là một mã thông báo, nhưng A B là hai mã thông báo).

2.2. Token khácOther tokens¶

Bên cạnh dòng mới, thụt lề và cống hiến, các loại mã thông báo sau đây tồn tại: định danh, từ khóa, nghĩa đen, người vận hành và phân định. Các ký tự khoảng trắng (trừ các thiết bị đầu hàng dòng, được thảo luận trước đó) không phải là mã thông báo, mà phục vụ để phân định mã thông báo. Khi sự mơ hồ tồn tại, một mã thông báo bao gồm chuỗi dài nhất có thể tạo thành mã thông báo hợp pháp, khi được đọc từ trái sang phải.

2.3. Số nhận dạng và từ khóaIdentifiers and keywords¶

Định danh (còn được gọi là tên) được mô tả bởi các định nghĩa từ vựng sau đây.

Cú pháp của các định danh trong Python dựa trên Phụ lục Unicode Phụ lục UAX-31, với sự xây dựng và thay đổi như được định nghĩa dưới đây; Xem thêm PEP 3131 để biết thêm chi tiết.PEP 3131 for further details.

Trong phạm vi ASCII (U+0001..U+007F), các ký tự hợp lệ cho các định danh giống như trong Python 2.x: chữ hoa và chữ thường

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

3 đến

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

4, dấu gạch dưới

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

5 và, ngoại trừ ký tự đầu tiên, Các chữ số

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

6 đến

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

7.

Python 3.0 giới thiệu các ký tự bổ sung từ bên ngoài phạm vi ASCII (xem PEP 3131). Đối với các ký tự này, phân loại sử dụng phiên bản của cơ sở dữ liệu ký tự Unicode như được bao gồm trong mô -đun

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

8.PEP 3131). For these characters, the classification uses the version of the Unicode Character Database as included in the

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

8 module.

Định danh là không giới hạn về chiều dài. Trường hợp là đáng kể.

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

Các mã danh mục Unicode được đề cập ở trên là viết tắt của:

LU - chữ hoa
LL - chữ thường
LT - Thư Titlecase
LM - Các chữ cái sửa đổi
LO - Các chữ cái khác
NL - Số thư
MN - Dấu không định vị
MC - Khoảng cách kết hợp đánh dấu
ND - Số thập phân
PC - Trọng tâm kết nối
Khác_id_start - Danh sách rõ ràng các ký tự trong proplist.txt để hỗ trợ khả năng tương thích ngược
Khác_id_continue - Tương tự như vậy

Tất cả các định danh được chuyển đổi thành NFKC dạng bình thường trong khi phân tích cú pháp; So sánh các định danh dựa trên NFKC.

Tệp HTML không quy tắc danh sách tất cả các ký tự định danh hợp lệ cho Unicode 4.1 có thể được tìm thấy tại https://www.unicode.org/public/13.0.0/ucd/derivingcoreproperies.txt

2.3.1. Từ khóaKeywords¶

Các định danh sau đây được sử dụng làm từ dành riêng, hoặc từ khóa của ngôn ngữ và không thể được sử dụng làm số nhận dạng thông thường. Chúng phải được đánh vần chính xác như viết ở đây:

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

2.3.2. Từ khóa mềmSoft Keywords¶

Mới trong phiên bản 3.10.

Một số định danh chỉ được bảo lưu trong các bối cảnh cụ thể. Chúng được gọi là từ khóa mềm. Các định danh

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

9,

def perm(l):
        # Compute the list of all permutations of l
    if len(l) <= 1:
                  return [l]
    r = []
    for i in range(len(l)):
             s = l[:i] + l[i+1:]
             p = perm(s)
             for x in p:
              r.append(l[i:i+1] + x)
    return r

0 và

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

5 có thể đóng vai trò là từ khóa trong các bối cảnh liên quan đến câu lệnh khớp mẫu, nhưng sự khác biệt này được thực hiện ở cấp độ phân tích cú pháp, chứ không phải khi mã hóa.

Vì các từ khóa mềm, việc sử dụng của chúng với việc khớp mẫu là có thể trong khi vẫn bảo tồn khả năng tương thích với mã hiện có sử dụng

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

9,

def perm(l):
        # Compute the list of all permutations of l
    if len(l) <= 1:
                  return [l]
    r = []
    for i in range(len(l)):
             s = l[:i] + l[i+1:]
             p = perm(s)
             for x in p:
              r.append(l[i:i+1] + x)
    return r

0 và

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

5 làm tên định danh.

2.3.3. Các lớp định danh dành riêngReserved classes of identifiers¶

Một số lớp định danh (bên cạnh từ khóa) có ý nghĩa đặc biệt. Các lớp này được xác định bởi các mô hình của các ký tự dẫn đầu và dấu vết nhấn mạnh:

def perm(l):
        # Compute the list of all permutations of l
    if len(l) <= 1:
                  return [l]
    r = []
    for i in range(len(l)):
             s = l[:i] + l[i+1:]
             p = perm(s)
             for x in p:
              r.append(l[i:i+1] + x)
    return r

5

Không được nhập khẩu bởi

def perm(l):
        # Compute the list of all permutations of l
    if len(l) <= 1:
                  return [l]
    r = []
    for i in range(len(l)):
             s = l[:i] + l[i+1:]
             p = perm(s)
             for x in p:
              r.append(l[i:i+1] + x)
    return r

6.

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

5

Trong mẫu

def perm(l):
        # Compute the list of all permutations of l
    if len(l) <= 1:
                  return [l]
    r = []
    for i in range(len(l)):
             s = l[:i] + l[i+1:]
             p = perm(s)
             for x in p:
              r.append(l[i:i+1] + x)
    return r

0 trong câu lệnh

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

9,

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

5 là một từ khóa mềm biểu thị một ký tự đại diện.soft keyword that denotes a wildcard.

Một cách riêng biệt, trình thông dịch tương tác làm cho kết quả của đánh giá cuối cùng có sẵn trong biến

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

5. (Nó được lưu trữ trong mô-đun

 def perm(l):                       # error: first line indented
for i in range(len(l)):             # error: not indented
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # error: unexpected indent
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # error: inconsistent dedent

2, cùng với các chức năng tích hợp như

 def perm(l):                       # error: first line indented
for i in range(len(l)):             # error: not indented
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # error: unexpected indent
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # error: inconsistent dedent

3.)

Ở những nơi khác,

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

5 là một định danh thường xuyên. Nó thường được sử dụng để đặt tên cho các mặt hàng đặc biệt của người Viking, nhưng nó không đặc biệt đối với chính Python.

Ghi chú

Tên

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

5 thường được sử dụng cùng với quốc tế hóa; Tham khảo tài liệu cho mô -đun

 def perm(l):                       # error: first line indented
for i in range(len(l)):             # error: not indented
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # error: unexpected indent
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # error: inconsistent dedent

6 để biết thêm thông tin về quy ước này.

Nó cũng thường được sử dụng cho các biến không sử dụng.

 def perm(l):                       # error: first line indented
for i in range(len(l)):             # error: not indented
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # error: unexpected indent
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # error: inconsistent dedent

7

Các tên được xác định bởi hệ thống, được gọi một cách không chính thức là tên của Dund Dunder. Các tên này được xác định bởi thông dịch viên và việc triển khai của nó (bao gồm thư viện tiêu chuẩn). Tên hệ thống hiện tại được thảo luận trong phần Tên phương thức đặc biệt và các nơi khác. Nhiều khả năng sẽ được xác định trong các phiên bản tương lai của Python. Bất kỳ việc sử dụng tên

 def perm(l):                       # error: first line indented
for i in range(len(l)):             # error: not indented
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # error: unexpected indent
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # error: inconsistent dedent

7, trong bất kỳ ngữ cảnh nào, không tuân theo việc sử dụng được ghi lại rõ ràng, có thể bị phá vỡ mà không có cảnh báo.Special method names section and elsewhere. More will likely be defined in future versions of Python. Any use of

 def perm(l):                       # error: first line indented
for i in range(len(l)):             # error: not indented
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # error: unexpected indent
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # error: inconsistent dedent

7 names, in any context, that does not follow explicitly documented use, is subject to breakage without warning.

 def perm(l):                       # error: first line indented
for i in range(len(l)):             # error: not indented
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # error: unexpected indent
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # error: inconsistent dedent

9

Tên-tư nhân. Các tên trong danh mục này, khi được sử dụng trong bối cảnh của một định nghĩa lớp, được viết lại để sử dụng một biểu mẫu bị xáo trộn để giúp tránh các cuộc đụng độ tên giữa các thuộc tính riêng tư của cơ sở và các lớp có nguồn gốc. Xem phần Định danh (Tên).Identifiers (Names).

2.4. Theo nghĩa chữLiterals¶

Biết chữ là các ký hiệu cho các giá trị không đổi của một số loại tích hợp.

2.4.1. Chuỗi và byte theo nghĩa chữString and Bytes literals¶

Chuỗi chữ được mô tả bởi các định nghĩa từ vựng sau:

stringliteral   ::=  [stringprefix](shortstring | longstring)
stringprefix    ::=  "r" | "u" | "R" | "U" | "f" | "F"
                     | "fr" | "Fr" | "fR" | "FR" | "rf" | "rF" | "Rf" | "RF"
shortstring     ::=  "'" shortstringitem* "'" | '"' shortstringitem* '"'
longstring      ::=  "'''" longstringitem* "'''" | '"""' longstringitem* '"""'
shortstringitem ::=  shortstringchar | stringescapeseq
longstringitem  ::=  longstringchar | stringescapeseq
shortstringchar ::=  
longstringchar  ::=  
stringescapeseq ::=  "\"

bytesliteral   ::=  bytesprefix(shortbytes | longbytes)
bytesprefix    ::=  "b" | "B" | "br" | "Br" | "bR" | "BR" | "rb" | "rB" | "Rb" | "RB"
shortbytes     ::=  "'" shortbytesitem* "'" | '"' shortbytesitem* '"'
longbytes      ::=  "'''" longbytesitem* "'''" | '"""' longbytesitem* '"""'
shortbytesitem ::=  shortbyteschar | bytesescapeseq
longbytesitem  ::=  longbyteschar | bytesescapeseq
shortbyteschar ::=  
longbyteschar  ::=  
bytesescapeseq ::=  "\"

Một hạn chế cú pháp không được chỉ định bởi các sản phẩm này là không được phép là khoảng trắng giữa

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

0 hoặc

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

1 và phần còn lại của nghĩa đen. Bộ ký tự nguồn được xác định bởi khai báo mã hóa; đó là UTF-8 nếu không có khai báo mã hóa nào được đưa ra trong tệp nguồn; Xem phần Tuyên bố mã hóa.Encoding declarations.

Trong tiếng Anh đơn giản: Cả hai loại chữ có thể được đặt trong các trích dẫn đơn (

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

2) hoặc trích dẫn kép (

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

3). Chúng cũng có thể được đặt trong các nhóm phù hợp gồm ba trích dẫn đơn hoặc đôi (chúng thường được gọi là các chuỗi được trích dẫn ba). Nhân vật Backslash (

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

0) được sử dụng để mang lại ý nghĩa đặc biệt cho các ký tự thông thường như

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

5, có nghĩa là ‘Newline, khi thoát ra (

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

7). Nó cũng có thể được sử dụng để thoát khỏi các ký tự có ý nghĩa đặc biệt, chẳng hạn như Newline, chính bản sao lại hoặc ký tự trích dẫn. Xem trình tự thoát dưới đây để biết ví dụ.escape sequences below for examples.

Byte theo nghĩa đen luôn được đặt trước với

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

7 hoặc

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

8; Họ tạo ra một thể hiện của loại

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

9 thay vì loại

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

0. Chúng chỉ có thể chứa các ký tự ASCII; Các byte có giá trị số từ 128 trở lên phải được biểu thị bằng lối thoát.

Cả hai chuỗi và byte theo nghĩa đen có thể tùy ý được đặt tiền tố với chữ cái

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

1 hoặc

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

2; Các chuỗi như vậy được gọi là chuỗi thô và coi dấu gạch chéo ngược là ký tự theo nghĩa đen. Kết quả là, trong các chuỗi chữ,

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

3 và

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

4 trốn thoát trong các chuỗi thô không được xử lý đặc biệt. Cho rằng các chữ unicode thô của Python 2.x, hành xử khác với Python 3.x, cú pháp

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

5 không được hỗ trợ.

Mới trong phiên bản 3.3: Tiền tố

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

6 của các byte RAW đã được thêm vào như một từ đồng nghĩa của

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

7.The

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

6 prefix of raw bytes literals has been added as a synonym of

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

7.

Mới trong phiên bản 3.3: Hỗ trợ cho Unicode Legacy Literal (

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

8) đã được giới thiệu lại để đơn giản hóa việc duy trì các cơ sở mã Python 2.x và 3.x kép. Xem PEP 414 để biết thêm thông tin.Support for the unicode legacy literal (

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

8) was reintroduced to simplify the maintenance of dual Python 2.x and 3.x codebases. See PEP 414 for more information.

Một chuỗi theo nghĩa đen với

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

9 hoặc

stringliteral   ::=  [stringprefix](shortstring | longstring)
stringprefix    ::=  "r" | "u" | "R" | "U" | "f" | "F"
                     | "fr" | "Fr" | "fR" | "FR" | "rf" | "rF" | "Rf" | "RF"
shortstring     ::=  "'" shortstringitem* "'" | '"' shortstringitem* '"'
longstring      ::=  "'''" longstringitem* "'''" | '"""' longstringitem* '"""'
shortstringitem ::=  shortstringchar | stringescapeseq
longstringitem  ::=  longstringchar | stringescapeseq
shortstringchar ::=  
longstringchar  ::=  
stringescapeseq ::=  "\"

0 trong tiền tố của nó là một chuỗi được định dạng theo nghĩa đen; Xem các chuỗi chữ được định dạng.

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

9 có thể được kết hợp với

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

1, nhưng không phải với

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

7 hoặc

stringliteral   ::=  [stringprefix](shortstring | longstring)
stringprefix    ::=  "r" | "u" | "R" | "U" | "f" | "F"
                     | "fr" | "Fr" | "fR" | "FR" | "rf" | "rF" | "Rf" | "RF"
shortstring     ::=  "'" shortstringitem* "'" | '"' shortstringitem* '"'
longstring      ::=  "'''" longstringitem* "'''" | '"""' longstringitem* '"""'
shortstringitem ::=  shortstringchar | stringescapeseq
longstringitem  ::=  longstringchar | stringescapeseq
shortstringchar ::=  
longstringchar  ::=  
stringescapeseq ::=  "\"

4, do đó các chuỗi được định dạng thô là có thể, nhưng các byte được định dạng là không.Formatted string literals. The

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

9 may be combined with

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

1, but not with

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

7 or

stringliteral   ::=  [stringprefix](shortstring | longstring)
stringprefix    ::=  "r" | "u" | "R" | "U" | "f" | "F"
                     | "fr" | "Fr" | "fR" | "FR" | "rf" | "rF" | "Rf" | "RF"
shortstring     ::=  "'" shortstringitem* "'" | '"' shortstringitem* '"'
longstring      ::=  "'''" longstringitem* "'''" | '"""' longstringitem* '"""'
shortstringitem ::=  shortstringchar | stringescapeseq
longstringitem  ::=  longstringchar | stringescapeseq
shortstringchar ::=  
longstringchar  ::=  
stringescapeseq ::=  "\"

4, therefore raw formatted strings are possible, but formatted bytes literals are not.

Trong các nghĩa đen được trích dẫn ba, các dòng mới và trích dẫn không được cho phép (và được giữ lại), ngoại trừ ba trích dẫn không được phân loại trong một hàng chấm dứt theo nghĩa đen. (Một trích dẫn của người Viking là nhân vật được sử dụng để mở theo nghĩa đen, tức là

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

2 hoặc

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

3.)

Trừ khi có tiền tố

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

1 hoặc

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

2, các chuỗi thoát theo chuỗi và byte theo nghĩa đen được giải thích theo các quy tắc tương tự như các quy tắc được sử dụng bởi Standard C. Các chuỗi thoát được công nhận là:

Trình tự thoát	Nghĩa	Ghi chú
month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year 0	Backslash và Newline bị bỏ qua	(1)
bytesliteral ::= `bytesprefix`(`shortbytes` \| `longbytes`) bytesprefix ::= "b" \| "B" \| "br" \| "Br" \| "bR" \| "BR" \| "rb" \| "rB" \| "Rb" \| "RB" shortbytes ::= "'" `shortbytesitem`* "'" \| '"' `shortbytesitem`* '"' longbytes ::= "'''" `longbytesitem`* "'''" \| '"""' `longbytesitem`* '"""' shortbytesitem ::= `shortbyteschar` \| `bytesescapeseq` longbytesitem ::= `longbyteschar` \| `bytesescapeseq` shortbyteschar ::= longbyteschar ::= bytesescapeseq ::= "\" 0	Backslash ( month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year 0)
bytesliteral ::= `bytesprefix`(`shortbytes` \| `longbytes`) bytesprefix ::= "b" \| "B" \| "br" \| "Br" \| "bR" \| "BR" \| "rb" \| "rB" \| "Rb" \| "RB" shortbytes ::= "'" `shortbytesitem`* "'" \| '"' `shortbytesitem`* '"' longbytes ::= "'''" `longbytesitem`* "'''" \| '"""' `longbytesitem`* '"""' shortbytesitem ::= `shortbyteschar` \| `bytesescapeseq` longbytesitem ::= `longbyteschar` \| `bytesescapeseq` shortbyteschar ::= longbyteschar ::= bytesescapeseq ::= "\" 2	Trích dẫn đơn ( identifier ::= `xid_start` `xid_continue`* id_start ::= id_continue ::= id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property> xid_start ::= id_start whose NFKC normalization is in "id_start xid_continue"> xid_continue* ::= id_continue whose NFKC normalization is in "id_continue*"> 2)
bytesliteral ::= `bytesprefix`(`shortbytes` \| `longbytes`) bytesprefix ::= "b" \| "B" \| "br" \| "Br" \| "bR" \| "BR" \| "rb" \| "rB" \| "Rb" \| "RB" shortbytes ::= "'" `shortbytesitem`* "'" \| '"' `shortbytesitem`* '"' longbytes ::= "'''" `longbytesitem`* "'''" \| '"""' `longbytesitem`* '"""' shortbytesitem ::= `shortbyteschar` \| `bytesescapeseq` longbytesitem ::= `longbyteschar` \| `bytesescapeseq` shortbyteschar ::= longbyteschar ::= bytesescapeseq ::= "\" 4	Báo giá kép ( identifier ::= `xid_start` `xid_continue`* id_start ::= id_continue ::= id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property> xid_start ::= id_start whose NFKC normalization is in "id_start xid_continue"> xid_continue* ::= id_continue whose NFKC normalization is in "id_continue*"> 3)
bytesliteral ::= `bytesprefix`(`shortbytes` \| `longbytes`) bytesprefix ::= "b" \| "B" \| "br" \| "Br" \| "bR" \| "BR" \| "rb" \| "rB" \| "Rb" \| "RB" shortbytes ::= "'" `shortbytesitem`* "'" \| '"' `shortbytesitem`* '"' longbytes ::= "'''" `longbytesitem`* "'''" \| '"""' `longbytesitem`* '"""' shortbytesitem ::= `shortbyteschar` \| `bytesescapeseq` longbytesitem ::= `longbyteschar` \| `bytesescapeseq` shortbyteschar ::= longbyteschar ::= bytesescapeseq ::= "\" 6	ASCII Bell (BEL)
bytesliteral ::= `bytesprefix`(`shortbytes` \| `longbytes`) bytesprefix ::= "b" \| "B" \| "br" \| "Br" \| "bR" \| "BR" \| "rb" \| "rB" \| "Rb" \| "RB" shortbytes ::= "'" `shortbytesitem`* "'" \| '"' `shortbytesitem`* '"' longbytes ::= "'''" `longbytesitem`* "'''" \| '"""' `longbytesitem`* '"""' shortbytesitem ::= `shortbyteschar` \| `bytesescapeseq` longbytesitem ::= `longbyteschar` \| `bytesescapeseq` shortbyteschar ::= longbyteschar ::= bytesescapeseq ::= "\" 7	ASCII Backspace (BS)
bytesliteral ::= `bytesprefix`(`shortbytes` \| `longbytes`) bytesprefix ::= "b" \| "B" \| "br" \| "Br" \| "bR" \| "BR" \| "rb" \| "rB" \| "Rb" \| "RB" shortbytes ::= "'" `shortbytesitem`* "'" \| '"' `shortbytesitem`* '"' longbytes ::= "'''" `longbytesitem`* "'''" \| '"""' `longbytesitem`* '"""' shortbytesitem ::= `shortbyteschar` \| `bytesescapeseq` longbytesitem ::= `longbyteschar` \| `bytesescapeseq` shortbyteschar ::= longbyteschar ::= bytesescapeseq ::= "\" 8	ASCII FormFeed (FF)
if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 1 7	ASCII Linefeed (LF)
# vim:fileencoding= 00	ASCII Vận chuyển trở lại (CR)
# vim:fileencoding= 01	Tab ngang ASCII (tab)
# vim:fileencoding= 02	Tab dọc ASCII (VT)
# vim:fileencoding= 03	Nhân vật có giá trị bát phân ooo	(2,4)
# vim:fileencoding= 04	Nhân vật có giá trị hex hh	(3,4)

Trình tự thoát chỉ được công nhận trong các chuỗi chữ là:

Trình tự thoát

Nghĩa

Ghi chú

# vim:fileencoding=

05

Backslash và Newline bị bỏ qua

(5)

# vim:fileencoding=

06

Backslash (

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

0)

(6)

# vim:fileencoding=

07

Trích dẫn đơn (

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

2)

(7)

Notes:

Báo giá kép (

identifier   ::=  xid_start xid_continue*
id_start     ::=  
id_continue  ::=  id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  id_continue whose NFKC normalization is in "id_continue*">

3)

# vim:fileencoding=

0

ASCII Bell (BEL)triple-quoted strings, or parentheses and string literal concatenation.

ASCII Backspace (BS)
ASCII FormFeed (FF)
ASCII Linefeed (LF)
ASCII Vận chuyển trở lại (CR)Support for name aliases 1 has been added.
Tab ngang ASCII (tab)
Tab dọc ASCII (VT)

Nhân vật có giá trị bát phân ooo

Nhân vật có giá trị hex hh

Trình tự thoát chỉ được công nhận trong các chuỗi chữ là:String literal concatenation¶

Tên được đặt tên ký tự trong cơ sở dữ liệu Unicode

# vim:fileencoding=

1

Ký tự với giá trị hex 16 bit xxxx

Ký tự với giá trị hex 32 bit xxxxxxxxFormatted string literals¶

Một dấu gạch chéo ngược có thể được thêm vào cuối dòng để bỏ qua dòng mới:

Kết quả tương tự có thể đạt được bằng cách sử dụng các chuỗi được trích dẫn ba, hoặc dấu ngoặc đơn và sự kết hợp theo nghĩa đen của chuỗi.

Như trong tiêu chuẩn C, tối đa ba chữ số bát phân được chấp nhận.

# vim:fileencoding=

2

Không giống như trong tiêu chuẩn C, chính xác là hai chữ số hex là bắt buộc.

Các biểu thức trong các chuỗi chữ được định dạng được đối xử như các biểu thức python thông thường được bao quanh bởi dấu ngoặc đơn, với một vài ngoại lệ. Một biểu thức trống không được phép, và cả

# vim:fileencoding=

22 và biểu thức gán

# vim:fileencoding=

23 phải được bao quanh bởi dấu ngoặc đơn rõ ràng. Biểu thức thay thế có thể chứa các lần ngắt dòng (ví dụ: trong các chuỗi được trích xuất ba), nhưng chúng không thể chứa các bình luận. Mỗi biểu thức được đánh giá trong bối cảnh mà chuỗi được định dạng xuất hiện theo nghĩa đen, theo thứ tự từ trái sang phải.

Đã thay đổi trong phiên bản 3.7: Trước Python 3.7, biểu thức

# vim:fileencoding=

24 và sự hiểu biết có chứa một điều khoản

# vim:fileencoding=

25 là bất hợp pháp trong các biểu thức trong các chuỗi chữ được định dạng do một vấn đề với việc thực hiện.Prior to Python 3.7, an

# vim:fileencoding=

24 expression and comprehensions containing an

# vim:fileencoding=

25 clause were illegal in the expressions in formatted string literals due to a problem with the implementation.

Khi dấu hiệu bằng nhau

# vim:fileencoding=

18 được cung cấp, đầu ra sẽ có văn bản biểu thức,

# vim:fileencoding=

18 và giá trị được đánh giá. Không gian sau khi nẹp mở

# vim:fileencoding=

17, trong biểu thức và sau khi

# vim:fileencoding=

18 đều được giữ lại trong đầu ra. Theo mặc định,

# vim:fileencoding=

18 gây ra

# vim:fileencoding=

31 của biểu thức được cung cấp, trừ khi có một định dạng được chỉ định. Khi một định dạng được chỉ định, nó mặc định là

# vim:fileencoding=

32 của biểu thức trừ khi chuyển đổi

# vim:fileencoding=

33 được khai báo.

Mới trong phiên bản 3.8: Dấu hiệu bằng nhau

# vim:fileencoding=

18.The equal sign

# vim:fileencoding=

18.

Nếu một chuyển đổi được chỉ định, kết quả của việc đánh giá biểu thức được chuyển đổi trước khi định dạng. Chuyển đổi

# vim:fileencoding=

35 gọi

# vim:fileencoding=

32 trên kết quả,

# vim:fileencoding=

33 gọi

# vim:fileencoding=

31 và

# vim:fileencoding=

39 gọi

# vim:fileencoding=

40.

Kết quả sau đó được định dạng bằng giao thức

# vim:fileencoding=

41. Trình xác định định dạng được chuyển đến phương pháp

# vim:fileencoding=

42 của biểu thức hoặc kết quả chuyển đổi. Một chuỗi trống được truyền khi trình xác định định dạng bị bỏ qua. Kết quả được định dạng sau đó được bao gồm trong giá trị cuối cùng của toàn bộ chuỗi.

Các nhà xác định định dạng cấp cao nhất có thể bao gồm các trường thay thế lồng nhau. Các trường lồng nhau này có thể bao gồm các trường chuyển đổi và định dạng của riêng chúng, nhưng có thể không bao gồm các trường thay thế được lồng sâu hơn. Trình xác định định dạng Mini-Language giống như phương pháp được sử dụng bởi phương pháp

# vim:fileencoding=

43.format specifiers, but may not include more deeply nested replacement fields. The format specifier mini-language is the same as that used by the

# vim:fileencoding=

43 method.

Chuỗi được định dạng có thể được nối, nhưng các trường thay thế không thể được phân chia trên các chữ.

Một số ví dụ về các chuỗi chữ được định dạng:

# vim:fileencoding=

3

Hậu quả của việc chia sẻ cùng một cú pháp với các chữ cái thông thường là các ký tự trong các trường thay thế không được xung đột với trích dẫn được sử dụng trong chuỗi được định dạng bên ngoài theo nghĩa đen:

# vim:fileencoding=

4

Backslashes không được phép trong các biểu thức định dạng và sẽ gây ra lỗi:

# vim:fileencoding=

5

Để bao gồm một giá trị trong đó cần có một lối thoát ngược, hãy tạo một biến tạm thời.

# vim:fileencoding=

6

Chuỗi được định dạng không thể được sử dụng làm tài liệu, ngay cả khi chúng không bao gồm các biểu thức.

# vim:fileencoding=

7

Xem thêm PEP 498 để biết đề xuất đã thêm các chuỗi chuỗi được định dạng và

# vim:fileencoding=

43, sử dụng cơ chế chuỗi định dạng liên quan.PEP 498 for the proposal that added formatted string literals, and

# vim:fileencoding=

43, which uses a related format string mechanism.

2.4.4. Chữ số chữNumeric literals¶

Có ba loại chữ số: số nguyên, số điểm nổi và số tưởng tượng. Không có chữ viết phức tạp (các số phức tạp có thể được hình thành bằng cách thêm một số thực và một số tưởng tượng).

Lưu ý rằng các chữ số không bao gồm một dấu hiệu; Một cụm từ như

# vim:fileencoding=

45 thực sự là một biểu thức bao gồm toán tử Unary ‘

# vim:fileencoding=

46, và nghĩa đen

# vim:fileencoding=

47.

2.4.5. Integer Ligesals¶Integer literals¶

Các chữ số nguyên được mô tả bằng các định nghĩa từ vựng sau:

# vim:fileencoding=

8

Không có giới hạn cho độ dài của các chữ số nguyên ngoài những gì có thể được lưu trữ trong bộ nhớ có sẵn.

Dấu gạch dưới được bỏ qua để xác định giá trị số của nghĩa đen. Chúng có thể được sử dụng để nhóm các chữ số để nâng cao khả năng đọc. Một dấu gạch dưới có thể xảy ra giữa các chữ số và sau các nhà xác định cơ sở như

# vim:fileencoding=

48.

Lưu ý rằng các số không hàng đầu trong một số thập phân khác không được phép. Điều này là để định hướng với các chữ theo nghĩa ba kiểu chữ C, mà Python đã sử dụng trước phiên bản 3.0.

Một số ví dụ về chữ số nguyên:

# vim:fileencoding=

9

Đã thay đổi trong phiên bản 3.6: Dấu gạch dưới hiện được phép nhóm các mục đích nhóm trong nghĩa đen.Underscores are now allowed for grouping purposes in literals.

2.4.6. Bình luận nổiFloating point literals¶

Bình luận điểm nổi được mô tả bằng các định nghĩa từ vựng sau:

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

0

Lưu ý rằng các bộ phận số nguyên và số mũ luôn được giải thích bằng cách sử dụng Radix 10. Ví dụ,

# vim:fileencoding=

49 là hợp pháp và biểu thị cùng số với

# vim:fileencoding=

50. Phạm vi cho phép của các chữ ký nổi là phụ thuộc vào thực hiện. Như trong các chữ số nguyên, gạch dưới được hỗ trợ cho nhóm chữ số.

Một số ví dụ về nghĩa đen của điểm nổi:

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

1

Đã thay đổi trong phiên bản 3.6: Dấu gạch dưới hiện được phép nhóm các mục đích nhóm trong nghĩa đen.Underscores are now allowed for grouping purposes in literals.

2.4.7. Văn học tưởng tượngImaginary literals¶

Văn học tưởng tượng được mô tả bởi các định nghĩa từ vựng sau:

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

2

Một nghĩa đen tưởng tượng mang lại một số phức với một phần thực là 0,0. Các số phức được thể hiện dưới dạng một cặp số điểm nổi và có cùng một hạn chế trong phạm vi của chúng. Để tạo một số phức với một phần thực khác không, hãy thêm một số điểm nổi vào nó, ví dụ:

# vim:fileencoding=

51. Một số ví dụ về văn học tưởng tượng:

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

3

2.5. Người điều khiển trongOperators¶

Các mã thông báo sau đây là người vận hành:

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

4

2.6. Phân loạiDelimiters¶

Các mã thông báo sau đây đóng vai trò là người phân định trong ngữ pháp:

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

5

Thời gian cũng có thể xảy ra trong các dấu hiệu nổi và nghĩa đen. Một chuỗi gồm ba giai đoạn có một ý nghĩa đặc biệt như một dấu chấm lửng. Nửa sau của danh sách, các nhà khai thác phân công tăng cường, phục vụ từ vựng dưới dạng phân định, nhưng cũng thực hiện một hoạt động.

Các ký tự in ASCII sau đây có ý nghĩa đặc biệt như một phần của các mã thông báo khác hoặc có ý nghĩa khác đối với máy phân tích từ vựng:

Các ký tự in ASCII sau đây không được sử dụng trong Python. Sự xuất hiện của chúng bên ngoài chuỗi và nhận xét của họ là một lỗi vô điều kiện:

Chú thích

1

https://www.unicode.org/Public/11.0.0/ucd/NameAliases.txt

programming python Python lexical parser Lexical analysis Python lexer tokenizer B Python PLY Python