Hướng dẫn lexical parser python - trăn phân tích từ vựng
Một chương trình Python được đọc bởi một trình phân tích cú pháp. Đầu vào cho trình phân tích cú pháp là một luồng mã thông báo, được tạo bởi máy phân tích từ vựng. Chương này mô tả cách trình phân tích từ vựng chia một tệp vào mã thông báo. Show
Python đọc văn bản chương trình dưới dạng điểm mã Unicode; Việc mã hóa một tệp nguồn có thể được đưa ra bằng cách khai báo mã hóa và mặc định là UTF-8, xem PEP 3120 để biết chi tiết. Nếu tệp nguồn không thể được giải mã, một if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 16 sẽ được nâng lên.PEP 3120 for details. If the source file cannot be decoded, a if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 16 is raised. 2.1. Cấu trúc dòngLine structure¶Một chương trình Python được chia thành một số dòng logic. 2.1.1. Dòng logicLogical lines¶Phần cuối của một dòng logic được biểu thị bằng đường dây mới. Các câu lệnh không thể vượt qua các ranh giới dòng logic ngoại trừ khi đường mới được phép bởi cú pháp (ví dụ: giữa các câu lệnh trong các câu lệnh ghép). Một dòng logic được xây dựng từ một hoặc nhiều dòng vật lý bằng cách tuân theo các quy tắc tham gia dòng rõ ràng hoặc tiềm ẩn. 2.1.2. Các dòng vật lýPhysical lines¶Một dòng vật lý là một chuỗi các ký tự bị chấm dứt bởi một chuỗi cuối dòng. Trong các tệp và chuỗi nguồn, bất kỳ chuỗi kết thúc dòng tiêu chuẩn nào có thể được sử dụng - Mẫu UNIX sử dụng ASCII LF (LineFeed), biểu mẫu Windows sử dụng trình tự ASCII CR LF (trả về sau là LineFeed) hoặc Mẫu Macintosh cũ bằng cách sử dụng Nhân vật ASCII CR (trả lại). Tất cả các hình thức này có thể được sử dụng như nhau, bất kể nền tảng. Phần cuối của đầu vào cũng đóng vai trò là người kết thúc ngầm cho dòng vật lý cuối cùng. Khi nhúng python, các chuỗi mã nguồn nên được truyền vào API Python bằng cách sử dụng các quy ước C tiêu chuẩn cho các ký tự dòng mới (ký tự ____27, đại diện cho ASCII LF, là bộ kết thúc dòng). 2.1.4. Tuyên bố mã hóaEncoding declarations¶Nếu một nhận xét trong dòng thứ nhất hoặc thứ hai của tập lệnh Python phù hợp với biểu thức thông thường if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 18, nhận xét này được xử lý như một khai báo mã hóa; Nhóm đầu tiên của biểu thức này đặt tên cho việc mã hóa tệp mã nguồn. Tuyên bố mã hóa phải xuất hiện trên một dòng của riêng nó. Nếu đó là dòng thứ hai, dòng đầu tiên cũng phải là một dòng chỉ có bình luận. Các hình thức được đề xuất của biểu thức mã hóa là # -*- coding: cũng được công nhận bởi GNU Emacs, và # vim:fileencoding= được công nhận bởi Bram Moolenaar từ VIM. Nếu không tìm thấy khai báo mã hóa, mã hóa mặc định là UTF-8. Ngoài ra, nếu các byte đầu tiên của tệp là dấu đặt hàng byte UTF-8 ( if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 19), mã hóa tệp được khai báo là UTF-8 (điều này được hỗ trợ, trong số những người khác, bởi Microsoft Microsoft Notepad).notepad). Nếu một mã hóa được khai báo, tên mã hóa phải được nhận dạng bởi Python (xem mã hóa tiêu chuẩn). Mã hóa được sử dụng cho tất cả các phân tích từ vựng, bao gồm các chữ, nhận xét và định danh.Standard Encodings). The encoding is used for all lexical analysis, including string literals, comments and identifiers. 2.1.5. Dòng rõ ràng tham giaExplicit line joining¶Hai hoặc nhiều dòng vật lý có thể được nối thành các dòng logic bằng cách sử dụng các ký tự dấu gạch chéo ngược ( month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year0), như sau: Khi một dòng vật lý kết thúc trong một dấu gạch chéo ngược không phải là một phần của chuỗi theo nghĩa đen hoặc nhận xét, nó được nối với hình thành một Dòng, xóa dấu gạch chéo ngược và ký tự kết thúc sau. Ví dụ: if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 1 Một dòng kết thúc trong một dấu gạch chéo ngược không thể mang một bình luận. Một dấu gạch chéo ngược không tiếp tục bình luận. Một dấu gạch chéo ngược không tiếp tục mã thông báo ngoại trừ các chữ cái (nghĩa là, các mã thông báo khác với các chữ cái có thể được phân chia trên các dòng vật lý bằng cách sử dụng dấu gạch chéo ngược). Một dấu gạch chéo ngược là bất hợp pháp ở những nơi khác trên một dòng bên ngoài một chuỗi theo nghĩa đen. 2.1.6. Dòng tiềm ẩn tham giaImplicit line joining¶Biểu thức trong ngoặc đơn, dấu ngoặc vuông hoặc niềng răng xoăn có thể được phân chia trên nhiều dòng vật lý mà không cần sử dụng dấu gạch chéo ngược. Ví dụ: month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year Các dòng tiếp tục ngầm có thể mang ý kiến. Việc thụt dòng của các dòng tiếp tục không quan trọng. Các dòng tiếp tục trống được cho phép. Không có mã thông báo mới giữa các dòng tiếp tục ngầm. Các dòng tiếp tục ngầm cũng có thể xảy ra trong các chuỗi được trích dẫn ba (xem bên dưới); Trong trường hợp đó họ không thể mang ý kiến. 2.1.7. Các dòng trốngBlank lines¶Một dòng logic chỉ chứa các khoảng trắng, tab, formfeed và có thể là một nhận xét, bị bỏ qua (tức là, không có mã thông báo mới nào được tạo ra). Trong quá trình đầu vào tương tác của các câu lệnh, việc xử lý một dòng trống có thể khác nhau tùy thuộc vào việc thực hiện vòng lặp in-eval in. Trong trình thông dịch tương tác tiêu chuẩn, một dòng logic hoàn toàn trống (nghĩa là một dòng không chứa khoảng trắng hoặc bình luận) chấm dứt một câu lệnh đa dòng. 2.1.8. Vết lõmIndentation¶Khoảng cách hàng đầu (khoảng trắng và tab) ở đầu một đường logic được sử dụng để tính toán mức thụt của dòng, từ đó được sử dụng để xác định nhóm các câu lệnh. Các tab được thay thế (từ trái sang phải) bằng một đến tám khoảng trống sao cho tổng số ký tự lên đến và bao gồm cả sự thay thế là bội số của tám (điều này được dự định là quy tắc tương tự như được sử dụng bởi UNIX). Tổng số không gian trước ký tự không trống đầu tiên sau đó xác định thụt dòng. Thắng không thể được phân chia trên nhiều dòng vật lý bằng cách sử dụng dấu gạch chéo ngược; khoảng trắng lên đến dấu gạch chéo ngược đầu tiên xác định thụt lề. Thắng bị từ chối là không nhất quán nếu một tệp nguồn trộn các tab và không gian theo cách làm cho ý nghĩa phụ thuộc vào giá trị của một tab trong không gian; Một month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year1 được nâng lên trong trường hợp đó. Lưu ý tương thích đa nền tảng: Do tính chất của các trình chỉnh sửa văn bản trên các nền tảng không phải là Unix, việc sử dụng hỗn hợp các khoảng trống và tab cho thụt vào một tệp nguồn duy nhất là không khôn ngoan. Cũng cần lưu ý rằng các nền tảng khác nhau có thể hạn chế rõ ràng mức thụt tối đa. because of the nature of text editors on non-UNIX platforms, it is unwise to use a mixture of spaces and tabs for the indentation in a single source file. It should also be noted that different platforms may explicitly limit the maximum indentation level. Một ký tự FormFeed có thể có mặt ở đầu dòng; Nó sẽ được bỏ qua cho các tính toán thụt vào trên. Các ký tự FormFeed xảy ra ở những nơi khác trong khoảng trắng hàng đầu có hiệu ứng không xác định (ví dụ, chúng có thể đặt lại số lượng không gian về 0). Các cấp độ thụt của các dòng liên tiếp được sử dụng để tạo ra các mã thông báo thụt lề và cống hiến, sử dụng một ngăn xếp, như sau. Trước khi dòng đầu tiên của tệp được đọc, một số 0 được đẩy trên ngăn xếp; Điều này sẽ không bao giờ được bật ra nữa. Các số được đẩy trên ngăn xếp sẽ luôn tăng nghiêm ngặt từ dưới lên trên. Ở đầu mỗi đường logic, mức thụt dòng của dòng được so sánh với đỉnh của ngăn xếp. Nếu nó bằng nhau, không có gì xảy ra. Nếu nó lớn hơn, nó được đẩy lên ngăn xếp và một mã thông báo thụt lề được tạo ra. Nếu nó nhỏ hơn, nó phải là một trong những con số xảy ra trên ngăn xếp; Tất cả các số trên ngăn xếp lớn hơn được bật ra và đối với mỗi số đã xuất hiện một mã thông báo khấu trừ được tạo ra. Vào cuối tệp, một mã thông báo dành cho một số còn lại trên ngăn xếp lớn hơn 0. Dưới đây là một ví dụ về một mảnh ghép chính xác (mặc dù khó hiểu) của mã Python: def perm(l): # Compute the list of all permutations of l if len(l) <= 1: return [l] r = [] for i in range(len(l)): s = l[:i] + l[i+1:] p = perm(s) for x in p: r.append(l[i:i+1] + x) return r Ví dụ sau đây cho thấy các lỗi thụt khác nhau: def perm(l): # error: first line indented for i in range(len(l)): # error: not indented s = l[:i] + l[i+1:] p = perm(l[:i] + l[i+1:]) # error: unexpected indent for x in p: r.append(l[i:i+1] + x) return r # error: inconsistent dedent . 2.1.9. Khoảng trắng giữa mã thông báoWhitespace between tokens¶Ngoại trừ khi bắt đầu một dòng logic hoặc trong các chuỗi chữ, không gian, tab và formfeed của SETESPACE có thể được sử dụng thay thế cho các mã thông báo tách biệt. Chỉ cần khoảng trắng giữa hai mã thông báo nếu cách ghép của chúng có thể được hiểu là một mã thông báo khác nhau (ví dụ: AB là một mã thông báo, nhưng A B là hai mã thông báo). 2.2. Token khácOther tokens¶Bên cạnh dòng mới, thụt lề và cống hiến, các loại mã thông báo sau đây tồn tại: định danh, từ khóa, nghĩa đen, người vận hành và phân định. Các ký tự khoảng trắng (trừ các thiết bị đầu hàng dòng, được thảo luận trước đó) không phải là mã thông báo, mà phục vụ để phân định mã thông báo. Khi sự mơ hồ tồn tại, một mã thông báo bao gồm chuỗi dài nhất có thể tạo thành mã thông báo hợp pháp, khi được đọc từ trái sang phải. 2.3. Số nhận dạng và từ khóaIdentifiers and keywords¶Định danh (còn được gọi là tên) được mô tả bởi các định nghĩa từ vựng sau đây. Cú pháp của các định danh trong Python dựa trên Phụ lục Unicode Phụ lục UAX-31, với sự xây dựng và thay đổi như được định nghĩa dưới đây; Xem thêm PEP 3131 để biết thêm chi tiết.PEP 3131 for further details. Trong phạm vi ASCII (U+0001..U+007F), các ký tự hợp lệ cho các định danh giống như trong Python 2.x: chữ hoa và chữ thường month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year3 đến month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year4, dấu gạch dưới month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year5 và, ngoại trừ ký tự đầu tiên, Các chữ số month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year6 đến month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year7. Python 3.0 giới thiệu các ký tự bổ sung từ bên ngoài phạm vi ASCII (xem PEP 3131). Đối với các ký tự này, phân loại sử dụng phiên bản của cơ sở dữ liệu ký tự Unicode như được bao gồm trong mô -đun month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year8.PEP 3131). For these characters, the classification uses the version of the Unicode Character Database as included in the month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year8 module. Định danh là không giới hạn về chiều dài. Trường hợp là đáng kể. identifier ::= Các mã danh mục Unicode được đề cập ở trên là viết tắt của:
Tất cả các định danh được chuyển đổi thành NFKC dạng bình thường trong khi phân tích cú pháp; So sánh các định danh dựa trên NFKC. Tệp HTML không quy tắc danh sách tất cả các ký tự định danh hợp lệ cho Unicode 4.1 có thể được tìm thấy tại https://www.unicode.org/public/13.0.0/ucd/derivingcoreproperies.txt 2.3.1. Từ khóaKeywords¶Các định danh sau đây được sử dụng làm từ dành riêng, hoặc từ khóa của ngôn ngữ và không thể được sử dụng làm số nhận dạng thông thường. Chúng phải được đánh vần chính xác như viết ở đây: False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield 2.3.2. Từ khóa mềmSoft Keywords¶Mới trong phiên bản 3.10. Một số định danh chỉ được bảo lưu trong các bối cảnh cụ thể. Chúng được gọi là từ khóa mềm. Các định danh month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year9, def perm(l): # Compute the list of all permutations of l if len(l) <= 1: return [l] r = [] for i in range(len(l)): s = l[:i] + l[i+1:] p = perm(s) for x in p: r.append(l[i:i+1] + x) return r0 và month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year5 có thể đóng vai trò là từ khóa trong các bối cảnh liên quan đến câu lệnh khớp mẫu, nhưng sự khác biệt này được thực hiện ở cấp độ phân tích cú pháp, chứ không phải khi mã hóa. Vì các từ khóa mềm, việc sử dụng của chúng với việc khớp mẫu là có thể trong khi vẫn bảo tồn khả năng tương thích với mã hiện có sử dụng month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year9, def perm(l): # Compute the list of all permutations of l if len(l) <= 1: return [l] r = [] for i in range(len(l)): s = l[:i] + l[i+1:] p = perm(s) for x in p: r.append(l[i:i+1] + x) return r0 và month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year5 làm tên định danh. 2.3.3. Các lớp định danh dành riêngReserved classes of identifiers¶Một số lớp định danh (bên cạnh từ khóa) có ý nghĩa đặc biệt. Các lớp này được xác định bởi các mô hình của các ký tự dẫn đầu và dấu vết nhấn mạnh: def perm(l): # Compute the list of all permutations of l if len(l) <= 1: return [l] r = [] for i in range(len(l)): s = l[:i] + l[i+1:] p = perm(s) for x in p: r.append(l[i:i+1] + x) return r5 Không được nhập khẩu bởi def perm(l): # Compute the list of all permutations of l if len(l) <= 1: return [l] r = [] for i in range(len(l)): s = l[:i] + l[i+1:] p = perm(s) for x in p: r.append(l[i:i+1] + x) return r6. month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year5 Trong mẫu def perm(l): # Compute the list of all permutations of l if len(l) <= 1: return [l] r = [] for i in range(len(l)): s = l[:i] + l[i+1:] p = perm(s) for x in p: r.append(l[i:i+1] + x) return r0 trong câu lệnh month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year9, month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year5 là một từ khóa mềm biểu thị một ký tự đại diện.soft keyword that denotes a wildcard. Một cách riêng biệt, trình thông dịch tương tác làm cho kết quả của đánh giá cuối cùng có sẵn trong biến month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year5. (Nó được lưu trữ trong mô-đun def perm(l): # error: first line indented for i in range(len(l)): # error: not indented s = l[:i] + l[i+1:] p = perm(l[:i] + l[i+1:]) # error: unexpected indent for x in p: r.append(l[i:i+1] + x) return r # error: inconsistent dedent2, cùng với các chức năng tích hợp như def perm(l): # error: first line indented for i in range(len(l)): # error: not indented s = l[:i] + l[i+1:] p = perm(l[:i] + l[i+1:]) # error: unexpected indent for x in p: r.append(l[i:i+1] + x) return r # error: inconsistent dedent3.) Ở những nơi khác, month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year5 là một định danh thường xuyên. Nó thường được sử dụng để đặt tên cho các mặt hàng đặc biệt của người Viking, nhưng nó không đặc biệt đối với chính Python. Ghi chú Tên month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year5 thường được sử dụng cùng với quốc tế hóa; Tham khảo tài liệu cho mô -đun def perm(l): # error: first line indented for i in range(len(l)): # error: not indented s = l[:i] + l[i+1:] p = perm(l[:i] + l[i+1:]) # error: unexpected indent for x in p: r.append(l[i:i+1] + x) return r # error: inconsistent dedent6 để biết thêm thông tin về quy ước này. Nó cũng thường được sử dụng cho các biến không sử dụng. def perm(l): # error: first line indented for i in range(len(l)): # error: not indented s = l[:i] + l[i+1:] p = perm(l[:i] + l[i+1:]) # error: unexpected indent for x in p: r.append(l[i:i+1] + x) return r # error: inconsistent dedent7 Các tên được xác định bởi hệ thống, được gọi một cách không chính thức là tên của Dund Dunder. Các tên này được xác định bởi thông dịch viên và việc triển khai của nó (bao gồm thư viện tiêu chuẩn). Tên hệ thống hiện tại được thảo luận trong phần Tên phương thức đặc biệt và các nơi khác. Nhiều khả năng sẽ được xác định trong các phiên bản tương lai của Python. Bất kỳ việc sử dụng tên def perm(l): # error: first line indented for i in range(len(l)): # error: not indented s = l[:i] + l[i+1:] p = perm(l[:i] + l[i+1:]) # error: unexpected indent for x in p: r.append(l[i:i+1] + x) return r # error: inconsistent dedent7, trong bất kỳ ngữ cảnh nào, không tuân theo việc sử dụng được ghi lại rõ ràng, có thể bị phá vỡ mà không có cảnh báo.Special method names section and elsewhere. More will likely be defined in future versions of Python. Any use of def perm(l): # error: first line indented for i in range(len(l)): # error: not indented s = l[:i] + l[i+1:] p = perm(l[:i] + l[i+1:]) # error: unexpected indent for x in p: r.append(l[i:i+1] + x) return r # error: inconsistent dedent7 names, in any context, that does not follow explicitly documented use, is subject to breakage without warning. def perm(l): # error: first line indented for i in range(len(l)): # error: not indented s = l[:i] + l[i+1:] p = perm(l[:i] + l[i+1:]) # error: unexpected indent for x in p: r.append(l[i:i+1] + x) return r # error: inconsistent dedent9 Tên-tư nhân. Các tên trong danh mục này, khi được sử dụng trong bối cảnh của một định nghĩa lớp, được viết lại để sử dụng một biểu mẫu bị xáo trộn để giúp tránh các cuộc đụng độ tên giữa các thuộc tính riêng tư của cơ sở và các lớp có nguồn gốc. Xem phần Định danh (Tên).Identifiers (Names). 2.4. Theo nghĩa chữLiterals¶Biết chữ là các ký hiệu cho các giá trị không đổi của một số loại tích hợp. 2.4.1. Chuỗi và byte theo nghĩa chữString and Bytes literals¶Chuỗi chữ được mô tả bởi các định nghĩa từ vựng sau: stringliteral ::= [ bytesliteral ::= Một hạn chế cú pháp không được chỉ định bởi các sản phẩm này là không được phép là khoảng trắng giữa identifier ::=0 hoặc identifier ::=1 và phần còn lại của nghĩa đen. Bộ ký tự nguồn được xác định bởi khai báo mã hóa; đó là UTF-8 nếu không có khai báo mã hóa nào được đưa ra trong tệp nguồn; Xem phần Tuyên bố mã hóa.Encoding declarations. Trong tiếng Anh đơn giản: Cả hai loại chữ có thể được đặt trong các trích dẫn đơn ( identifier ::=2) hoặc trích dẫn kép ( identifier ::=3). Chúng cũng có thể được đặt trong các nhóm phù hợp gồm ba trích dẫn đơn hoặc đôi (chúng thường được gọi là các chuỗi được trích dẫn ba). Nhân vật Backslash ( month_names = ['Januari', 'Februari', 'Maart', # These are the 'April', 'Mei', 'Juni', # Dutch names 'Juli', 'Augustus', 'September', # for the months 'Oktober', 'November', 'December'] # of the year0) được sử dụng để mang lại ý nghĩa đặc biệt cho các ký tự thông thường như identifier ::=5, có nghĩa là ‘Newline, khi thoát ra ( if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 17). Nó cũng có thể được sử dụng để thoát khỏi các ký tự có ý nghĩa đặc biệt, chẳng hạn như Newline, chính bản sao lại hoặc ký tự trích dẫn. Xem trình tự thoát dưới đây để biết ví dụ.escape sequences below for examples. Byte theo nghĩa đen luôn được đặt trước với identifier ::=7 hoặc identifier ::=8; Họ tạo ra một thể hiện của loại identifier ::=9 thay vì loại False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield0. Chúng chỉ có thể chứa các ký tự ASCII; Các byte có giá trị số từ 128 trở lên phải được biểu thị bằng lối thoát. Cả hai chuỗi và byte theo nghĩa đen có thể tùy ý được đặt tiền tố với chữ cái False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield1 hoặc False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield2; Các chuỗi như vậy được gọi là chuỗi thô và coi dấu gạch chéo ngược là ký tự theo nghĩa đen. Kết quả là, trong các chuỗi chữ, False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield3 và False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield4 trốn thoát trong các chuỗi thô không được xử lý đặc biệt. Cho rằng các chữ unicode thô của Python 2.x, hành xử khác với Python 3.x, cú pháp False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield5 không được hỗ trợ. Mới trong phiên bản 3.3: Tiền tố False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield6 prefix of raw bytes literals has been added as a synonym of False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield7. Mới trong phiên bản 3.3: Hỗ trợ cho Unicode Legacy Literal ( False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield8) was reintroduced to simplify the maintenance of dual Python 2.x and 3.x codebases. See PEP 414 for more information. Một chuỗi theo nghĩa đen với False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield9 hoặc stringliteral ::= [0 trong tiền tố của nó là một chuỗi được định dạng theo nghĩa đen; Xem các chuỗi chữ được định dạng. False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield9 có thể được kết hợp với False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield1, nhưng không phải với identifier ::=7 hoặc stringliteral ::= [4, do đó các chuỗi được định dạng thô là có thể, nhưng các byte được định dạng là không.Formatted string literals. The False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield9 may be combined with False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield1, but not with identifier ::=7 or stringliteral ::= [4, therefore raw formatted strings are possible, but formatted bytes literals are not. Trong các nghĩa đen được trích dẫn ba, các dòng mới và trích dẫn không được cho phép (và được giữ lại), ngoại trừ ba trích dẫn không được phân loại trong một hàng chấm dứt theo nghĩa đen. (Một trích dẫn của người Viking là nhân vật được sử dụng để mở theo nghĩa đen, tức là identifier ::=2 hoặc identifier ::=3.) Trừ khi có tiền tố False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield1 hoặc False await else import pass None break except in raise True class finally is return and continue for lambda try as def from nonlocal while assert del global not with async elif if or yield2, các chuỗi thoát theo chuỗi và byte theo nghĩa đen được giải thích theo các quy tắc tương tự như các quy tắc được sử dụng bởi Standard C. Các chuỗi thoát được công nhận là:
Trình tự thoát chỉ được công nhận trong các chuỗi chữ là:
Notes:
Nhân vật có giá trị bát phân ooo Nhân vật có giá trị hex hh Trình tự thoát chỉ được công nhận trong các chuỗi chữ là:String literal concatenation¶Tên được đặt tên ký tự trong cơ sở dữ liệu Unicode # vim:fileencoding= 1Ký tự với giá trị hex 16 bit xxxx Ký tự với giá trị hex 32 bit xxxxxxxxFormatted string literals¶Một dấu gạch chéo ngược có thể được thêm vào cuối dòng để bỏ qua dòng mới: Kết quả tương tự có thể đạt được bằng cách sử dụng các chuỗi được trích dẫn ba, hoặc dấu ngoặc đơn và sự kết hợp theo nghĩa đen của chuỗi. Như trong tiêu chuẩn C, tối đa ba chữ số bát phân được chấp nhận. # vim:fileencoding= 2Không giống như trong tiêu chuẩn C, chính xác là hai chữ số hex là bắt buộc. Các biểu thức trong các chuỗi chữ được định dạng được đối xử như các biểu thức python thông thường được bao quanh bởi dấu ngoặc đơn, với một vài ngoại lệ. Một biểu thức trống không được phép, và cả # vim:fileencoding= 22 và biểu thức gán # vim:fileencoding= 23 phải được bao quanh bởi dấu ngoặc đơn rõ ràng. Biểu thức thay thế có thể chứa các lần ngắt dòng (ví dụ: trong các chuỗi được trích xuất ba), nhưng chúng không thể chứa các bình luận. Mỗi biểu thức được đánh giá trong bối cảnh mà chuỗi được định dạng xuất hiện theo nghĩa đen, theo thứ tự từ trái sang phải.Đã thay đổi trong phiên bản 3.7: Trước Python 3.7, biểu thức # vim:fileencoding= 24 expression and comprehensions containing an
# vim:fileencoding= 25 clause were illegal in the expressions in formatted string literals due to a problem with the implementation.Khi dấu hiệu bằng nhau # vim:fileencoding= 18 được cung cấp, đầu ra sẽ có văn bản biểu thức, # vim:fileencoding= 18 và giá trị được đánh giá. Không gian sau khi nẹp mở # vim:fileencoding= 17, trong biểu thức và sau khi # vim:fileencoding= 18 đều được giữ lại trong đầu ra. Theo mặc định, # vim:fileencoding= 18 gây ra # vim:fileencoding= 31 của biểu thức được cung cấp, trừ khi có một định dạng được chỉ định. Khi một định dạng được chỉ định, nó mặc định là # vim:fileencoding= 32 của biểu thức trừ khi chuyển đổi # vim:fileencoding= 33 được khai báo.Mới trong phiên bản 3.8: Dấu hiệu bằng nhau # vim:fileencoding= 18.Nếu một chuyển đổi được chỉ định, kết quả của việc đánh giá biểu thức được chuyển đổi trước khi định dạng. Chuyển đổi # vim:fileencoding= 35 gọi # vim:fileencoding= 32 trên kết quả, # vim:fileencoding= 33 gọi # vim:fileencoding= 31 và # vim:fileencoding= 39 gọi # vim:fileencoding= 40.Kết quả sau đó được định dạng bằng giao thức # vim:fileencoding= 41. Trình xác định định dạng được chuyển đến phương pháp # vim:fileencoding= 42 của biểu thức hoặc kết quả chuyển đổi. Một chuỗi trống được truyền khi trình xác định định dạng bị bỏ qua. Kết quả được định dạng sau đó được bao gồm trong giá trị cuối cùng của toàn bộ chuỗi.Các nhà xác định định dạng cấp cao nhất có thể bao gồm các trường thay thế lồng nhau. Các trường lồng nhau này có thể bao gồm các trường chuyển đổi và định dạng của riêng chúng, nhưng có thể không bao gồm các trường thay thế được lồng sâu hơn. Trình xác định định dạng Mini-Language giống như phương pháp được sử dụng bởi phương pháp # vim:fileencoding= 43.format specifiers, but may not include more deeply nested replacement fields. The format specifier mini-language is the same as that used by the # vim:fileencoding= 43
method.Chuỗi được định dạng có thể được nối, nhưng các trường thay thế không thể được phân chia trên các chữ. Một số ví dụ về các chuỗi chữ được định dạng: # vim:fileencoding= 3Hậu quả của việc chia sẻ cùng một cú pháp với các chữ cái thông thường là các ký tự trong các trường thay thế không được xung đột với trích dẫn được sử dụng trong chuỗi được định dạng bên ngoài theo nghĩa đen: # vim:fileencoding= 4Backslashes không được phép trong các biểu thức định dạng và sẽ gây ra lỗi: # vim:fileencoding= 5Để bao gồm một giá trị trong đó cần có một lối thoát ngược, hãy tạo một biến tạm thời. # vim:fileencoding= 6Chuỗi được định dạng không thể được sử dụng làm tài liệu, ngay cả khi chúng không bao gồm các biểu thức. # vim:fileencoding= 7Xem thêm PEP 498 để biết đề xuất đã thêm các chuỗi chuỗi được định dạng và # vim:fileencoding= 43, sử dụng cơ chế chuỗi định dạng liên quan.PEP 498 for the proposal that added formatted string literals, and
# vim:fileencoding= 43, which uses a related format string mechanism.2.4.4. Chữ số chữNumeric literals¶Có ba loại chữ số: số nguyên, số điểm nổi và số tưởng tượng. Không có chữ viết phức tạp (các số phức tạp có thể được hình thành bằng cách thêm một số thực và một số tưởng tượng). Lưu ý rằng các chữ số không bao gồm một dấu hiệu; Một cụm từ như # vim:fileencoding= 45 thực sự là một biểu thức bao gồm toán tử Unary ‘# vim:fileencoding= 46, và nghĩa đen # vim:fileencoding= 47.2.4.5. Integer Ligesals¶Integer literals¶Các chữ số nguyên được mô tả bằng các định nghĩa từ vựng sau: # vim:fileencoding= 8Không có giới hạn cho độ dài của các chữ số nguyên ngoài những gì có thể được lưu trữ trong bộ nhớ có sẵn. Dấu gạch dưới được bỏ qua để xác định giá trị số của nghĩa đen. Chúng có thể được sử dụng để nhóm các chữ số để nâng cao khả năng đọc. Một dấu gạch dưới có thể xảy ra giữa các chữ số và sau các nhà xác định cơ sở như # vim:fileencoding= 48.Lưu ý rằng các số không hàng đầu trong một số thập phân khác không được phép. Điều này là để định hướng với các chữ theo nghĩa ba kiểu chữ C, mà Python đã sử dụng trước phiên bản 3.0. Một số ví dụ về chữ số nguyên: # vim:fileencoding= 9Đã thay đổi trong phiên bản 3.6: Dấu gạch dưới hiện được phép nhóm các mục đích nhóm trong nghĩa đen.Underscores are now allowed for grouping purposes in literals. 2.4.6. Bình luận nổiFloating point literals¶Bình luận điểm nổi được mô tả bằng các định nghĩa từ vựng sau: if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 10 Lưu ý rằng các bộ phận số nguyên và số mũ luôn được giải thích bằng cách sử dụng Radix 10. Ví dụ, # vim:fileencoding= 49 là hợp pháp và biểu thị cùng số với # vim:fileencoding= 50. Phạm vi cho phép của các chữ ký nổi là phụ thuộc vào thực hiện. Như trong các chữ số nguyên, gạch dưới được hỗ trợ cho nhóm chữ số.Một số ví dụ về nghĩa đen của điểm nổi: if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 11 Đã thay đổi trong phiên bản 3.6: Dấu gạch dưới hiện được phép nhóm các mục đích nhóm trong nghĩa đen.Underscores are now allowed for grouping purposes in literals. 2.4.7. Văn học tưởng tượngImaginary literals¶Văn học tưởng tượng được mô tả bởi các định nghĩa từ vựng sau: if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 12 Một nghĩa đen tưởng tượng mang lại một số phức với một phần thực là 0,0. Các số phức được thể hiện dưới dạng một cặp số điểm nổi và có cùng một hạn chế trong phạm vi của chúng. Để tạo một số phức với một phần thực khác không, hãy thêm một số điểm nổi vào nó, ví dụ: # vim:fileencoding= 51. Một số ví dụ về văn học tưởng tượng:if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 13 2.5. Người điều khiển trongOperators¶Các mã thông báo sau đây là người vận hành: if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 14 2.6. Phân loạiDelimiters¶Các mã thông báo sau đây đóng vai trò là người phân định trong ngữ pháp: if 1900 < year < 2100 and 1 <= month <= 12 \ and 1 <= day <= 31 and 0 <= hour < 24 \ and 0 <= minute < 60 and 0 <= second < 60: # Looks like a valid date return 15 Thời gian cũng có thể xảy ra trong các dấu hiệu nổi và nghĩa đen. Một chuỗi gồm ba giai đoạn có một ý nghĩa đặc biệt như một dấu chấm lửng. Nửa sau của danh sách, các nhà khai thác phân công tăng cường, phục vụ từ vựng dưới dạng phân định, nhưng cũng thực hiện một hoạt động. Các ký tự in ASCII sau đây có ý nghĩa đặc biệt như một phần của các mã thông báo khác hoặc có ý nghĩa khác đối với máy phân tích từ vựng: Các ký tự in ASCII sau đây không được sử dụng trong Python. Sự xuất hiện của chúng bên ngoài chuỗi và nhận xét của họ là một lỗi vô điều kiện: Chú thích 1https://www.unicode.org/Public/11.0.0/ucd/NameAliases.txt |