Hướng dẫn python pandas read excel example - python pandas đọc ví dụ excel
Chúng ta có thể sử dụng chức năng mô -đun pandas read_excel () để đọc dữ liệu tệp excel vào đối tượng DataFrame. Nếu bạn nhìn vào một tờ Excel, thì đó là một bảng hai chiều. Đối tượng DataFrame cũng đại diện cho cấu trúc dữ liệu bảng hai chiều. Show
1. Ví dụ 1. Pandas read_excel ()Hãy nói rằng chúng tôi có một tập tin Excel với hai tờ - nhân viên và xe hơi. Hàng trên cùng chứa tiêu đề của bảng. Dữ liệu trang tệp ExcelDưới đây là ví dụ để đọc dữ liệu bảng nhân viên của người Viking và in nó.
Output:
2. Danh sách các tiêu đề cột của tờ ExcelChúng ta có thể nhận danh sách các tiêu đề cột bằng thuộc tính 7 của đối tượng DataFrame.
Output:
3. In dữ liệu cộtChúng ta có thể lấy dữ liệu cột và chuyển đổi nó thành một danh sách các giá trị.
Output:
4. Pandas read_excel () usecols ví dụChúng ta có thể chỉ định tên cột sẽ được đọc từ tệp Excel. Nó rất hữu ích khi bạn chỉ quan tâm đến một vài cột của tờ Excel.
Output:
5. Đọc tệp excel mà không có hàng tiêu đềNếu bảng Excel không có hàng tiêu đề nào, hãy chuyển giá trị tham số tiêu đề là không có.
Nếu bạn vượt qua giá trị tiêu đề dưới dạng một số nguyên, hãy để nói 3. Sau đó, hàng thứ ba sẽ được coi là hàng tiêu đề và các giá trị sẽ được đọc từ hàng tiếp theo trở đi. Bất kỳ dữ liệu trước khi hàng tiêu đề sẽ bị loại bỏ. 6. Tờ Excel cho Dict, CSV và JSONĐối tượng DataFrame có các phương thức tiện ích khác nhau để chuyển đổi dữ liệu bảng thành định dạng Dict, CSV hoặc JSON.
Output: 07. Tài liệu tham khảo
Đọc một tập tin Excel vào một bản dữ liệu gấu trúc. Hỗ trợ XLS, XLSX, XLSM, XLSB, ODF, ODF và Tệp ODT được đọc từ hệ thống tập tin hoặc URL cục bộ. Hỗ trợ một tùy chọn để đọc một tờ hoặc một danh sách các tờ. Tham số, byte, excelfile, xlrd.book, đối tượng đường dẫn hoặc đối tượng giống như tệpiostr, bytes, ExcelFile, xlrd.Book, path object, or file-like objectBất kỳ đường dẫn chuỗi hợp lệ đều được chấp nhận. Chuỗi có thể là một url. Các sơ đồ URL hợp lệ bao gồm HTTP, FTP, S3 và Tệp. Đối với URL tệp, một máy chủ được dự kiến. Một tập tin cục bộ có thể là: 8.Nếu bạn muốn vượt qua trong một đối tượng đường dẫn, Pandas chấp nhận bất kỳ 9 nào.Theo đối tượng giống như tệp, chúng tôi đề cập đến các đối tượng bằng phương thức 0, chẳng hạn như xử lý tệp (ví dụ: thông qua hàm tích hợp 1) hoặc 2.sheet_namestr, int, danh sách hoặc không có, mặc định 0str, int, list, or None, default 0Chuỗi được sử dụng cho tên trang. Các số nguyên được sử dụng trong các vị trí tấm không chỉ số (bảng biểu đồ không được tính là một vị trí bảng). Danh sách các chuỗi/số nguyên được sử dụng để yêu cầu nhiều tờ. Chỉ định không có để có được tất cả các bảng tính. Các trường hợp có sẵn:
Hàng (0 chỉ số) để sử dụng cho các nhãn cột của khung dữ liệu được phân tích cú pháp. Nếu một danh sách các số nguyên được thông qua các vị trí hàng, các vị trí hàng sẽ được kết hợp thành 7. Không sử dụng nếu không có tiêu đề.tên tuổi giống như mặc định, không có gìarray-like, default NoneDanh sách các tên cột để sử dụng. Nếu tệp không chứa hàng tiêu đề, thì bạn nên chuyển tiêu đề một cách rõ ràng = không có. index_colint, danh sách int, không có mặc địnhint, list of int, default NoneCột (0 chỉ số) để sử dụng làm nhãn hàng của DataFrame. Không có nếu không có cột như vậy. Nếu một danh sách được thông qua, các cột đó sẽ được kết hợp thành 7. Nếu một tập hợp dữ liệu được chọn với 9, index_col dựa trên tập hợp con.Các giá trị bị thiếu sẽ được lấp đầy để cho phép khứ hồi với 0 cho 1. Để tránh chuyển tiếp, việc sử dụng các giá trị bị thiếu 2 sau khi đọc dữ liệu thay vì 3.
usecolsstr, danh sách giống như hoặc có thể gọi được, không có mặc địnhstr, list-like, or callable, default None
Trả về một tập hợp con của các cột theo hành vi ở trên. Squeezebool, mặc định saibool, default FalseNếu dữ liệu được phân tích cú pháp chỉ chứa một cột thì hãy trả về một chuỗi. Đã không dùng nữa kể từ phiên bản 1.4.0: Phụ lục 5 to the call to 6 to squeeze the data.Tên DTYPETYPE hoặc DIGNT của cột -> Loại, mặc định không cóType name or dict
of column -> type, default NoneKiểu dữ liệu cho dữ liệu hoặc cột. Ví dụ. {‘A, Nếu các bộ chuyển đổi được chỉ định, chúng sẽ được áp dụng thay vì chuyển đổi DTYPE. enginest, mặc định không cóstr, default NoneNếu IO không phải là bộ đệm hoặc đường dẫn, điều này phải được đặt để xác định IO. Động cơ được hỗ trợ: Hồi XLRD ,, OpenPyxl ,, ODF, ODF, Khả năng tương thích động cơ:
Đã thay đổi trong phiên bản 1.2.0: Công cụ XLRD hiện chỉ hỗ trợ các tệp 7 files. When 8, the following logic will be
used to determine the engine:
Diễn ngôn của các chức năng để chuyển đổi các giá trị trong các cột nhất định. Các phím có thể là số nguyên hoặc nhãn cột, các giá trị là các hàm lấy một đối số đầu vào, nội dung ô Excel và trả về nội dung được chuyển đổi. true_valuesList, mặc định không cólist, default NoneGiá trị để xem là đúng. false_valuesList, mặc định không cólist, default NoneGiá trị để coi là sai. SkipRowsList giống như, int hoặc có thể gọi, tùy chọnlist-like, int, or callable, optionalSố dòng để bỏ qua (0 chỉ số) hoặc số dòng để bỏ qua (int) khi bắt đầu tệp. Nếu có thể gọi được, hàm có thể gọi sẽ được đánh giá theo các chỉ số hàng, trả về đúng nếu hàng nên được bỏ qua và sai. Một ví dụ về một đối số có thể gọi hợp lệ sẽ là 5.nrowsint, mặc định không cóint, default NoneSố lượng hàng để phân tích cú pháp. NA_VALUESSCALAR, STR, DANH SÁCH, HOẶC DINHscalar, str, list-like, or dict, default NoneCác chuỗi bổ sung để nhận ra là NA/NAN. Nếu Dict vượt qua, các giá trị NA mỗi cột cụ thể. Theo mặc định, các giá trị sau được hiểu là nan: '', '#n/a', '#n/a n/a', '#na', '-1.#Ind', '-1.#Qnan', '-Nan', '-nan', '1.#ind', '1.#qnan', '', 'n/a', 'na', 'null', 'nan', 'n/a' , 'nan', 'null'. keep_default_nabool, mặc định đúngbool, default TrueCó hay không bao gồm các giá trị NAN mặc định khi phân tích dữ liệu. Tùy thuộc vào việc NA_Values được thông qua, hành vi như sau:
Lưu ý rằng nếu Na_Filter được truyền dưới dạng sai, các tham số keep_default_na và na_values sẽ bị bỏ qua. na_filterbool, mặc định đúngbool, default TruePhát hiện các điểm đánh dấu giá trị bị thiếu (chuỗi trống và giá trị của NA_Values). Trong dữ liệu mà không có NAS, việc truyền Na_Filter = Sai có thể cải thiện hiệu suất của việc đọc một tệp lớn. verbosebool, mặc định saibool, default FalseChỉ ra số lượng giá trị Na được đặt trong các cột không phải là số. Parse_datesbool, Danh sách giống như hoặc Dict, mặc định FALSEbool, list-like, or dict, default FalseHành vi như sau:
Nếu một cột hoặc chỉ mục chứa một ngày không thể làm được, toàn bộ cột hoặc chỉ mục sẽ được trả về không thay đổi dưới dạng kiểu dữ liệu đối tượng. Nếu bạn không muốn phân tích một số ô như ngày, chỉ cần thay đổi loại của chúng trong Excel thành văn bản. Đối với phân tích dữ liệu không chuẩn, sử dụng 6 sau 7.Lưu ý: Một đường dẫn nhanh tồn tại trong các ngày được định dạng ISO8601. date_parserfunction, tùy chọnfunction, optionalChức năng sử dụng để chuyển đổi một chuỗi các cột chuỗi thành một mảng các phiên bản DateTime. Mặc định sử dụng 8 để thực hiện chuyển đổi. Pandas sẽ cố gắng gọi DATE_PARSER theo ba cách khác nhau, tiến sang cách tiếp theo nếu xảy ra ngoại lệ: 1) Truyền một hoặc nhiều mảng (theo định nghĩa của parse_dates) làm đối số; 2) Concatenate (hàng khôn ngoan) Các giá trị chuỗi từ các cột được xác định bởi parse_dates thành một mảng duy nhất và truyền cái đó; và 3) CALL DATE_PARSER một lần cho mỗi hàng bằng một hoặc nhiều chuỗi (tương ứng với các cột được xác định bởi parse_dates) làm đối số.hàng ngàn, mặc định không cóstr,
default NoneHàng ngàn phân tách để phân tích các cột chuỗi vào số. Lưu ý rằng tham số này chỉ cần thiết cho các cột được lưu trữ dưới dạng văn bản trong Excel, bất kỳ cột số nào sẽ tự động được phân tích cú pháp, bất kể định dạng hiển thị. DecimalStr, mặc định ‘.str, default ‘.’Ký tự để nhận ra là điểm thập phân để phân tích các cột chuỗi vào số. Lưu ý rằng tham số này chỉ cần thiết cho các cột được lưu trữ dưới dạng văn bản trong Excel, bất kỳ cột số nào sẽ tự động được phân tích cú pháp, bất kể định dạng hiển thị. (Ví dụ: sử dụng ‘, đối với dữ liệu châu Âu). Mới trong phiên bản 1.4.0. Nhận xét ra phần còn lại của dòng. Chuyển một ký tự hoặc ký tự cho đối số này để chỉ ra nhận xét trong tệp đầu vào. Bất kỳ dữ liệu giữa chuỗi nhận xét và phần cuối của dòng hiện tại đều bị bỏ qua. Skipfooterint, mặc định 0int, default 0Hàng ở cuối để bỏ qua (0 chỉ số). convert_floatbool, mặc định đúngbool, default TrueChuyển đổi phao tích phân sang int (tức là, 1.0 -> 1). Nếu sai, tất cả dữ liệu số sẽ được đọc dưới dạng phao: Excel lưu trữ tất cả các số dưới dạng nổi trong nội bộ. Không dùngconvert_float will be removed in a future version manggle_dupe_colsbool, mặc định đúngbool, default TrueCác cột trùng lặp sẽ được chỉ định là ‘X,‘ X.1 ,, Truyền sai sẽ khiến dữ liệu bị ghi đè nếu có tên trùng lặp trong các cột. Đã không dùng nữa kể từ phiên bản 1.5.0: Không được triển khai và một đối số mới để chỉ định mẫu cho tên của các cột trùng lặp sẽ được thêm vào thay thếNot implemented, and a new argument to specify the pattern for the names of duplicated columns will be added instead Storage_OptionsDict, Tùy chọndict, optionalCác tùy chọn bổ sung có ý nghĩa cho một kết nối lưu trữ cụ thể, ví dụ: máy chủ, cổng, tên người dùng, mật khẩu, v.v. cho URL HTTP (s), các cặp giá trị khóa được chuyển tiếp đến 9 dưới dạng tùy chọn tiêu đề. Đối với các URL khác (ví dụ: bắt đầu với S3: //, và GC GCS: //), các cặp giá trị khóa được chuyển tiếp đến 0. Vui lòng xem 1 và 2 để biết thêm chi tiết và để biết thêm ví dụ về các tùy chọn lưu trữ, hãy tham khảo tại đây.Mới trong phiên bản 1.2.0. Trả về DataFrame hoặc Dict of DataFramesDataFrame từ tệp được truyền trong tệp Excel. Xem Ghi chú trong Đối số Sheet_Name để biết thêm thông tin về khi nào một DID of DataFrames được trả về. Xem thêm 3Viết dataFrame vào một tệp excel. 4Viết DataFrame vào tệp Giá trị được phân tách bằng dấu phẩy (CSV). 5Đọc một tệp giá trị được phân tách bằng dấu phẩy (CSV) vào DataFrame. 6Đọc một bảng các dòng định dạng chiều rộng cố định vào DataFrame. Ví dụ Tệp có thể được đọc bằng tên tệp dưới dạng chuỗi hoặc đối tượng tệp mở: 1 2Chỉ mục và tiêu đề có thể được chỉ định thông qua các đối số index_col và tiêu đề 3Các loại cột được suy ra nhưng có thể được chỉ định rõ ràng 4Đúng, các giá trị sai và NA và hàng ngàn phân tách có mặc định, nhưng cũng có thể được chỉ định rõ ràng. Cung cấp các giá trị bạn muốn là chuỗi hoặc danh sách các chuỗi! 5Có thể bỏ qua các dòng bình luận trong tệp đầu vào excel bằng cách sử dụng bình luận kwarg 6Làm thế nào để bạn đọc dữ liệu từ tệp excel trong python bằng gấu trúc?Chúng ta có thể sử dụng chức năng mô -đun pandas read_excel () để đọc dữ liệu tệp excel vào đối tượng DataFrame. Nếu bạn nhìn vào một tờ Excel, đó là một bảng hai chiều. Đối tượng DataFrame cũng đại diện cho cấu trúc dữ liệu bảng hai chiều.use the pandas module read_excel() function to read the excel file data into a DataFrame object. If you look at an excel sheet, it's a two-dimensional table. The DataFrame object also represents a two-dimensional tabular data structure.
Làm cách nào để đọc tệp .xlsx trong gấu trúc?Chức năng pandas.read_excel () được sử dụng để đọc bảng Excel với phần mở rộng XLSX vào gấu trúc DataFrame. Bằng cách đọc một tờ duy nhất, nó trả về một đối tượng DataFrame của gấu trúc, nhưng đọc hai tờ, nó trả về một dict của DataFrame. Có thể tải các tệp Excel được lưu trữ trong hệ thống tập tin cục bộ hoặc từ URL. read_excel() function is used to read excel sheet with extension xlsx into pandas DataFrame. By reading a single sheet it returns a pandas DataFrame object, but reading two sheets it returns a Dict of DataFrame. Can load excel files stored in a local filesystem or from an URL.
Pandas có thể đọc một tệp excel mở không?Đọc một tập tin Excel vào một bản dữ liệu gấu trúc.Hỗ trợ XLS, XLSX, XLSM, XLSB, ODF, ODF và Tệp ODT được đọc từ hệ thống tập tin hoặc URL cục bộ.Hỗ trợ một tùy chọn để đọc một tờ hoặc một danh sách các tờ.. Supports xls , xlsx , xlsm , xlsb , odf , ods and odt file extensions read from a local filesystem or URL. Supports an option to read a single sheet or a list of sheets.
Làm cách nào để đọc một cột cụ thể trong Excel bằng gấu trúc?Sử dụng pandas.read_csv () để đọc một cột cụ thể từ tệp CSV.Để đọc tệp CSV, hãy gọi PD.read_csv (file_name, usecols = cols_list) với file_name làm tên của tệp CSV, DELIMITER là dấu phân cách và cols_list làm danh sách các cột cụ thể để đọc từ tệp CSV. read_csv() to read a specific column from a CSV file. To read a CSV file, call pd. read_csv(file_name, usecols=cols_list) with file_name as the name of the CSV file, delimiter as the delimiter, and cols_list as the list of specific columns to read from the CSV file. |