Hướng dẫn how to extract columns from excel in python - cách trích xuất các cột từ excel trong python

english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]
7 có nghĩa là nó là một chuỗi unicode, nó được đặt ở đó khi bạn gọi
english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]
8. Nếu bạn viết chuỗi ra một tệp, nó sẽ không ở đó. Những gì bạn đang nhận được là 1 hàng từ cột. Đó là bởi vì bạn đang sử dụng
english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]
9, nó trả về một danh sách với một yếu tố.

Hãy thử nhận danh sách giá trị cột:

ids = sh.col_values[0, start_rowx=1]
english = sh.col_values[1, start_rowx=1]
spanish = sh.col_values[2, start_rowx=1]
french = sh.col_values[3, start_rowx=1]

Và sau đó bạn có thể

["1", "Hello"],["2", "Hi"], ["3", "Bus"]
0 chúng vào danh sách tuple:

english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]

Đang ở dạng:

["1", "Hello"],["2", "Hi"], ["3", "Bus"]

Nếu bạn muốn in các cặp:

for id, word in english_with_IDS:
       print id + "=" + word

["1", "Hello"],["2", "Hi"], ["3", "Bus"]
1 Trả về danh sách các giá trị cột, nếu bạn muốn các giá trị đơn, bạn có thể gọi
["1", "Hello"],["2", "Hi"], ["3", "Bus"]
2.

Bạn có thể có một số tệp Excel mà bạn muốn trích xuất giá trị cột nhất định. Trong bài đăng này, chúng ta sẽ xem cách trích xuất hoặc nhận các giá trị từ cột của tệp excel .xlsx bằng Python

Trích xuất giá trị cột từ xlsx excel

Để trích xuất các giá trị từ cột bằng Python, chúng ta cần theo các thư viện. Đảm bảo cài đặt chúng

  • gấu trúc
  • OpenPyxl

Bây giờ chúng ta cần một tệp excel với tiện ích mở rộng .xlsx. Tôi đang lấy một tệp xlsx mẫu có dữ liệu

Bây giờ nếu chúng ta muốn trích xuất dữ liệu từ một cột nhất định, ví dụ từ email & nbsp ;, thì chúng ta cần mãEmail , then we need to code

import pandas as pd
import numpy as np
filename=input["Enter File Name : "]
columnname=input["Enter Column Name : "]
df = pd.read_excel[filename][[columnname]]
print[df]

Mã này sẽ yêu cầu người dùng nhập tên tệp & cột. Sau đó, nó sẽ hiển thị dữ liệu của cột được nhập. Xin lưu ý rằng mã này sẽ không hoạt động cho tệp Excel có nhiều bảng.

Hình ảnh của Andrian Valeanu từ Pixabay

Một trong những điều hấp dẫn về lập trình là với một vài dòng mã, bạn có thể khiến máy tính của mình thực hiện một nhiệm vụ có thể mang lại cho bạn một mình. Một trong những nhiệm vụ trần tục đó là trích xuất thông tin từ một tờ Excel lớn. Ngôn ngữ lập trình Python rất mạnh mẽ, và một trong những lĩnh vực mà nó tỏa sáng là giúp chúng tôi tự động hóa các nhiệm vụ Excel tẻ nhạt và lặp đi lặp lại.

Trong bài đăng trên blog này, chúng tôi sẽ bắt đầu một quá trình từng bước để trích xuất một số thông tin có giá trị từ một tờ Excel. Tờ Excel chúng tôi sẽ sử dụng là tờ có chứa tất cả doanh số bán trái cây của một siêu thị trong một tháng. Mỗi hàng chứa hồ sơ riêng lẻ của trái cây được mua bởi khách hàng. Có ba cột trong tờ Excel. Cột A cung cấp chi phí cho mỗi pound của trái cây đã mua, cột B cho pound được bán và cột C cho chúng ta tổng chi phí mua. Tờ Excel có 23758 hàng và bốn cột. Bạn có thể tải xuống tờ Excel ở đây.

Mục tiêu của chúng tôi là tìm hiểu và ghi lại tổng số bảng đã bán tổng doanh số và toàn bộ trường hợp mua hàng cho mỗi trái cây trong tháng đó. Bạn có thể tưởng tượng sự thất vọng của việc phải trải qua 23758 hàng để trích xuất thông tin về mỗi loại trái cây, chúng tôi may mắn vì Python sẽ giúp chúng tôi hoàn thành nhiệm vụ này ngay lập tức. Các bước dưới đây sẽ đưa ra một lời giải thích chuyên sâu và thực tế về cách bạn có thể sử dụng Python để hoàn thành nhiệm vụ này.

Trước khi chúng tôi nhận được nhiệm vụ này, tôi muốn cho rằng bạn có kiến ​​thức cơ bản về việc viết mã bằng Python và bạn đã cài đặt Python trên máy tính của mình.

Cài đặt mô -đun OpenPyXL Modulethe Python, chúng tôi sẽ làm việc là mô -đun OpenPyXL. Mô -đun OpenPyXL là thư viện cho phép bạn sử dụng Python để đọc và ghi các tệp hoặc tệp Excel với phần mở rộng .xlsx/xlsm/xltx/xltm. Nếu bạn không cài đặt nó trên IDE của bạn, bạn có thể cài đặt nó bằng cách sử dụng
The python module we will be working with is the OpenPyXL Module. The OpenPyXL Module is a library that allows you to use Python to read and write excel files or files with the .xlsx/xlsm/xltx/xltm extension. If you don’t have it installed on your IDE, you can install it using

pip install openpyxl

Để kiểm tra xem bạn đã cài đặt thành công nó, hãy nhập nó bằng cách sử dụng

Import openpyxl

Cho đến nay không có lỗi nào được trả về, bạn đã cài đặt mô -đun OpenPyXL và sẵn sàng làm việc trên một số tài liệu Excel.

Đọc và mở tài liệu Excel với cổng tiếp theo của OpenPyxlthe là đọc trong tờ Excel vào môi trường Python của chúng tôi. Hãy chắc chắn rằng Excel bạn sẽ làm việc cùng trong thư mục làm việc hiện tại [CWD]. Bạn có thể truy cập CWD của mình bằng cách sử dụng:
The next port of call is to read in the excel sheet into our Python environment. Make sure the Excel you will be working with is in your current working directory[CWD]. You can access your CWD using:

import os 
os.getcwd[]
os.chdir[] #this changes our CWD, if the excel sheet is not in CWD

Điều gì sẽ xảy ra nếu bảng excel không có trong CWD của bạn? Bạn có thể sao chép tệp và dán nó vào CWD của bạn, để bạn truy cập nó từ đó. Khi chúng tôi chắc chắn rằng chúng tôi có tài liệu Excel của chúng tôi trong CWD của chúng tôi, giờ đây chúng tôi có thể đọc nó.
After reading in the Excel document, we can now access it to obtain various information about the excel sheet.

import pandas as pd 
file = ‘produceSales.xlsx’
data = pd.ExcelFile[file]
print[data.sheet_names] #this returns the all the sheets in the excel file
[‘Sheet1’]

Tiếp theo, chúng tôi phân tích bảng mà chúng tôi sẽ làm việc vào khung dữ liệu, điều này sẽ cho phép chúng tôi biết liệu bảng excel của chúng tôi có được đọc chính xác không.

df = data.parse[‘Sheet1’]
df.info
df.head[10]
Hình ảnh này cho thấy mười hàng đầu tiên của trang tính của chúng tôi.

Đọc trong bảng tính Datedit Bước tiếp theo là đọc dữ liệu từ bảng tính [Sheet1].
The next step is to read in data from the spreadsheet [Sheet1].

english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]
0

Tiếp theo, chúng tôi sử dụng một vòng lặp để lặp lại trên tất cả các hàng trong trang tính.

english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]
1

Tạo một từ điển trống có chứa tất cả các thông tin trên mỗi trái cây. Sau đó, chúng tôi sử dụng phương thức set.default [] để điền vào bộ phần tử đầu tiên vào từ điển. set.default [] Đối số đầu tiên kiểm tra xem khóa có tồn tại trong từ điển không, nếu nó không thay thế nó bằng đối số thứ hai. Bằng cách đó, chúng ta có thể bắt đầu điền từ điển của mình với đối số thứ hai của hàm set.default.

english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]
2

Cuối cùng, chúng tôi tập trung từ điển. Đối với mỗi sản phẩm mới được thấy trong một hàng mới, chúng tôi tăng số liệu bằng giá trị tương ứng của nó trong hàng mới.

english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]
3

Sau khi chạy khối mã này, chúng tôi đã điền từ điển TotalInfo với tất cả các số liệu khác nhau cho mỗi trái cây trong tháng. Từ điển dân cư trông như thế này:

english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]
4

Viết kết quả cho một filafter điền vào từ điển TotalInfo. Chúng ta có thể viết từ điển dân cư này vào bất kỳ tệp nào mà chúng ta lựa chọn có thể là một .csv, .txt, .py et al. Chúng tôi sẽ sử dụng mô -đun pprint.pformat để in đẹp các giá trị từ điển của chúng tôi và chúng tôi sử dụng chế độ ghi Python, để viết các giá trị từ điển vào tệp. Đoạn mã bên dưới đưa ra một minh họa:
After populating the TotalInfo dictionary. We can write this populated dictionary to any file of our choice be it a .csv, .txt, .py et al. We will be using the pprint.pformat module to pretty print our dictionary’s values and we use python’s write mode to write the dictionary’s values to the file. The code snippet below gives an illustration:

english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]
5

Tệp Total_info.txt sẽ được tìm thấy trong CWD của bạn. Bạn luôn có thể thay đổi định dạng tệp bằng cách thay đổi tiện ích mở rộng .TXT thành bất kỳ định dạng tệp nào bạn muốn. Đoạn mã bên dưới cho thấy cách bạn có thể thay đổi thành định dạng tệp .csv.
You can always change the file format by changing the .txt extension to whatever file format you want.
The code snippet below shows how you can change to a .csv file format.

english_with_IDS = zip[ids, english]
spanish_with_IDS = zip[ids, spanish]
french_with_IDS = zip[ids, french]
6

Kết luận Bài đăng trên blog này, chúng tôi đã chứng minh làm thế nào chúng tôi có thể sử dụng Python để trích xuất thông tin từ một tờ Excel. Biết cách lấy thông tin từ một tờ Excel luôn là một bổ sung đáng hoan nghênh cho hộp công cụ của bạn vì nó giúp bạn tiết kiệm rất nhiều thời gian để thực hiện các tác vụ lặp đi lặp lại. Hãy sửa đổi mã trong bài viết cho phù hợp với nhu cầu của bạn; Bạn có thể truy cập sổ ghi chép có chứa mã từ đầu đến cuối đã được sử dụng trong bài đăng trên blog này ở đây.
In this blog post, we demonstrated how we could use Python to extract information from an excel sheet. Knowing how to obtain information from an excel sheet is always a welcome addition to your toolbox as it saves you a lot of time from carrying out repetitive tasks. Feel free to modify the code in the article to suit your needs; you can access the notebook that contains the end to end code that was used in this blog post here.

Happy Pythoning.

Bài Viết Liên Quan

Chủ Đề