Gấu trúc sửa đổi tệp excel

Dữ liệu chúng tôi sử dụng trong Pandas cho các dự án trong thế giới thực thường đến từ các nguồn bên ngoài. Một nguồn phổ biến và được sử dụng nhiều lần là Excel. Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách đọc tệp từ Excel, cách sửa đổi các tệp này và cách ghi chúng vào Excel. Chúng tôi sẽ sử dụng một số hàm Pandas cho các phương pháp này

Khi xem qua bài viết này, bạn có thể phát video bài viết để được hướng dẫn thêm

Cách đọc và ghi tệp Excel bằng Pandas

Gấu trúc sửa đổi tệp excel

Xem video này trên YouTube

Đọc các trang tính Excel vào khung dữ liệu Pandas

Để đọc dữ liệu vào khung dữ liệu Pandas từ trang tính Excel, chúng tôi sử dụng chức năng Pandas

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
1. Chức năng này cung cấp cho chúng tôi một loạt các tham số để đọc dữ liệu của chúng tôi theo nhiều cách khác nhau. Để có cái nhìn tổng quan về tất cả các thông số khác nhau, hãy xem

Hãy bắt đầu với một ví dụ đơn giản. Dữ liệu Excel chúng tôi đang sử dụng trông như thế này

Gấu trúc sửa đổi tệp excel

Bộ dữ liệu chứa những người hư cấu với tên, giới tính, công việc và tuổi tương ứng của họ. Như chúng ta có thể thấy, không có chỉ mục bổ sung nào, chỉ có những chỉ mục mà Excel cung cấp cho chúng ta (số hàng ở bên trái). Bây giờ chúng tôi chuyển sang trình chỉnh sửa mã của mình để đọc trong tập dữ liệu ở đó

import pandas as pd

df = pd.read_excel("excel_file.xlsx")

Khung dữ liệu trông như thế này

têngiới tínhcông việc0Alicefmanager311Johnmkỹ sư phần mềm282Bobmnông dân433Tracyfbác sĩ40

Trước hết, chúng tôi nhập thư viện Pandas. Sau đó, chúng tôi tạo một khung dữ liệu bằng hàm

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
1 và gán nó cho biến “
df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
3”. Bên trong hàm ta đặt tên file Excel dưới dạng chuỗi. Cuối cùng, chúng tôi xuất khung dữ liệu. Lưu ý rằng để làm cho nó hoạt động như thế này, tập lệnh Pandas và tệp Excel phải nằm trong cùng một thư mục. Nếu không phải như vậy, chúng ta phải đặt đường dẫn tệp nơi tệp Excel được lưu trữ

Như đã đề cập trước đó, chúng ta có rất nhiều tham số có thể sử dụng bên trong hàm

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
1. Một trong số đó là tham số “
df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
5” cho phép chúng ta chỉ định kiểu dữ liệu của một cột khi nó được nhập vào. Ví dụ: chúng ta có thể chỉ định kiểu dữ liệu của cột “
df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
6” là “
df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
7”. Chúng tôi làm theo cách này

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})

Điều này dẫn đến kết quả như sau

têngiới tínhcông việc0Alicefmanager31. 01Kỹ sư phần mềm Johnm28. 02Bobmfarmer43. 03Tracyfdoctor40. 0

Chúng tôi chỉ định tham số “dtype” một từ điển của tất cả các kiểu dữ liệu cột, chúng tôi muốn chỉ định. Chúng tôi chuyển tên cột làm khóa và loại dữ liệu mong muốn làm giá trị của từ điển. Như chúng ta có thể thấy ở đầu ra, kiểu dữ liệu thực sự đã thay đổi thành float vì tất cả các giá trị “tuổi” giờ đây đều có “. 0” ở cuối. Để chắc chắn 100% rằng kiểu dữ liệu là “float” thì chúng ta có thể kiểm tra theo cách này

>>> df["age"].dtype
dtype('float64')

Kiểu dữ liệu của cột “

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
6” là “_______09”

Tệp Excel chứa hai bảng, đó là “Bảng 1” và “Bảng 2”

Gấu trúc sửa đổi tệp excel

Theo mặc định, hàm

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
1 chọn bảng đầu tiên chứa tập dữ liệu mà chúng ta đã thấy ở trên. Sử dụng tham số “
>>> df["age"].dtype
dtype('float64')
1”, chúng ta có thể chỉ định bảng nào chúng ta muốn chọn. Vì vậy, bây giờ, hãy tạo khung dữ liệu thứ hai với tập dữ liệu từ “Bảng 2”. Đây là giao diện của tập dữ liệu trong tệp Excel

Gấu trúc sửa đổi tệp excel

Bây giờ chúng tôi đọc trong một khung dữ liệu khác áp dụng tham số “

>>> df["age"].dtype
dtype('float64')
1”

import pandas as pd

df = pd.read_excel("excel_file.xlsx")
5Chưa đặt tên. 0động vậtmón ănmôi trường sống01chóthức ăn cho chóđất12rùa biểnrong biểnbiển23cá heobiển34đại bàngchuộtbầu trời

Chúng tôi gán tên của bảng mà chúng tôi muốn truy cập dưới dạng chuỗi cho tham số “

>>> df["age"].dtype
dtype('float64')
1”. Nhưng cột thứ hai đó là gì? . 0”. Lưu ý rằng cột đầu tiên của tập dữ liệu này trong tệp Excel có các chỉ mục riêng, không giống như tập dữ liệu đầu tiên không có chỉ mục riêng. Chúng tôi có thể khắc phục điều này bằng cách sử dụng tham số “
>>> df["age"].dtype
dtype('float64')
4”. Ở đây chúng tôi chỉ định cột sẽ sử dụng cho nhãn hàng. Chúng tôi chỉ định tham số này khi tập dữ liệu của chúng tôi có các chỉ mục riêng

import pandas as pd

df = pd.read_excel("excel_file.xlsx")
8động vậtmón ănmôi trường sống1chóthức ăn cho chóđất2rùa biểnrong biểnbiển3cá heobiển4đại bàngchuột bầu trời

Chúng tôi áp dụng “0” cho tham số “index_col” để cho chương trình biết rằng chúng tôi muốn sử dụng hàng đầu tiên của tập dữ liệu làm chỉ mục cho khung dữ liệu

Sửa đổi các tệp đã nhập bằng Pandas

Sau khi chúng tôi nhập các trang tính Excel và tạo các khung dữ liệu mới từ chúng, chúng tôi có thể phân tích và sửa đổi các khung dữ liệu của mình bằng Pandas. Bước này không cần thiết cho hướng dẫn này. Tuy nhiên, chúng tôi sẽ thực hiện bước này chỉ để giúp bạn hiểu về toàn bộ quy trình đọc trong trang tính Excel, sửa đổi dữ liệu và ghi dữ liệu đã sửa đổi trở lại trang tính Excel

Có vô số cơ hội để biểu diễn ở đây, nhưng chúng tôi sẽ giữ nó đơn giản và chỉ thay đổi một điều. Hãy lấy khung dữ liệu chúng tôi đã sử dụng ở nơi đầu tiên

Đây là cách DataFrame cơ bản của chúng tôi, được đặt tên là

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
3, trông

têngiới tínhcông việc0Alicefmanager31. 01Kỹ sư phần mềm Johnm28. 02Bobmfarmer43. 03Tracyfdoctor40. 0

Bây giờ, chúng tôi sửa đổi khung dữ liệu và xóa cột “giới tính”

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
0têncông việc0Alicemanager31. 01Johnkỹ sư phần mềm28. 02Bobfarmer43. 03Tracydoctor40. 0

Chúng tôi đã loại bỏ cột “

>>> df["age"].dtype
dtype('float64')
6” bằng cách áp dụng hàm
>>> df["age"].dtype
dtype('float64')
7. Bên trong hàm, chúng tôi đã chỉ định cột “_______96” làm danh sách cho tham số “
>>> df["age"].dtype
dtype('float64')
9” để cho biết chúng tôi muốn loại bỏ cột nào. Khung dữ liệu xuất ra hiển thị khung dữ liệu ban đầu không có cột “
>>> df["age"].dtype
dtype('float64')
6”

Bây giờ chúng tôi đã thay đổi khung dữ liệu một chút. Trong bước tiếp theo, chúng ta sẽ xem cách ghi khung dữ liệu mới này vào một trang tính Excel

Viết các đối tượng vào một trang tính Excel

Khi chúng tôi hoàn thành phân tích dữ liệu của mình trong Pandas và sửa đổi các khung dữ liệu của mình, chúng tôi ghi các khung dữ liệu này vào một trang tính Excel để làm cho chúng khả dụng và hiển thị tốt hơn. Đây là lúc hàm to_excel() phát huy tác dụng. Để biết tổng quan về tất cả các tham số, hãy xem. Cách tiếp cận rất đơn giản

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
6

Chúng tôi chọn khung dữ liệu mà chúng tôi muốn xuất sang trang tính Excel. Chúng tôi đang sử dụng “

import pandas as pd

df = pd.read_excel("excel_file.xlsx")
51” mà chúng tôi đã tạo trong đoạn trước. Bên trong hàm
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
52, chúng ta đặt tên tệp (“
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
53”) và phần mở rộng tệp (“
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
54”) dưới dạng chuỗi. Lưu ý rằng chúng tôi không nhận được đầu ra ở đây. Thay vào đó, một tệp mới được tạo và nó được lưu trữ trong cùng thư mục với tập lệnh Pandas. Đây là những gì các tập tin trông giống như

Gấu trúc sửa đổi tệp excel

Như chúng ta có thể thấy, có hai loại chỉ mục khác nhau ở đây. Các chỉ mục trong cột “A” và các chỉ mục Excel ở bên trái cột “A”. Các chỉ mục bổ sung trong cột “A” là dư thừa và chúng tôi muốn loại bỏ chúng, vì vậy chúng tôi sửa đổi hàm

import pandas as pd

df = pd.read_excel("excel_file.xlsx")
52 một chút bằng cách sử dụng tham số “chỉ mục”

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
2

Chúng tôi đã gán giá trị “

import pandas as pd

df = pd.read_excel("excel_file.xlsx")
56” cho tham số “
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
57” để nói rằng chúng tôi không muốn sử dụng các chỉ mục của Pandas. Tệp Excel bây giờ trông như thế này

Gấu trúc sửa đổi tệp excel

Ngoài ra, chúng ta có thể chỉ định tên trang tính bằng cách áp dụng tham số “

>>> df["age"].dtype
dtype('float64')
1”

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
6

Chúng tôi gọi tờ "Bảng 1". Ở dưới cùng của tệp, chúng ta có thể thấy tên trang tính mới

Gấu trúc sửa đổi tệp excel

Viết nhiều đối tượng vào tệp Excel

Chúng ta đã thấy cách ghi khung dữ liệu vào tệp Excel bằng hàm

import pandas as pd

df = pd.read_excel("excel_file.xlsx")
52. Sử dụng phương pháp này cho phép chúng tôi chỉ ghi một đối tượng, nhưng chúng tôi có thể muốn ghi nhiều đối tượng vào Excel. Do đó, chúng tôi sử dụng một đối tượng
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
80.
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
80 là một lớp để ghi khung dữ liệu vào trang tính Excel. Nó cần thiết để ghi nhiều khung dữ liệu vào trang tính Excel và sửa đổi trang tính Excel hiện có (). Hãy bắt đầu với một ví dụ về hai khung dữ liệu được ghi vào một trang tính Excel mới. Chúng tôi đang sử dụng các khung dữ liệu “______182” và “
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
51” từ phía trên

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
2

Câu lệnh

import pandas as pd

df = pd.read_excel("excel_file.xlsx")
84 là một câu lệnh Python được sử dụng để xử lý ngoại lệ và làm cho mã của chúng ta dễ đọc hơn. Đoạn mã ở đây cho biết, trong dòng đầu tiên, chúng ta tạo một tệp Excel mới (“
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
85”) bằng cách sử dụng ExcelWriter và gán nó cho một biến có tên “
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
86”. Ở hai dòng được chèn sau đó, chúng ta ghi hai khung dữ liệu vào file Excel mới tạo bằng hàm
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
52 mà chúng ta đã biết. Bên trong hàm
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
52, chúng ta lần lượt đặt biến “
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
86” làm đường dẫn. Chúng tôi cũng sử dụng tham số “
>>> df["age"].dtype
dtype('float64')
1” và tên tương ứng của trang tính và đặt tham số “
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
57” thành “
import pandas as pd

df = pd.read_excel("excel_file.xlsx")
56” để loại bỏ các chỉ mục bổ sung. Đây là giao diện của trang tính đầu tiên trong tệp mới trong Excel

Gấu trúc sửa đổi tệp excel

Và đây là tấm thứ hai

Gấu trúc sửa đổi tệp excel

ExcelWriter cũng cho phép chúng tôi nối thêm vào tệp Excel hiện có. Chúng ta sẽ xem cách thực hiện việc này bằng cách nối thêm khung dữ liệu “

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
3” mà chúng ta đã sử dụng ngay từ đầu vào tệp hiện có “_______204” trong một trang tính mới “Bảng 3”

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
0

Chỉ có một sự khác biệt thực sự đối với mã so với ví dụ trước. Chúng ta chỉ thêm tham số “________ 205” bên trong ________ 180 và gán cho nó chuỗi ________ 207 viết tắt của “append”. Vì vậy, ở đây, chúng tôi đang thêm khung dữ liệu “

df = pd.read_excel("excel_file.xlsx", dtype={"age": float})
3” vào tệp Excel hiện có và lưu trữ nó trong một trang tính mới có tên là “Bảng 3”. Đây là khung dữ liệu trong trang 3 trông như thế nào

Gấu trúc sửa đổi tệp excel

Và như bạn có thể thấy, chúng tôi thực sự có ba trang tính trong tệp này

Gấu trúc sửa đổi tệp excel

Tóm lược

Tóm lại, có thể nói thao tác thuần thục với các file Excel là điều rất cần thiết khi sử dụng Pandas. Các bộ dữ liệu chúng tôi muốn phân tích thường đến từ các trang tính Excel và khi chúng tôi phân tích xong, các bộ dữ liệu đã sửa đổi thường phải được ghi lại vào các trang tính Excel để làm cho dữ liệu dễ truy cập hơn. Việc sử dụng các hàm Excel được hiển thị mà Pandas cung cấp cho chúng tôi làm cho các quy trình này trở nên khá đơn giản đối với chúng tôi và chúng giúp chúng tôi cung cấp quy trình làm việc tốt và rõ ràng khi làm việc với các tệp Excel

Để biết thêm hướng dẫn về Pandas, thư viện Python, Python nói chung hoặc các chủ đề liên quan đến khoa học máy tính khác, hãy xem trang Blog Finxter và xem học viện email Finxter miễn phí

mã hóa hạnh phúc

Gấu trúc sửa đổi tệp excel

Luis Bruemmer

Xin chào. Tôi là Luis, sinh viên Hệ thống thông tin, nhà văn và lập trình viên tự do đến từ Đức. Tôi thích viết mã và tạo nội dung giáo dục về khoa học máy tính. Đối với các bài báo tôi đang viết, tôi kết hợp kiến ​​thức tôi có được ở trường đại học với những hiểu biết tôi có được từ việc không ngừng đọc và tìm hiểu về các công nghệ mới. Làm cho giáo dục trở nên dễ tiếp cận hơn cho mọi người là niềm đam mê của tôi và tôi hy vọng bạn thích nội dung tôi đang tạo