Có liên quan
Các tài nguyên hàng đầu năm 2022 để nâng cao kỹ năng dữ liệu của bạn
Nhận quyền truy cập vào các tài nguyên hoạt động hiệu quả nhất của chúng tôi từ năm 2022, bao gồm hội thảo trên web, bài đăng trên blog, sách trắng, bảng gian lận, hướng dẫn và bài viết, tất cả đều được thiết kế để giúp bạn nâng cao kỹ năng dữ liệu và mở rộng quy mô văn hóa dữ liệu của tổ chức bạn. Bắt đầu học hỏi và phát triển kiến thức chuyên môn về dữ liệu của bạn ngay hôm nayDữ liệu văn bản trong Python Cheat Sheet
Chào mừng bạn đến với bảng gian lận của chúng tôi để làm việc với dữ liệu văn bản trong Python. Chúng tôi đã biên soạn một danh sách các hàm và gói hữu ích nhất để dọn dẹp, xử lý và phân tích dữ liệu văn bản trong Python, cùng với các ví dụ và giải thích rõ ràng, vì vậy bạn sẽ có mọi thứ cần biết về cách làm việc với dữ liệu văn bản trong Python.Hướng dẫn về tập hợp và lý thuyết tập hợp trong Python
Tìm hiểu về bộ Python. chúng là gì, cách tạo chúng, khi nào sử dụng chúng, các chức năng tích hợp và mối quan hệ của chúng với các hoạt động lý thuyết thiết lậpHướng dẫn về gấu trúc. Khung dữ liệu trong Python
Khám phá phân tích dữ liệu với Python. Pandas DataFrames giúp thao tác dữ liệu của bạn dễ dàng, từ việc chọn hoặc thay thế các cột và chỉ mục để định hình lại dữ liệu của bạnXem ThêmXem ThêmChuyển đến nội dung chínhCó liên quan
Các tài nguyên hàng đầu năm 2022 để nâng cao kỹ năng dữ liệu của bạn
Nhận quyền truy cập vào các tài nguyên hoạt động hiệu quả nhất của chúng tôi từ năm 2022, bao gồm hội thảo trên web, bài đăng trên blog, sách trắng, bảng gian lận, hướng dẫn và bài viết, tất cả đều được thiết kế để giúp bạn nâng cao kỹ năng dữ liệu và mở rộng quy mô văn hóa dữ liệu của tổ chức bạn. Bắt đầu học hỏi và phát triển kiến thức chuyên môn về dữ liệu của bạn ngay hôm nayDữ liệu văn bản trong Python Cheat Sheet
Chào mừng bạn đến với bảng gian lận của chúng tôi để làm việc với dữ liệu văn bản trong Python. Chúng tôi đã biên soạn một danh sách các hàm và gói hữu ích nhất để dọn dẹp, xử lý và phân tích dữ liệu văn bản trong Python, cùng với các ví dụ và giải thích rõ ràng, vì vậy bạn sẽ có mọi thứ cần biết về cách làm việc với dữ liệu văn bản trong Python.Hướng dẫn về tập hợp và lý thuyết tập hợp trong Python
Tìm hiểu về bộ Python. chúng là gì, cách tạo chúng, khi nào sử dụng chúng, các chức năng tích hợp và mối quan hệ của chúng với các hoạt động lý thuyết thiết lậpHướng dẫn về gấu trúc. Khung dữ liệu trong Python
Khám phá phân tích dữ liệu với Python. Pandas DataFrames giúp thao tác dữ liệu của bạn dễ dàng, từ việc chọn hoặc thay thế các cột và chỉ mục để định hình lại dữ liệu của bạnXem ThêmXem ThêmNếu bạn thích làm việc với dữ liệu trong Python, thì gần như chắc chắn bạn sẽ sử dụng thư viện pandas. Nhưng ngay cả khi bạn đã học về gấu trúc — có lẽ trong khóa học về gấu trúc tương tác của chúng tôi — bạn vẫn dễ quên cú pháp cụ thể để thực hiện một thao tác nào đó. Đó là lý do tại sao chúng tôi đã tạo một bảng cheat pandas để giúp bạn dễ dàng tham khảo các nhiệm vụ pandas phổ biến nhất
Trước khi chúng tôi đi sâu vào bảng gian lận, điều đáng nói là bạn không nên chỉ dựa vào điều này. Nếu bạn chưa học bất kỳ chú gấu trúc nào, chúng tôi thực sự khuyên bạn nên học qua khóa học về gấu trúc của chúng tôi. Bảng cheat này sẽ giúp bạn nhanh chóng tìm và nhớ lại những điều bạn đã học về gấu trúc;
Thỉnh thoảng, bạn cũng nên kiểm tra tài liệu chính thức về gấu trúc, ngay cả khi bạn có thể tìm thấy thứ mình cần trong bảng gian lận. Đọc tài liệu là một kỹ năng mà mọi chuyên gia dữ liệu đều cần và tài liệu đi vào chi tiết hơn rất nhiều so với mức chúng ta có thể gói gọn trong một trang tính.
Nếu bạn đang muốn sử dụng gấu trúc cho một tác vụ cụ thể, chúng tôi cũng khuyên bạn nên xem danh sách đầy đủ các hướng dẫn Python miễn phí của chúng tôi; . Ví dụ: trong hướng dẫn về ngày giờ Python của chúng tôi, bạn cũng sẽ học cách làm việc với ngày và giờ trong pandas
Bảng cheat Pandas. Hướng dẫn
Trước tiên, bạn nên đánh dấu trang này, trang này sẽ dễ dàng tìm kiếm bằng Ctrl+F khi bạn đang tìm kiếm nội dung nào đó cụ thể. Tuy nhiên, chúng tôi cũng đã tạo phiên bản PDF của bảng gian lận này mà bạn có thể tải xuống từ đây trong trường hợp bạn muốn in nó ra
Trong cheat sheet này, chúng ta sẽ sử dụng tốc ký sau
df
. Bất kỳ đối tượng DataFrame gấu trúc nào s
. Bất kỳ đối tượng sê-ri gấu trúc nào
Khi cuộn xuống, bạn sẽ thấy chúng tôi đã sắp xếp các lệnh liên quan bằng cách sử dụng các tiêu đề phụ để bạn có thể nhanh chóng tìm kiếm và tìm đúng cú pháp dựa trên tác vụ mà bạn đang cố hoàn thành
Ngoài ra, một lời nhắc nhanh — để sử dụng các lệnh được liệt kê bên dưới, trước tiên bạn cần nhập các thư viện có liên quan như sau
import pandas as pd
import numpy as np
Nhập dữ liệu
Sử dụng các lệnh này để nhập dữ liệu từ nhiều nguồn và định dạng khác nhau
pd.read_csv[filename]
. Từ tệp CSV pd.read_table[filename]
. Từ một tệp văn bản được phân tách [như TSV] pd.read_excel[filename]
. Từ tệp Excel pd.read_sql[query, connection_object]
. Đọc từ bảng/cơ sở dữ liệu SQL pd.read_json[json_string]
. Đọc từ một chuỗi, URL hoặc tệp được định dạng JSON. ________số 8. Phân tích một URL, chuỗi hoặc tệp html và trích xuất các bảng thành danh sách các khung dữ liệu pd.read_clipboard[]
. Lấy nội dung trong khay nhớ tạm của bạn và chuyển nó tới read_table[] df
0. Từ lệnh, khóa cho tên cột, giá trị cho dữ liệu dưới dạng danh sách ## Xuất dữ liệu
Sử dụng các lệnh này để xuất DataFrame sang CSV,. xlsx, SQL hoặc JSON
df
1. Ghi vào tệp CSV df
2. Ghi vào tệp Excel df
3. Ghi vào bảng SQL df
4. Ghi vào tệp ở định dạng JSON ## Tạo đối tượng thử nghiệm
Các lệnh này có thể hữu ích để tạo phân đoạn thử nghiệm
df
5. 5 cột và 20 hàng số float ngẫu nhiên df
6. Tạo một chuỗi từ một my_list có thể lặp lại df
7. Thêm chỉ mục ngày ## Xem/Kiểm tra Dữ liệu
Sử dụng các lệnh này để xem các phần cụ thể trong DataFrame hoặc Sê-ri gấu trúc của bạn
df
8. N hàng đầu tiên của DataFrame df
9. N hàng cuối cùng của DataFrame s
0. Số hàng và số cột s
1. Thông tin chỉ mục, kiểu dữ liệu và bộ nhớ s
2. Thống kê tóm tắt cho các cột số s
3. Xem các giá trị và số lượng duy nhất s
4. Giá trị và số lượng duy nhất cho tất cả các cột ## Lựa chọn
Sử dụng các lệnh này để chọn một tập hợp con cụ thể của dữ liệu của bạn
s
5. Trả về cột có nhãn col là Sê-ri s
6. Trả về các cột dưới dạng DataFrame mới s
7. Lựa chọn theo vị trí s
8. Lựa chọn theo chỉ số s
9. Hàng đầu tiên pd.read_csv[filename]
0. Phần tử đầu tiên của cột đầu tiên ## Làm sạch dữ liệu
Sử dụng các lệnh này để thực hiện nhiều tác vụ làm sạch dữ liệu
pd.read_csv[filename]
1. Đổi tên cột pd.read_csv[filename]
2. Kiểm tra giá trị null, trả về mảng Boolean _______ 33. Đối diện với pd. isnull[] pd.read_csv[filename]
4. Bỏ tất cả các hàng chứa giá trị null pd.read_csv[filename]
5. Bỏ tất cả các cột có chứa giá trị null pd.read_csv[filename]
6. Bỏ tất cả các hàng có ít hơn n giá trị khác null pd.read_csv[filename]
7. Thay thế tất cả các giá trị null bằng x pd.read_csv[filename]
8. Thay thế tất cả các giá trị null bằng giá trị trung bình [có thể thay thế giá trị trung bình bằng hầu hết mọi chức năng từ mô-đun thống kê] pd.read_csv[filename]
9. Chuyển đổi kiểu dữ liệu của chuỗi thành float pd.read_table[filename]
0. Thay thế tất cả các giá trị bằng 1 bằng \’one\’ pd.read_table[filename]
1. Thay thế tất cả 1 bằng \’one\’ và 3 bằng \’ba\’ pd.read_table[filename]
2. Đổi tên hàng loạt cột pd.read_table[filename]
3. Đổi tên có chọn lọc pd.read_table[filename]
4. Thay đổi chỉ mục pd.read_table[filename]
5. Đổi tên hàng loạt chỉ mục ## Lọc, Sắp xếp và Nhóm theo
Sử dụng các lệnh này để lọc, sắp xếp và nhóm dữ liệu của bạn
pd.read_table[filename]
6. Các hàng có cột pd.read_table[filename]
7 lớn hơn pd.read_table[filename]
8pd.read_table[filename]
9. Hàng nơi pd.read_excel[filename]
0pd.read_excel[filename]
1. Sắp xếp các giá trị theo col1 theo thứ tự tăng dần pd.read_excel[filename]
2. Sắp xếp các giá trị theo pd.read_excel[filename]
3 theo thứ tự giảm dần pd.read_excel[filename]
4. Sắp xếp các giá trị theo thứ tự tăng dần của pd.read_excel[filename]
5 rồi sau đó pd.read_excel[filename]
3 theo thứ tự giảm dần pd.read_excel[filename]
7. Trả về một đối tượng theo nhóm cho các giá trị từ một cột pd.read_excel[filename]
8. Trả về đối tượng theo nhóm cho các giá trị từ nhiều cột pd.read_excel[filename]
9. Trả về giá trị trung bình của các giá trị trong pd.read_excel[filename]
3, được nhóm theo các giá trị trong pd.read_excel[filename]
5 [có thể thay thế giá trị trung bình bằng hầu hết mọi hàm từ mô-đun thống kê] pd.read_sql[query, connection_object]
2. Tạo bảng tổng hợp nhóm theo pd.read_excel[filename]
5 và tính giá trị trung bình của pd.read_excel[filename]
3 và pd.read_sql[query, connection_object]
5pd.read_sql[query, connection_object]
6. Tìm giá trị trung bình trên tất cả các cột cho mỗi nhóm col1 duy nhất pd.read_sql[query, connection_object]
7. Áp dụng hàm pd.read_sql[query, connection_object]
8 trên mỗi cột pd.read_sql[query, connection_object]
9. Áp dụng hàm pd.read_json[json_string]
0 trên mỗi hàng ## Tham gia/Kết hợp
Sử dụng các lệnh này để kết hợp nhiều khung dữ liệu thành một khung duy nhất
pd.read_json[json_string]
1. Thêm các hàng trong ________ 72 vào cuối pd.read_json[json_string]
3 [các cột phải giống hệt nhau] ________ 74. Thêm các cột trong ________ 72 vào cuối ________ 73 [các hàng phải giống hệt nhau] pd.read_json[json_string]
7. Kiểu SQL nối các cột trong pd.read_json[json_string]
2 với các cột trên pd.read_json[json_string]
3 trong đó các hàng của pd.read_table[filename]
7 có các giá trị giống hệt nhau. pd.read_html[url]
1 có thể là một trong số ________ 82, ________ 83, ________ 84, ________ 85## Thống kê
Sử dụng các lệnh này để thực hiện các bài kiểm tra thống kê khác nhau. [Tất cả những điều này cũng có thể được áp dụng cho một bộ. ]
s
2. Thống kê tóm tắt cho các cột số pd.read_html[url]
7. Trả về giá trị trung bình của tất cả các cột pd.read_html[url]
8. Trả về mối tương quan giữa các cột trong DataFrame pd.read_html[url]
9. Trả về số lượng giá trị khác null trong mỗi cột DataFrame pd.read_clipboard[]
0. Trả về giá trị cao nhất trong mỗi cột pd.read_clipboard[]
1. Trả về giá trị thấp nhất trong mỗi cột pd.read_clipboard[]
2. Trả về trung vị của mỗi cột pd.read_clipboard[]
3. Trả về độ lệch chuẩn của mỗi cột ## Tải xuống phiên bản có thể in được của bảng gian lận này
Nếu bạn muốn tải xuống phiên bản có thể in được của bảng gian lận này, bạn có thể làm như vậy tại đây
Tài nguyên khác
Nếu bạn muốn tìm hiểu thêm về chủ đề này, hãy xem khóa học tương tác về Pandas và NumPy cơ bản của Dataquest và các đường dẫn Nhà phân tích dữ liệu bằng Python và Nhà khoa học dữ liệu trong Python của chúng tôi sẽ giúp bạn sẵn sàng cho công việc trong khoảng 6 tháng
Nâng cao kỹ năng dữ liệu của bạn
Xem kế hoạch
Tìm hiểu tài nguyên Python Pandas
Giới thiệu về tác giả
Celeste Grupman
Celeste là Giám đốc Điều hành tại Dataquest. Cô đam mê tạo ra khả năng tiếp cận đào tạo kỹ năng chất lượng cao với chi phí hợp lý cho sinh viên trên toàn cầu