Thư viện pandas python là gì? . Hãy cùng Lập trình không khó đi tìm câu trả lời cho các câu hỏi trên trong bài viết hôm nay. Tôi tin rằng đây là một bài viết cực kỳ hữu ích. Nó chắc chắn sẽ trả lại cho bạn nhiều kiến thức bổ sung và làm chủ theo cách sử dụng thư viện này
Toàn bộ source code direction của bài học các bạn có thể xem và tải về tại đây
Thư viện pandas là gì?
Thư viện pandas trong python là thư viện mã nguồn mở, hỗ trợ đắc lực trong thao tác dữ liệu. Đây cũng là bộ công cụ phân tích và xử lý dữ liệu mạnh mẽ của ngôn ngữ lập trình python. Thư viện này được sử dụng rộng rãi trong nghiên cứu nghiên cứu phát triển các ứng dụng về khoa học dữ liệu. Thư viện này sử dụng cấu trúc dữ liệu riêng là Dataframe. Pandas cung cấp rất nhiều chức năng xử lý và xử lý trên cấu trúc dữ liệu này. Chính sự linh hoạt và hiệu quả đã khiến pandas được sử dụng rộng rãi
Tại sao thư viện pandas được sử dụng?
- DataFrame trả lại sự hoạt động và hiệu quả trong thao tác dữ liệu và thiết lập chỉ mục;
- Là một công cụ cho phép đọc/ghi dữ liệu giữa bộ nhớ và nhiều định dạng tệp. cơ sở dữ liệu csv, văn bản, excel, sql, hdf5;
- Liên kết dữ liệu thông minh, xử lý trường hợp dữ liệu bị thiếu. Tự động đưa dữ liệu lộn ngược về dạng có cấu trúc;
- Dễ dàng thay đổi cấu trúc dữ liệu cục bộ;
- Tích hợp cơ chế trượt, lập chỉ mục, lấy tệp con từ tệp dữ liệu lớn
- Có thể thêm, xóa các cột dữ liệu;
- Hợp nhất hoặc thay đổi dữ liệu với nhóm bằng cách cho phép bạn thực hiện các toán tử trên tệp dữ liệu;
- Hiệu quả cao trong quá trình hợp nhất và kết hợp các tập dữ liệu;
- Lập chỉ mục theo chiều dữ liệu giúp thao tác giữa dữ liệu chiều cao và chiều dữ liệu thấp;
- Tối ưu hóa hiệu năng;
- Pandas được sử dụng rộng rãi trong cả học thuật và thương mại. Bao gồm thống kê, thương mại, phân tích, quảng cáo,…
Cài đặt Pandas
Để cài đặt thư viện Pandas, bạn có thể làm theo một số cách khác nhau theo hướng dẫn tài liệu
- Sử dụng pip.
8peoples_df[['name', 'age']].head[5]
- Use conda.
9peoples_df[['name', 'age']].head[5]
Bây giờ chúng ta sẽ bắt đầu học cách sử dụng thư viện pandas python. Nhưng trước khi bắt đầu, hãy nhập thư viện pandas nhé. Chúng ta sẽ sử dụng cả thư viện matplotlib nữa
Nếu bạn chưa biết về thư viện matplotlib, hãy đọc trước nhé
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
Đọc tệp csv sử dụng thư viện pandas
Bạn có thể dễ dàng đọc vào một tập tin. csv bằng cách sử dụng hàm
peoples_df[0:5]
0 và được trả về 1 khung dữ liệu. Mặc định, hàm này sẽ phân biệt các trường của tệp csv theo dấu phẩy. Cách đọc hết các đơn giản như saupeoples_df = pd.read_csv['./people.csv']
Bạn có thể ra bản ghi đầu tiên của khung dữ liệu sử dụng hàm
peoples_df[0:5]
1. Reverse of peoples_df[0:5]
1 function is peoples_df[0:5]
3 function________số 8The results in ra as after.
Nguyễn Văn Hiếu @nguyenvanhieu
Theo dõi
340 17 4
Đã đăng vào ngày 10 tháng 2 năm 2018 6. 15 SA 13 phút đọc
14. 3k
4
11
Hướng dẫn về Pandas Python- Report
- Add to series of me
Bài đăng này đã không được cập nhật trong 3 năm
Thư viện pandas python là gì? . Hãy cùng Lập trình không khó đi tìm câu trả lời cho các câu hỏi trên trong bài viết hôm nay. Tôi tin rằng đây là một bài viết cực kỳ hữu ích. Nó chắc chắn sẽ trả lại cho bạn nhiều kiến thức bổ sung và làm chủ theo cách sử dụng thư viện này
Toàn bộ source code direction của bài học các bạn có thể xem và tải về tại đây
Thư viện pandas là gì?
Thư viện pandas trong python là thư viện mã nguồn mở, hỗ trợ đắc lực trong thao tác dữ liệu. Đây cũng là bộ công cụ phân tích và xử lý dữ liệu mạnh mẽ của ngôn ngữ lập trình python. Thư viện này được sử dụng rộng rãi trong nghiên cứu nghiên cứu phát triển các ứng dụng về khoa học dữ liệu. Thư viện này sử dụng cấu trúc dữ liệu riêng là Dataframe. Pandas cung cấp rất nhiều chức năng xử lý và xử lý trên cấu trúc dữ liệu này. Chính sự linh hoạt và hiệu quả đã khiến pandas được sử dụng rộng rãi
Tại sao thư viện pandas được sử dụng?
- DataFrame trả lại sự hoạt động và hiệu quả trong thao tác dữ liệu và thiết lập chỉ mục;
- Là một công cụ cho phép đọc/ghi dữ liệu giữa bộ nhớ và nhiều định dạng tệp. cơ sở dữ liệu csv, văn bản, excel, sql, hdf5;
- Liên kết dữ liệu thông minh, xử lý trường hợp dữ liệu bị thiếu. Tự động đưa dữ liệu lộn ngược về dạng có cấu trúc;
- Dễ dàng thay đổi cấu trúc dữ liệu cục bộ;
- Tích hợp cơ chế trượt, lập chỉ mục, lấy tệp con từ tệp dữ liệu lớn
- Có thể thêm, xóa các cột dữ liệu;
- Hợp nhất hoặc thay đổi dữ liệu với nhóm bằng cách cho phép bạn thực hiện các toán tử trên tệp dữ liệu;
- Hiệu quả cao trong quá trình hợp nhất và kết hợp các tập dữ liệu;
- Lập chỉ mục theo chiều dữ liệu giúp thao tác giữa dữ liệu chiều cao và chiều dữ liệu thấp;
- Tối ưu hóa hiệu năng;
- Pandas được sử dụng rộng rãi trong cả học thuật và thương mại. Bao gồm thống kê, thương mại, phân tích, quảng cáo,…
Cài đặt Pandas
Để cài đặt thư viện Pandas, bạn có thể làm theo một số cách khác nhau theo hướng dẫn tài liệu
- Sử dụng pip.
8peoples_df[['name', 'age']].head[5]
- Use conda.
9peoples_df[['name', 'age']].head[5]
Bây giờ chúng ta sẽ bắt đầu học cách sử dụng thư viện pandas python. Nhưng trước khi bắt đầu, hãy nhập thư viện pandas nhé. Chúng ta sẽ sử dụng cả thư viện matplotlib nữa
Nếu bạn chưa biết về thư viện matplotlib, hãy đọc trước nhé
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
Đọc tệp csv sử dụng thư viện pandas
Bạn có thể dễ dàng đọc vào một tập tin. csv bằng cách sử dụng hàm
peoples_df[0:5]
0 và được trả về 1 khung dữ liệu. Mặc định, hàm này sẽ phân biệt các trường của tệp csv theo dấu phẩy. Cách đọc hết các đơn giản như saupeoples_df = pd.read_csv['./people.csv']
Bạn có thể ra bản ghi đầu tiên của khung dữ liệu sử dụng hàm
peoples_df[0:5]
1. Reverse of peoples_df[0:5]
1 function is peoples_df[0:5]
3 function________số 8The results in ra as after.
Tuy nhiên, bạn cũng sẽ phải lưu ý một vài tham số của hàm
peoples_df[0:5]
0 như- mã hóa. chỉ định mã hóa của tập tin đọc vào. Default is utf-8
- tháng chín. thay đổi dấu ngăn cách giữa các cột. Default is comcom [‘,’]
- tiêu đề. read only file to have header[title of the column] or not. Default is infer
- chỉ mục_col. only number column are only column[numerical number]. Default is None
- n_rows. only the write number will read to. Mặc định là Không có – đọc toàn bộ
Ví dụ
peoples_df[['name', 'age']].head[5]
9Khi tôi chỉ định không có tiêu đề, dòng tiêu đề của chúng tôi đã biến thành 1 bản ghi dữ liệu.
Bạn đọc có thể xem mô tả đầy đủ từng tham số của hàm
peoples_df[0:5]
0 của thư viện pandas python tại đâyThao tác với dataframe trong pandas
See information of dataframe
Bạn có thể xem thông tin của khung dữ liệu vừa đọc bằng cách sử dụng hàm
peoples_df[0:5]
6 hoặc xem kích thước của khung dữ liệu này với thuộc tính peoples_df[0:5]
7. Các cụ thể như sau# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
3Và kết quả thu được là
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
4Truy xuất dữ liệu trên dataframe
Get 1 column by name column
To only column you want to get, you only to transfer to the column name as after
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
5Get by many column
Thay vì truyền vào 1 chuỗi thì hãy truyền vào 1 danh sách các cột tên. Mình thêm
peoples_df[0:5]
8 để chỉ ra 5 bản ghi đầu tiên cho rút ngắn, mặc định sẽ lấy hếtpeoples_df[['name', 'age']].head[5]
Get the write table by number
Để lấy hoặc nhiều bản ghi liên tiếp trong khung dữ liệu, sử dụng cơ chế trượt theo số lượng giống như trên danh sách trong python. Nhận 5 bản ghi đầu tiên
peoples_df[0:5]
Trong trường hợp này, kết quả giống như hàm head on. Mũi tên là khoảng 5 bản ghi đầu tiên
Bạn cũng có thể kết hợp lấy theo hàng và cột mong muốn
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
9Nhận các bản ghi theo điều kiện
peoples_df = pd.read_csv['./people.csv']
0Một ví dụ khác. Lấy tất cả các bản ghi chứa thông tin của người có chức danh là giáo sư
peoples_df = pd.read_csv['./people.csv']
1Hoặc 1 ví dụ so sánh chuỗi như sau
peoples_df = pd.read_csv['./people.csv']
2Kết quả thu được là một khung dữ liệu có 1 cột chưa 2 giá trị Đúng hoặc Sai
peoples_df = pd.read_csv['./people.csv']
3Get the return value for numpy arrays
Để lấy giá trị của một cột trả về dưới dạng mảng numpy trong thư viện pandas python, bạn chỉ cần thêm
peoples_df[0:5]
9 vào sau, ví dụpeoples_df = pd.read_csv['./people.csv']
4Output you get as after
peoples_df = pd.read_csv['./people.csv']
5If you quan tâm đến mảng numpy, hãy tìm đọc
Thêm, sửa, xóa trong dataframe
Add column from new data
To add column to a dataframe available. Trước tiên, bạn cần có 1 danh sách dữ liệu tương ứng với cột mà bạn muốn bổ sung. Tức là chiều dài của danh sách phải tương ứng với số bản ghi của khung dữ liệu mà bạn muốn thêm
Ở đây, tôi sẽ sử dụng thư viện ngẫu nhiên để sinh ngẫu nhiên một danh sách năm sinh và thêm vào khung dữ liệu như sau
peoples_df = pd.read_csv['./people.csv']
6Add column based on the data has been
Giả sử ở đây mình muốn thêm cột
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
90 có giá trị # Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
91 nếu tuổi < 25 và # Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
92 trong trường hợp còn lạipeoples_df = pd.read_csv['./people.csv']
7Khởi tạo cột mới có giá trị trống
Sử dụng cú pháp đơn giản như dưới đây, bạn sẽ có một trường mới và tất cả các giá trị là
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
93peoples_df = pd.read_csv['./people.csv']
8Thêm bản ghi trong khung dữ liệu
Về vấn đề bổ sung bản ghi, chúng tôi thường ít khi sử dụng nên tôi sẽ không trình bày. Bạn đọc quan tâm có thể đọc thêm tại tài liệu này
Edit the value of the column
Để sửa giá trị của 1 cột, bạn làm tương tự như thêm cột mới. Nhưng khác với vị trí được thêm vào là tên cột bạn truyền vào đã có trong khung dữ liệu. Còn nữa là 1 tên trường mới hoàn toàn chưa có. Chẳng hạn, bạn muốn thay đổi trường
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
94, bạn chỉ cần làm như saupeoples_df = pd.read_csv['./people.csv']
9Delete the column in dataframe
You can't use a in the way after
peoples_df.head[5]
0Delete the write by number
peoples_df.head[5]
1Hiểu dữ liệu trong dataframe
Thư viện pandas python cung cấp cho bạn một số hàm giúp bạn hiểu về cấu trúc, phân bố của dữ liệu. Dưới đây là cách để bạn khám phá và hiểu dữ liệu của mình
Tôi đã bổ sung trường
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
95 vào tệp người. csv and readback processpeoples_df.head[5]
2peoples_df.head[5]
3Sử dụng hàm
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
96 cho bạn các bảng thống kê cơ bản về dữ liệupeoples_df.head[5]
4Xem cụ thể bảng kê cụ thể hơn trên từng cột như sau
peoples_df.head[5]
5peoples_df.head[5]
6Bạn cũng có thể vẽ đồ thị để xem phân bố giá trị của một trường trong khung dữ liệu như sau
peoples_df.head[5]
7Tạo khung dữ liệu mới
Có một vài cách để tạo ra dataframe trong thư viện pandas python. Bạn có thể sử dụng cách mà bạn cho là dễ sử dụng, đôi khi cũng phải tùy chọn vào trường hợp mà nên chọn cách nào từng lần nữa
Tạo khung dữ liệu mới từ từ điển python
peoples_df.head[5]
8You will have 1 dataframe as after
peoples_df.head[5]
9Tạo khung dữ liệu mới từ danh sách python
peoples_df[['name', 'age']].head[5]
90Và khung dữ liệu mà bạn sẽ thu được là
peoples_df[['name', 'age']].head[5]
91Lưu ý. this list must have the same size
Một số thao tác khác trên khung dữ liệu
Sắp xếp khung dữ liệu
Với thư viện pandas python, bạn có thể sắp xếp dataframe tăng dần, hoặc giảm dần theo 1 hoặc nhiều cột chỉ định
peoples_df[['name', 'age']].head[5]
92Kết quả thu được như sau
peoples_df[['name', 'age']].head[5]
93Bạn có thể sắp xếp theo nhiều cột có mức độ ưu tiên giảm dần, bằng cách truyền vào danh sách cột tên. Ví dụ
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
97Kết nối 2 khung dữ liệu
Bạn có thể kết nối 2 dataframe thành 1 dataframe mới bằng cách sử dụng hàm
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
98 của thư viện pandaspeoples_df[['name', 'age']].head[5]
94Kết quả
peoples_df[['name', 'age']].head[5]
95Xoá các bản ghi trong khung dữ liệu
Trong xử lý dữ liệu, bạn chắc chắn sẽ cần đến công việc trộn dữ liệu. Rất có thể, pandas thư viện có thể giúp chúng tôi làm việc đó
peoples_df[['name', 'age']].head[5]
96Kết quả[Có thể khác nhau nhé – xáo trộn mà]
peoples_df[['name', 'age']].head[5]
97Giải thích thêm
- frac. Chỉ định số bản ghi sẽ được trả về mỗi lần ngẫu nhiên. If by 1, tức là ngẫu nhiên ngẫu nhiên tất cả các bản ghi
- reset_index[]. Sắp xếp lại các cột chỉ số của khung dữ liệu
- rơi vãi. with value True, it will Stop not for reset_index function create new column from the number of dataframe ban đầu
Save dataframe về file csv
Thư viện pandas python cho phép bạn lưu lại khung dữ liệu chỉ với một dòng mã. Quá đơn giản phải không?
peoples_df[['name', 'age']].head[5]
98You can open file to view results save
Tham số của hàm
# Render our plots inline
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import random
99 tương đối giống với hàm peoples_df[0:5]
0. Bạn đọc có thể xem thêm thông tin đầy đủ của hàm này tại đâyTới đây mình xin kết thúc bài hướng dẫn về thư viện pandas python. Qua bài viết này, tôi tin chắc rằng bạn đã có những kiến thức cần thiết và có thể làm chủ thư viện pandas trong python. Bạn cũng có thể xem ví dụ thực tế sử dụng thư viện này tại bài viết code thuật toán hồi quy tuyến tính này