programming python

Thao tác dữ liệu trong Hướng dẫn Python

import0______17import2= import4# creating a dataframe object1import6# creating a dataframe object3import6# creating a dataframe object1import6# creating a dataframe object7import2

Pandas là một thư viện python mã nguồn mở được sử dụng để thao tác và phân tích dữ liệu. Nó cung cấp nhiều chức năng và phương pháp để tăng tốc quá trình phân tích dữ liệu. Pandas được xây dựng dựa trên gói NumPy, do đó, nó lấy rất nhiều cảm hứng cơ bản từ nó. Hai cấu trúc dữ liệu chính là Sê-ri 1 chiều và DataFrame 2 chiều

Đây là một trong những công cụ quan trọng và hữu ích nhất trong kho vũ khí của Nhà khoa học dữ liệu và Nhà phân tích dữ liệu

Cài đặt gấu trúc

Trước tiên, hãy nhập mô-đun Pandas. Chúng tôi sẽ tạo bí danh của “gấu trúc” là pd vì nó làm cho mã dễ đọc hơn một chút và nó cũng tránh mọi vấn đề về không gian tên

Tiếp theo, chúng tôi sẽ nhập mô-đun os sẽ giúp chúng tôi đọc tệp đầu vào

Sau đó, chúng ta sẽ tạo một hàm lấy tên tệp làm đầu vào và tải tệp cụ thể từ vị trí. Và sau đó chúng ta sẽ gọi hàm này trong hàm Pandas là “read_csv[]“, hàm này sẽ đọc tệp từ vị trí được cung cấp

1. Đọc

Lưu ý – Có nhiều phương pháp khác để đọc các loại tệp khác nhau, chẳng hạn như read_json[], read_html[], read_excel[], v.v. có thể dễ dàng sử dụng theo yêu cầu

Lưu ý - Tập dữ liệu được sử dụng là đây

2. cái đầu[]

Sau đó, chúng ta sẽ sử dụng hàm “head[]” của gấu trúc để hiển thị 5 hàng trên cùng từ tập dữ liệu của chúng ta. Lưu ý – Chúng tôi có thể cung cấp thông tin không. hàng mà chúng tôi muốn hiển thị bằng cách cung cấp số đếm dưới dạng tham số cho hàm “head[]”, tôi. e. [df. head[10] – giờ đây sẽ hiển thị 10 hàng từ tập dữ liệu của chúng tôi]

Lưu ý – Cũng có một phương thức “tail[]” sẽ hiển thị 5 hàng cuối cùng từ tập dữ liệu của chúng ta

3. hình dạng

Bây giờ, nếu chúng tôi muốn xem thứ nguyên của tập dữ liệu của mình, chúng tôi có thể sử dụng "hình dạng", sẽ hiển thị thứ nguyên trong [Không. của hàng, Không. của cột] định dạng

4. thông tin[]

Bây giờ, nếu chúng ta muốn biết thêm một số thông tin về tập dữ liệu của mình, chúng ta có thể sử dụng hàm “info[]” của pandas. Nó hiển thị nhiều thông tin khác nhau về dữ liệu của chúng tôi, chẳng hạn như tên cột, không. của các giá trị khác null trong mỗi cột [tính năng], loại của từng cột, mức sử dụng bộ nhớ, v.v.

5. to_datetime[]

Vì vậy, trong khi đọc tệp CSV, các đối tượng DateTime trong tệp được đọc dưới dạng các đối tượng chuỗi và do đó, hơi khó thực hiện các thao tác DateTime như chênh lệch múi giờ trên một chuỗi. Vì vậy, đây là lúc phương thức pandas “to_datetime[]” phát huy tác dụng. Bạn có thể cung cấp các định dạng khác nhau theo yêu cầu của bạn

6. isnull[]

Sử dụng các hàm “isnull[]” và “sum[]”, chúng ta có thể thấy rằng không. của các giá trị null trong DataFrame cho mọi tính năng

7. làm rơi[]

Bây giờ, như chúng ta có thể thấy rằng cột “county_name” hoàn toàn trống, vì vậy nó sẽ không cung cấp bất kỳ thông tin nào có lợi cho chúng ta. Do đó, chúng tôi sẽ loại bỏ cột cụ thể đó bằng cách sử dụng hàm pandas “drop[]”. Lưu ý - Chúng tôi cung cấp “inplace=True” để sửa đổi DataFrame hiện tại

8. mô tả[]

Giờ đây, bằng cách sử dụng hàm “describe[]”, chúng ta có thể nhận được nhiều thông tin khác nhau về các cột số trong DataFrame của mình, chẳng hạn như tổng số hàng, giá trị trung bình, giá trị nhỏ nhất, giá trị lớn nhất và mức chênh lệch của các giá trị cụ thể

9. value_counts[]

Hàm “value_counts[]” được sử dụng để xác định các danh mục khác nhau trong một đối tượng địa lý cũng như số lượng giá trị cho mỗi danh mục

10. điền []

Bây giờ, như chúng ta đã biết, bằng cách sử dụng các hàm “isnull[]” và “sum[]”, chúng ta có thể kiểm tra xem dữ liệu của mình có thiếu giá trị nào hay không. Vì vậy, bây giờ chúng ta có thể thấy rằng tính năng “driver_gender” này có 5335 nan hoặc các giá trị bị thiếu. Vì vậy, chúng tôi sẽ lấp đầy các giá trị còn thiếu bằng cách sử dụng chế độ [giá trị xuất hiện thường xuyên nhất trong tập dữ liệu] của tính năng cụ thể này bằng hàm “fillna[]”

Lưu ý – Cách điền các giá trị nan hoặc còn thiếu này không phải là cách hiệu quả nhất và có nhiều cách khác hiệu quả hơn để quy nạp. Có rất nhiều suy nghĩ xảy ra sau khi chúng ta làm việc với các giá trị bị thiếu, nhưng đây chỉ là để giải thích chức năng của hàm fillna[]

11. vật mẫu[]

Chúng ta có thể sử dụng hàm “sample[]” cho phép chúng ta chọn các giá trị ngẫu nhiên từ khung dữ liệu của mình. Chúng ta có thể vượt qua nó. hàng mà chúng tôi muốn tìm nạp dưới dạng tham số

12. duy nhất[]

Chúng ta có thể sử dụng hàm “nunique[]” để tìm số không. các giá trị duy nhất trong chuỗi hoặc khung dữ liệu của chúng tôi. Nói chung, nó được sử dụng trong trường hợp các tính năng phân loại để xác định không. của các danh mục trong một tính năng cụ thể

13. cột

Như tên gợi ý, "cột" lấy tên của tất cả các tính năng/cột trong khung dữ liệu của chúng tôi

14. nnhỏ nhất[] & nlớn nhất[]

Vì vậy, như tên gợi ý, các hàm “nsmallest[] & nlarget[]” được sử dụng để lấy số “n”. của các hàng từ tập dữ liệu của chúng tôi tương ứng là thấp nhất hoặc cao nhất

15. theo nhóm []

Hàm “groupby[]” rất hữu ích trong phân tích dữ liệu vì nó cho phép chúng ta tiết lộ các mối quan hệ cơ bản giữa các biến khác nhau. Và sau đó, chúng ta cũng có thể áp dụng Tập hợp trên các nhóm có hàm “agg []” và chuyển nó bằng các hoạt động tập hợp khác nhau như giá trị trung bình, kích thước, tổng, tiêu chuẩn, v.v.

16. get_group[]

Chúng ta có thể sử dụng hàm “get_group[]” để chọn một nhóm cụ thể

Lưu ý - Chúng tôi có thể kết hợp nhiều phương pháp gấu trúc khác nhau theo yêu cầu của chúng tôi để hiểu rõ hơn về dữ liệu như hình bên dưới

17. loc[] và iloc[]

Các phương thức loc[] và iloc[] được sử dụng để cắt dữ liệu từ DataFrame của gấu trúc giúp lọc dữ liệu theo một số điều kiện nhất định

loc – chọn theo nhãn

iloc – chọn theo vị trí

iloc[] cắt khung dữ liệu trong phạm vi hàng và cột đã chỉ định

18. Sắp xếp

Chúng ta có thể sắp xếp DataFrame của mình theo chỉ mục hoặc giá trị bằng các hàm “sort_index[]” và “sort_values[]” của Pandas. Dưới đây là cách triển khai để sắp xếp theo giá trị

19. Truy vấn

Chúng ta có thể sử dụng hàm Pandas query[] để lọc khung dữ liệu của mình theo các điều kiện hoặc yêu cầu của chúng ta như được hiển thị bên dưới

20. set_index[]

Vì vậy, chúng ta có thể sử dụng hàm “set_index[]” của Pandas để đặt bất kỳ cột nào của bạn làm chỉ mục

21. trùng lặp[]

Chúng ta có thể sử dụng hàm “duplicated[]” để tìm tất cả các hàng trùng lặp trong tập dữ liệu của mình. Và, sau đó chúng ta có thể loại bỏ các giá trị trùng lặp bằng hàm drop_duplicates[], vì có quá nhiều giá trị trùng lặp sẽ ảnh hưởng đến độ chính xác của mô hình ở giai đoạn sau

22. get_dummies[]

Phương thức “get_dummies[]” của Pandas được sử dụng để chuyển đổi các đặc điểm phân loại của dữ liệu thành các biến giả hoặc biến chỉ báo

Chúng tôi thường thực hiện chuyển đổi này vì một số mô hình học máy không hoạt động tốt với các giá trị phân loại như Random Forrest, nhưng chúng tôi không nên sử dụng điều này nếu chúng tôi có quá nhiều danh mục trong tính năng của mình vì nó sẽ tạo ra nhiều tính năng mới đó trong tính năng của chúng tôi.

23. select_dtypes[]

Chúng tôi có thể tách các tính năng số và phân loại khỏi khung dữ liệu của mình và tạo các tính năng mới bằng cách sử dụng hàm “select_dtypes []” và bao gồm “np. số” để chọn các cột số trong khi bao gồm “đối tượng” cho các cột phân loại

24. concat[]

Chúng ta có thể thực hiện nối đối tượng gấu trúc thành đầu ra DataFrame dọc theo một trục cụ thể với logic thiết lập tùy chọn, chẳng hạn như hợp và giao bằng phương thức concat[]

Theo mặc định, trục=0, i. e. nối theo hàng, vì vậy nếu chúng ta đặt axis=1, phép nối theo cột sẽ được thực hiện

25. ứng dụng[]

Giả sử chúng tôi tạo chức năng tùy chỉnh của riêng mình và chúng tôi muốn sử dụng chức năng đó trong khung dữ liệu của mình. Đây là lúc chức năng “apply[]” của Pandas phát huy tác dụng. Nó cho phép chúng tôi áp dụng một chức năng tùy chỉnh cho mọi thành phần của một Sê-ri cụ thể

Vì vậy, ở đây chúng ta đã tạo hàm tùy chỉnh currentAge[] của riêng mình để trả về tuổi hiện tại của người đó bằng cách lấy năm hiện tại [2021] trừ đi ngày sinh của họ. Và, sau đó chúng ta có thể sử dụng hàm này bên trong hàm “apply[]”

26. qcut[] và cắt[]

Vì vậy, khi chúng ta phải xử lý dữ liệu số liên tục, thường sẽ hữu ích khi phân loại chúng thành nhiều nhóm và sau đó tiếp tục phân tích dữ liệu sâu hơn. Pandas cung cấp 2 phương thức là qcut[] và cut[] giúp chúng ta chuyển đổi dữ liệu liên tục thành tập hợp các nhóm rời rạc

phương thức qcut[] đảm bảo phân phối các giá trị bên trong mỗi ngăn đồng đều hơn, vì vậy chúng tôi có thể nói đó là một mẫu tốt hơn. Chúng tôi chỉ vượt qua không. của các thùng và sau đó Pandas thực hiện công việc hậu trường để quyết định độ rộng của mỗi thùng

phương thức cut[] được sử dụng để xác định cụ thể các cạnh của thùng và do đó việc phân phối các giá trị không đồng đều trên tất cả các thùng. Có thể xảy ra trường hợp không có vật phẩm nào bên trong một thùng cụ thể, vì vậy chúng ta nên cẩn thận về điều đó

27. to_csv[]

Giờ đây, chúng tôi có thể lưu DataFrame của mình trong tệp CSV bằng cách sử dụng hàm pandas “to_csv[]”. Vì chúng tôi không muốn lưu trữ các chỉ số trước của mỗi hàng, do đó, chúng tôi sẽ đặt index=False

Vì vậy, chúng tôi đã đề cập đến các chức năng khác nhau của Pandas, giúp khám phá dữ liệu và thao tác dữ liệu, giúp tăng tốc quá trình phân tích dữ liệu và cung cấp thông tin chi tiết có giá trị

Cảm ơn vì đã đọc và tiếp tục học hỏi

Và nếu bạn thấy bài viết này hữu ích, hãy theo dõi tôi trên LinkedIn

KẾT THÚC

Phương tiện hiển thị trong bài viết này không thuộc sở hữu của Analytics Vidhya và được sử dụng theo quyết định của Tác giả

Thao tác dữ liệu trong Python là gì?

Thao tác dữ liệu với python được định nghĩa là một quy trình trong ngôn ngữ lập trình python cho phép người dùng tổ chức dữ liệu để đọc hoặc diễn giải thông tin chi tiết từ dữ liệu có cấu trúc hơn và bao gồm thiết kế tốt hơn

Python có tốt cho thao tác dữ liệu không?

Thật tuyệt vời khi phân tích dữ liệu và xử lý dữ liệu. Pandas cung cấp khả năng kiểm soát thao tác dữ liệu . NumPy là một thư viện miễn phí để tính toán số. Nó cung cấp các hàm toán học cấp cao cùng với các thao tác dữ liệu.

thao tác dữ liệu với ví dụ là gì?

Thao tác dữ liệu là quá trình thay đổi hoặc chỉnh sửa dữ liệu để làm cho dữ liệu dễ đọc và có tổ chức hơn . Ví dụ: bạn có thể sắp xếp dữ liệu theo thứ tự bảng chữ cái để đẩy nhanh quá trình tìm kiếm thông tin hữu ích. Một ví dụ khác về thao tác dữ liệu là quản lý trang web.

Phương pháp thao tác dữ liệu là gì?

Thao tác dữ liệu có nghĩa là tổ chức hoặc sắp xếp loại dữ liệu có cấu trúc mà chương trình máy tính đọc được sao cho dễ diễn giải hơn . Thực hiện quy trình này một cách hiệu quả có thể cải thiện chất lượng dữ liệu và phân tích của bạn.