Hướng dẫn what is np and pd in python? - np và pd trong python là gì?

Gấu trúc

Pandas là một thư viện rất phổ biến để làm việc với dữ liệu (mục tiêu của nó là là công cụ nguồn mở mạnh mẽ và linh hoạt nhất, và theo chúng tôi, nó đã đạt được mục tiêu đó). DataFrames là trung tâm của gấu trúc. Một khung dữ liệu được cấu trúc như bảng hoặc bảng tính. Cả hai hàng và các cột đều có các chỉ mục và bạn có thể thực hiện các thao tác trên các hàng hoặc cột riêng biệt.

Một khung dữ liệu gấu trúc có thể dễ dàng thay đổi và thao tác. Pandas có các chức năng hữu ích để xử lý dữ liệu bị thiếu, thực hiện các hoạt động trên các cột và hàng và chuyển đổi dữ liệu. Nếu đó là đủ, rất nhiều chức năng SQL có các đối tác trong gấu trúc, chẳng hạn như tham gia, hợp nhất, lọc theo và nhóm theo. Với tất cả các công cụ mạnh mẽ này, không có gì ngạc nhiên khi Pandas rất phổ biến trong số các nhà khoa học dữ liệu.

Numpy

Numpy là một thư viện Python nguồn mở, tạo điều kiện cho các hoạt động số hiệu quả trên số lượng lớn dữ liệu. Có một vài chức năng tồn tại trong Numpy mà chúng ta sử dụng trên các khung dữ liệu gấu trúc. Đối với chúng tôi, phần quan trọng nhất về Numpy là gấu trúc được xây dựng trên đỉnh của nó. Vì vậy, Numpy là một sự phụ thuộc của gấu trúc.

Cài đặt

Nếu bạn đã cài đặt Anaconda, Numpy và Pandas cũng có thể đã được tự động cài đặt! Nếu họ trú ẩn, hoặc nếu bạn muốn cập nhật lên các phiên bản mới nhất, bạn có thể mở một cửa sổ thiết bị đầu cuối và chạy các lệnh sau:

conda install numpy

conda install pandas

Nếu bạn không cài đặt Anaconda, bạn có thể cài đặt các thư viện bằng cách sử dụng

import numpy as np

import pandas as pd

2 bằng cách chạy các lệnh sau từ thiết bị đầu cuối của bạn:

pip install numpy

pip install pandas

Khi bạn đã cài đặt các thư viện này, bạn đã sẵn sàng để mở bất kỳ môi trường mã hóa Python nào (chúng tôi khuyên dùng Jupyter Notebook). Trước khi bạn có thể sử dụng các thư viện này, bạn sẽ cần nhập chúng bằng các dòng mã sau. Chúng tôi sẽ sử dụng các chữ viết tắt

import numpy as np

import pandas as pd

3 và

import numpy as np

import pandas as pd

4, để đơn giản hóa các cuộc gọi chức năng của chúng tôi trong tương lai.

import numpy as np

import pandas as pd

Mảng numpy

Các mảng Numpy là duy nhất ở chỗ chúng linh hoạt hơn danh sách Python bình thường. Chúng được gọi là ndarrays vì chúng có thể có bất kỳ số (n) kích thước nào (d). Họ chứa một tập hợp các mục của bất kỳ một loại dữ liệu nào và có thể là một vectơ (một chiều) hoặc ma trận (đa chiều). Các mảng Numpy cho phép truy cập phần tử nhanh và thao tác dữ liệu hiệu quả.

Mã bên dưới khởi tạo danh sách Python có tên

import numpy as np

import pandas as pd

5:

list1 = [1,2,3,4]

Để chuyển đổi điều này thành ndarray một chiều với một hàng và bốn cột, chúng ta có thể sử dụng hàm

import numpy as np

import pandas as pd

6:

array1 = np.array(list1)

print(array1)

[1 2 3 4]

Để có được một ndarray hai chiều từ danh sách, chúng ta phải bắt đầu với một danh sách python danh sách:

list2 = [[1,2,3],[4,5,6]]

array2 = np.array(list2)

print(array2)

[[1 2 3]
 [4 5 6]]

Trong đầu ra ở trên, bạn có thể nhận thấy rằng bản in mảng numpy được hiển thị theo cách thể hiện rõ ràng cấu trúc đa chiều của nó: hai hàng và ba cột.

Nhiều hoạt động có thể được thực hiện trên các mảng Numpy khiến chúng rất hữu ích cho việc thao tác dữ liệu:

  • Chọn các yếu tố mảng

  • Cắt mảng

  • Định hình lại mảng

  • Tách mảng

  • Kết hợp mảng

  • Hoạt động số (tối thiểu, tối đa, trung bình, v.v.)

Các hoạt động toán học có thể được thực hiện trên tất cả các giá trị trong một ndarray cùng một lúc thay vì phải lặp qua các giá trị, vì cần thiết với danh sách Python. Điều này rất hữu ích trong nhiều kịch bản. Giả sử bạn sở hữu một cửa hàng đồ chơi và quyết định giảm giá của tất cả đồ chơi xuống € 2 cho bán hàng cuối tuần. Với giá đồ chơi được lưu trữ trong một ndarray, bạn có thể dễ dàng tạo điều kiện cho hoạt động này.

toyPrices = np.array([5,8,3,6])

print(toyPrices - 2)

[3 6 1 4]

Tuy nhiên, nếu bạn đã lưu trữ giá đồ chơi của mình trong danh sách Python, bạn sẽ phải lặp thủ công toàn bộ danh sách để giảm mỗi giá đồ chơi.

pip install numpy

pip install pandas

0

pip install numpy

pip install pandas

1

Sê -ri Pandas và DataFrames

Giống như Ndarray là nền tảng của thư viện Numpy, loạt phim là đối tượng cốt lõi của thư viện Pandas. Một loạt gấu trúc rất giống với một mảng numpy một chiều, nhưng nó có chức năng bổ sung cho phép các giá trị trong chuỗi được lập chỉ mục bằng nhãn. Một mảng numpy không có sự linh hoạt để làm điều này. Việc ghi nhãn này rất hữu ích khi bạn lưu trữ các phần dữ liệu có dữ liệu khác được liên kết với chúng. Giả sử bạn muốn lưu trữ độ tuổi của học sinh trong một khóa học trực tuyến để cuối cùng tìm ra độ tuổi trung bình của học sinh. Nếu được lưu trữ trong một mảng numpy, bạn chỉ có thể truy cập vào các độ tuổi này với các chỉ số Ndarray nội bộ

import numpy as np

import pandas as pd

7. Với một đối tượng loạt, các chỉ số của các giá trị được đặt thành

import numpy as np

import pandas as pd

7 theo mặc định, nhưng bạn có thể tùy chỉnh các chỉ số thành các giá trị khác như tên học sinh để có thể truy cập một độ tuổi bằng tên. Các chỉ số tùy chỉnh của một chuỗi được thiết lập bằng cách gửi các giá trị vào hàm tạo chuỗi, như bạn sẽ thấy bên dưới.

Một loạt giữ các mục của bất kỳ một loại dữ liệu nào và có thể được tạo bằng cách gửi giá trị vô hướng, danh sách python, từ điển hoặc ndarray làm tham số cho hàm tạo pandas sê -ri. Nếu một từ điển được gửi vào, các khóa có thể được sử dụng làm chỉ số.

pip install numpy

pip install pandas

2

pip install numpy

pip install pandas

3

Khi in một loạt, loại dữ liệu của các yếu tố của nó cũng được in. Để tùy chỉnh các chỉ số của một đối tượng Series, hãy sử dụng đối số

import numpy as np

import pandas as pd

9 của hàm tạo

list1 = [1,2,3,4]

0.

pip install numpy

pip install pandas

4

pip install numpy

pip install pandas

5

Các đối tượng loạt cung cấp nhiều thông tin hơn các mảng numpy làm. In một mảng lứa tuổi không in các chỉ số hoặc cho phép chúng tôi tùy chỉnh chúng.

pip install numpy

pip install pandas

6

pip install numpy

pip install pandas

7

Một loại đối tượng quan trọng khác trong thư viện Pandas là DataFrame. Đối tượng này có dạng tương tự như một ma trận vì nó bao gồm các hàng và cột. Cả hai hàng và cột có thể được lập chỉ mục với số nguyên hoặc tên chuỗi. Một DataFrame có thể chứa nhiều loại dữ liệu khác nhau, nhưng trong một cột, mọi thứ phải là cùng một loại dữ liệu. Một cột của DataFrame về cơ bản là một loạt. Tất cả các cột phải có cùng một số phần tử (hàng).

Có nhiều cách khác nhau để điền vào khung dữ liệu như với tệp CSV, truy vấn SQL, danh sách python hoặc từ điển. Ở đây chúng tôi đã tạo một DataFrame bằng danh sách danh sách Python. Mỗi danh sách lồng nhau đại diện cho dữ liệu trong một hàng của DataFrame. Chúng tôi sử dụng từ khóa

list1 = [1,2,3,4]

1 để truyền trong danh sách các tên cột tùy chỉnh của chúng tôi.

pip install numpy

pip install pandas

8

Đây là cách hiển thị DataFrame:

pip install numpy

pip install pandas

9

Các chỉ số hàng mặc định là

import numpy as np

import pandas as pd

7, nhưng chúng có thể được thay đổi. Ví dụ, chúng có thể được đặt thành các phần tử trong một trong các cột của DataFrame. Để sử dụng cột

list1 = [1,2,3,4]

3 làm chỉ số thay vì các giá trị số mặc định, chúng tôi có thể chạy lệnh sau trên DataFrame của chúng tôi:

import numpy as np

import pandas as pd

0

import numpy as np

import pandas as pd

1

DataFrames rất hữu ích vì chúng làm cho việc chọn, thao tác và tóm tắt dữ liệu dễ dàng hơn nhiều. Định dạng bảng của chúng (một bảng có hàng và cột) cũng giúp dễ dàng hơn để ghi, đơn giản hơn để đọc và dễ dàng xuất dữ liệu đến và từ bảng tính. Hiểu được sức mạnh của các cấu trúc dữ liệu mới này là chìa khóa để mở khóa nhiều con đường mới để thao tác, thăm dò và phân tích dữ liệu!

PD trong Python là gì?

Gấu trúc thường được nhập khẩu dưới bí danh PD.Bí danh: Trong bí danh Python là một tên thay thế để đề cập đến cùng một điều.Tạo bí danh với từ khóa AS trong khi nhập: Nhập Pandas dưới dạng PD.Bây giờ gói gấu trúc có thể được gọi là PD thay vì gấu trúc.. alias: In Python alias are an alternate name for referring to the same thing. Create an alias with the as keyword while importing: import pandas as pd. Now the Pandas package can be referred to as pd instead of pandas .

Numpy và gấu trúc có giống nhau không?

Nó là một thư viện nguồn mở được thiết kế đặc biệt để phân tích dữ liệu và thao tác dữ liệu trong Python.Pandas được xây dựng trên đỉnh của gói numpy và do đó nó về cơ bản dựa vào sự numpy.Gấu trúc cho phép chúng tôi đọc từ nhiều nguồn như Excel, CSV, SQL, và nhiều nguồn khác.

NP được sử dụng để làm gì trong Python?

Numpy là một thư viện Python được sử dụng để làm việc với các mảng.Nó cũng có các chức năng để làm việc trong miền đại số tuyến tính, biến đổi Fourier và ma trận.Numpy được tạo ra vào năm 2005 bởi Travis Oliphant.Đây là một dự án nguồn mở và bạn có thể sử dụng nó một cách tự do.working with arrays. It also has functions for working in domain of linear algebra, fourier transform, and matrices. NumPy was created in 2005 by Travis Oliphant. It is an open source project and you can use it freely.