Hướng dẫn data science exercises - python - bài tập khoa học dữ liệu - python

Một bộ các câu hỏi về gấu trúc đầy thách thức

Ảnh của Olav Ahrens Røtne trên unplash

Thư viện Pandas luôn thu hút các nhà khoa học dữ liệu để làm những điều tuyệt vời với nó. Nó chắc chắn là công cụ đi đến xử lý dữ liệu bảng, thao tác và xử lý.

Do đó, để mở rộng quy mô chuyên môn của bạn, thách thức kiến ​​thức hiện tại của bạn và giới thiệu cho bạn nhiều chức năng gấu trúc phổ biến giữa các nhà khoa học dữ liệu, tôi đang trình bày Phần 1 của bài tập Pandas. Mục tiêu là tăng cường cơ bắp logic của bạn và giúp nội tâm hóa thao tác dữ liệu với một trong những gói Python tốt nhất để phân tích dữ liệu.

Tìm sổ ghi chép với tất cả các câu hỏi cho bài kiểm tra này ở đây: GitHub.

Mục lục:

1. Sắp xếp DataFrame dựa trên List2 khác. Chèn một cột tại một vị trí cụ thể trong DataFrame3. Chọn các cột dựa trên loại dữ liệu Cột. Đếm số lượng ô không NAN cho mỗi cột5. Chia DataFrame thành các phần bằng nhau6. Đảo ngược DataFrame Row-Wise hoặc Cột-Wise7. Sắp xếp lại các cột của một dataFrame8. Nhận các hàng thay thế của DataFrame9. Chèn một hàng tại một vị trí tùy ý10. Áp dụng chức năng cho mọi ô của DataFrame
2. Insert a column at a specific location in a DataFrame
3. Select columns based on the column’s Data Type
4. Count the number of Non-NaN cells for each column
5. Split DataFrame into equal parts
6. Reverse DataFrame row-wise or column-wise
7. Rearrange columns of a DataFrame
8. Get alternate rows of a DataFrame
9. Insert a row at an arbitrary position
10. Apply function to every cell of DataFrame

Như một bài tập, tôi khuyên bạn nên tự mình thử các câu hỏi trước và sau đó xem xét giải pháp tôi đã cung cấp.

Lưu ý rằng các giải pháp tôi đã cung cấp ở đây có thể không phải là cách duy nhất để giải quyết vấn đề. Bạn có thể nghĩ ra một cái gì đó khác biệt và vẫn đúng. Tuy nhiên, nếu điều đó xảy ra, hãy bỏ một bình luận và tôi sẽ quan tâm để biết cách tiếp cận của bạn.

Hãy bắt đầu nào!

1. Sắp xếp DataFrame dựa trên danh sách khác

Nhắc: Bạn được cung cấp một khung dữ liệu. Ngoài ra, bạn cũng có một danh sách chứa tất cả các giá trị duy nhất của một cột cụ thể của DataFrame. Sắp xếp DataFrame sao cho các giá trị trong cột xuất hiện theo cùng một thứ tự như trong danh sách đã cho.You are given a DataFrame. Additionally, you also have a list that contains all the unique values of a particular column of the DataFrame. Sort the DataFrame such that the values in the column appear in the same order as they do in the given list.

Đầu vào và đầu ra dự kiến:

Solution:

Ý tưởng ở đây là tạo ra một loạt từ danh sách đã cho. Mỗi chỉ mục sẽ biểu thị ký tự và giá trị tương ứng sẽ chỉ ra vị trí. Sử dụng điều này, chúng ta có thể ánh xạ DataFrame gốc vào chuỗi được tạo và chuyển nó sang phương thức sort_Values ​​() để tham khảo, như được hiển thị bên dưới:

P.S. Chúng tôi cũng có thể giải quyết điều này bằng cách sử dụng hợp nhất. Hãy cho tôi biết trong các ý kiến ​​nếu bạn có thể tìm ra điều đó.

2. Chèn một cột tại một vị trí cụ thể trong khung dữ liệu

Nhắc: Giả sử rằng bạn một lần nữa có một khung dữ liệu tương tự như được sử dụng ở trên. Ngoài ra, bạn được cung cấp một danh sách có kích thước giống như số lượng hàng trong DataFrame đã cho. Nhiệm vụ là chèn danh sách đã cho là một cột mới tại một vị trí nhất định của DataFrame. Assume that you again have a similar DataFrame as used above. Additionally, you are given a list whose size is the same as the number of rows in the given DataFrame. The task is to insert the given list as a new column at a given position of the DataFrame.

Đầu vào và đầu ra dự kiến:

Solution:

Ở đây, chúng ta có thể sử dụng phương thức chèn () và vượt qua vị trí, cột_name và các giá trị làm đối số như được hiển thị bên dưới:

3. Chọn các cột dựa trên kiểu dữ liệu của cột

Nhắc: Tất cả chúng ta đều quen thuộc với bộ lọc dựa trên hàng, aren chúng ta? Chà, hãy để thử một cái gì đó khác. Nhiệm vụ của bạn là lọc tất cả các cột từ DataFrame có mục nhập tuân thủ một kiểu dữ liệu nhất định.We all are familiar with row-based filtering, aren’t we? Well, let’s try something else. Your task is to filter all the columns from a DataFrame whose entries adhere to a given data type.

Đầu vào và đầu ra dự kiến:

Solution:

Ở đây, chúng ta có thể sử dụng phương thức select_dtypes () và truyền loại dữ liệu chúng ta cần lọc ra như hiển thị bên dưới:

4. Đếm số lượng ô không nan cho mỗi cột

Nhắc: Tiếp theo, được đưa ra một khung dữ liệu (với các giá trị NAN trong một hoặc nhiều cột), bạn cần in số lượng ô không NAN cho mỗi cột.Next, given a DataFrame (with NaN values in one or more columns), you need to print the number of Non-NaN cells for each column.

Đầu vào và đầu ra dự kiến:

Solution:

Ở đây, chúng ta có thể sử dụng phương thức Count () để có được kết quả: Điều này được hiển thị bên dưới:

5. Chia DataFrame thành các phần bằng nhau

Nhắc: Đưa ra một khung dữ liệu, nhiệm vụ của bạn là chia dataFrame thành một số phần bằng nhau nhất định.Given a DataFrame, your task is to split the DataFrame into a given number of equal parts.

Đầu vào và đầu ra dự kiến:

Solution:

Ở đây, chúng tôi sẽ sử dụng phương thức Split () của Numpy và chuyển số phần làm đối số, như được hiển thị bên dưới:

6. Đảo ngược DataFrame Row-Wise hoặc Cột khôn ngoan

Nhắc: Tiếp theo, hãy xem xét rằng bạn có một khung dữ liệu tương tự như cái chúng tôi đã sử dụng ở trên. Nhiệm vụ của bạn là lật toàn bộ DataFrame Row-Wise hoặc Cột khôn ngoan.Next, consider that you have a DataFrame similar to the one we used above. Your task is to flip the entire DataFrame row-wise or column-wise.

Đầu vào và đầu ra dự kiến:

Solution:

Chúng ta có thể sử dụng LỘC (hoặc ILOC) và chỉ định phương thức lập chỉ mục ngược bằng cách sử dụng trên:

7. Sắp xếp lại các cột của một khung dữ liệu

Nhắc: Trong bài tập này, bạn được cung cấp một khung dữ liệu. Ngoài ra, bạn có một danh sách chỉ định thứ tự trong đó các cột sẽ xuất hiện trong DataFrame. Đưa ra danh sách và DataFrame, in các cột theo thứ tự được chỉ định trong danh sách.In this exercise, you are given a DataFrame. Additionally, you have a list that specifies the order in which the columns should appear in the DataFrame. Given the list and the DataFrame, print the columns in the order specified in the list.

Đầu vào và đầu ra dự kiến:

Solution:

Chúng ta có thể sử dụng LỘC (hoặc ILOC) và chỉ định phương thức lập chỉ mục ngược bằng cách sử dụng trên:

7. Sắp xếp lại các cột của một khung dữ liệu

Nhắc: Trong bài tập này, bạn được cung cấp một khung dữ liệu. Ngoài ra, bạn có một danh sách chỉ định thứ tự trong đó các cột sẽ xuất hiện trong DataFrame. Đưa ra danh sách và DataFrame, in các cột theo thứ tự được chỉ định trong danh sách.Next, given a DataFrame, you need to print every alternate row starting from the first row of the DataFrame.

Đầu vào và đầu ra dự kiến:

Solution:

Chúng ta có thể sử dụng LỘC (hoặc ILOC) và chỉ định phương thức lập chỉ mục ngược bằng cách sử dụng trên:

7. Sắp xếp lại các cột của một khung dữ liệu

Nhắc: Trong bài tập này, bạn được cung cấp một khung dữ liệu. Ngoài ra, bạn có một danh sách chỉ định thứ tự trong đó các cột sẽ xuất hiện trong DataFrame. Đưa ra danh sách và DataFrame, in các cột theo thứ tự được chỉ định trong danh sách.Similar to earlier tasks, you are given the same DataFrame. Your task is to insert a given list at a specific index of the DataFrame and reassign the indexes.

Đầu vào và đầu ra dự kiến:

Solution:

Chúng ta có thể sử dụng LỘC (hoặc ILOC) và chỉ định phương thức lập chỉ mục ngược bằng cách sử dụng trên:

7. Sắp xếp lại các cột của một khung dữ liệu

Nhắc: Trong bài tập này, bạn được cung cấp một khung dữ liệu. Ngoài ra, bạn có một danh sách chỉ định thứ tự trong đó các cột sẽ xuất hiện trong DataFrame. Đưa ra danh sách và DataFrame, in các cột theo thứ tự được chỉ định trong danh sách.Lastly, you need to apply a given function to the entire DataFrame. The given DataFrame consists of just integer values. The task is to increase each entry by 1 through a function.

Đầu vào và đầu ra dự kiến:

Solution:

Chúng ta có thể sử dụng LỘC (hoặc ILOC) và chỉ định phương thức lập chỉ mục ngược bằng cách sử dụng trên:

7. Sắp xếp lại các cột của một khung dữ liệu

Nhắc: Trong bài tập này, bạn được cung cấp một khung dữ liệu. Ngoài ra, bạn có một danh sách chỉ định thứ tự trong đó các cột sẽ xuất hiện trong DataFrame. Đưa ra danh sách và DataFrame, in các cột theo thứ tự được chỉ định trong danh sách.

Làm cách nào để thực hành khoa học dữ liệu trong Python?

Làm thế nào để học Python cho khoa học dữ liệu..
Bước 1: Tìm hiểu các nguyên tắc cơ bản của Python. Tất cả mọi người bắt đầu từ một vài nơi. ....
Bước 2: Thực hành với học tập thực hành. ....
Bước 3: Tìm hiểu các thư viện khoa học dữ liệu Python. ....
Bước 4: Xây dựng danh mục khoa học dữ liệu khi bạn học Python. ....
Bước 5: Áp dụng các kỹ thuật khoa học dữ liệu nâng cao ..

Tôi có thể thực hành phân tích dữ liệu Python ở đâu?

Kaggle được cho là cộng đồng khoa học dữ liệu lớn nhất.Nền tảng này có 50.000 bộ dữ liệu công cộng, cho phép bạn thực hành tất cả các loại kỹ năng khoa học dữ liệu và python.. The platform has 50,000 public datasets, allowing you to practice all kinds of data science and Python skills.

Python có phù hợp với khoa học dữ liệu không?

Python là nguồn mở, được giải thích, ngôn ngữ cấp cao và cung cấp cách tiếp cận tuyệt vời cho lập trình hướng đối tượng.Đây là một trong những ngôn ngữ tốt nhất được sử dụng bởi nhà khoa học dữ liệu cho các dự án/ứng dụng khoa học dữ liệu khác nhau.It is one of the best language used by data scientist for various data science projects/application.

Khoa học dữ liệu Python có dễ học không?

Python và R đều là các ngôn ngữ miễn phí, nguồn mở có thể chạy trên Windows, MacOS và Linux.Cả hai đều có thể xử lý bất kỳ nhiệm vụ phân tích dữ liệu nào và cả hai đều được coi là ngôn ngữ tương đối dễ dàng để học, đặc biệt là cho người mới bắt đầu.both are considered relatively easy languages to learn, especially for beginners.