Phân tích dữ liệu freecodecamp với python

Phân tích dữ liệu là một lĩnh vực phổ biến nhưng có thể khó thâm nhập đối với người mới bắt đầu.

Để giúp bạn, đây là khóa học 10 giờ về phân tích dữ liệu với Python, Pandas & Numpy.

Bạn sẽ sử dụng sổ ghi chép Jupyter, thực hành Python và tìm hiểu sâu về công nghệ thú vị này. https. //t. co/c2yHPcu8C7

— freeCodeCamp. tổ chức [@freeCodeCamp] ngày 20 tháng 11 năm 2021

Sổ ghi chép khóa học và việc xây dựng các dự án này cho phép tôi có được các kỹ năng mới và làm quen nhiều hơn với hộp công cụ trực quan hóa và Phân tích dữ liệu của Python. Tôi đã học được toàn bộ quá trình Phân tích dữ liệu. đọc dữ liệu từ nhiều nguồn [CSV, SQL, Excel, v.v.], xử lý chúng bằng NumPy và Pandas, trực quan hóa chúng bằng Matplotlib và Seaborn, đồng thời làm sạch và xử lý dữ liệu đó để tạo báo cáo

chứng nhận

Các dự án này cũng cho phép tôi có được Chứng chỉ Phân tích dữ liệu với Python, là Chứng chỉ dành cho nhà phát triển, tương đương với khoảng 400 giờ học

Cam kết này không thuộc về bất kỳ nhánh nào trên kho lưu trữ này và có thể thuộc về một nhánh bên ngoài kho lưu trữ

Bạn không thể thực hiện hành động đó vào lúc này

Bạn đã đăng nhập bằng tab hoặc cửa sổ khác. Tải lại để làm mới phiên của bạn. Bạn đã đăng xuất trong một tab hoặc cửa sổ khác. Tải lại để làm mới phiên của bạn

Việc trau dồi các kỹ năng lập trình Python của bạn luôn hữu ích cho những bạn làm việc trong Phân tích dữ liệu & Khoa học dữ liệu và việc học hỏi liên tục là cần thiết trong một không gian ngày càng phát triển bị chi phối bởi các trường hợp sử dụng ngày càng mở rộng và các ngôn ngữ lập trình nguồn mở và linh hoạt

Cuối cùng, những người trong số các bạn thích viết mã thực tế hơn là ngồi trong nhiều phút của các bài học qua video sẽ thấy việc xây dựng các dự án đầy thách thức và thú vị, đồng thời là cách tốt nhất để vượt qua khó khăn và học các khái niệm mới trong quá trình thực hiện

Trong bài viết này, tôi sẽ cung cấp một cái nhìn tổng quan về những gì sẽ xảy ra nếu bạn quyết định xây dựng các dự án có trong phần “Phân tích dữ liệu với Python” của chương trình giảng dạy mà tôi đã hoàn thành gần đây. Chứng nhận hoàn toàn dựa trên dự án và các bài giảng là hoàn toàn tùy chọn

Bài viết này sẽ chỉ tập trung vào các dự án cuối cùng mà tôi quyết định thử sức mình sau giờ làm.

Giấy chứng nhận của tác giả

từ chối trách nhiệm. thời lượng khóa học ước tính là 400 giờ [bài giảng + dự án];

Nếu bạn mới bắt đầu, tôi chắc chắn khuyên bạn nên xem qua các bài giảng FreeCodeCamp và đặt thời gian ước tính vào, vì về lâu dài, điều đó sẽ có lợi cho bạn nhiều hơn là chỉ lấy chứng chỉ

Tài nguyên được đề xuất là

  • Khóa học FreeCodeCamp- Phân tích dữ liệu với Python
Các dự án

Trọng tâm của các thách thức [thành thật mà nói, chúng khép kín hơn các dự án chính thức, và do đó, cái tên “thử thách” cảm thấy phù hợp hơn ở đây] xoay quanh việc xây dựng các phần chức năng khép kín [i. e. Các hàm Python phân tích dữ liệu và trả về đầu ra dạng số hoặc hình ảnh] thay vì xây dựng một quy trình công việc lớn. Về vấn đề này, quá trình thiết lập không quá khác biệt so với các thử thách mã hóa cổ điển, mặc dù những thử thách này có thể dài hơn một chút.

Mỗi thử thách được kiểm tra dựa trên các bài kiểm tra đơn vị khác nhau, thách thức mã của bạn trong các điều kiện khác nhau

Điều này không khác biệt nhiều so với công việc mà một nhà phân tích dữ liệu Python sẽ thấy mình thực hiện một lần trong một dự án, nơi bạn có khả năng được giao nhiệm vụ khám phá dữ liệu và trả lời một số câu hỏi liên quan đến vấn đề kinh doanh hiện tại

Các gói bạn sẽ sử dụng sẽ chủ yếu là numpy và/hoặc pandas để thao tác dữ liệu và matplotlib và/hoặc seaborn để trực quan hóa dữ liệu

1. Công cụ tính độ lệch trung bình-phương sai-chuẩn

Biểu tượng ma trận được thiết kế bởi Vitaly Gorbachev

Mục tiêu. “Tạo một hàm có tên calculate[] sử dụng Numpy để xuất giá trị trung bình, phương sai, độ lệch chuẩn, tối đa, tối thiểu và tổng của các hàng, cột và phần tử trong ma trận 3 x 3. ”

cân nhắc. đây có vẻ là thử thách dễ dàng nhất về mặt thời gian, nhưng nó thực sự quan trọng vì nó chạm đến một số khối xây dựng chính và khái niệm của gói numpy, có tầm quan trọng cơ bản đối với nhiều tính toán phức tạp trong lĩnh vực khoa học dữ liệu, nơi bạn sẽ

Cách tiếp cận. khám phá và tận dụng các chức năng tích hợp sẵn của numpy

Ý chính. định hình lại dữ liệu, nhắm mục tiêu theo trục, mảng có nhiều mảng

2. Trình phân tích dữ liệu nhân khẩu học

Nguồn. Tác giả

Mục tiêu. “Sử dụng Pandas để trả lời các câu hỏi khác nhau về bộ dữ liệu dựa trên Điều tra dân số”

cân nhắc. Đây là một thử thách phân tích dữ liệu cổ điển trong đó bạn được cung cấp một tập dữ liệu và cần trả lời nhiều câu hỏi khác nhau khi khám phá nó. Để làm như vậy, bạn sẽ tận dụng tối đa các phương pháp thao tác dữ liệu của Pandas và học những phương pháp mới trong quá trình thực hiện

Cách tiếp cận. Chuyển đổi các câu hỏi chung thành phương pháp Pandas;

Ý chính. Đếm và phân phối tần suất phân loại, nhóm và định hình lại dữ liệu, lọc và sắp xếp, tính toán KPI

3. Trình hiển thị dữ liệu y tế

Nguồn. Tác giả

Mục tiêu. “Trực quan hóa và tính toán từ dữ liệu kiểm tra y tế bằng matplotlib, seaborn và pandas”

cân nhắc. Đây là một thử thách trực quan hóa dữ liệu cổ điển trong đó bạn được cung cấp một bộ dữ liệu y tế và cần vẽ các biểu đồ kiểu ma trận tương quan và phân loại, đồng thời sử dụng một số gói phổ biến như seaborn, nhưng cũng sử dụng các phương pháp ít được biết đến hơn như “che giấu” ma trận tương quan . Bản thân tôi chưa bao giờ tiếp xúc với khái niệm này và đã dành khá nhiều thời gian để nghiên cứu các mẹo hữu ích trên Stack Overflow. Chắc chắn là gọn gàng

Cách tiếp cận. Chuyển đổi các câu hỏi chung thành phương pháp Pandas;

Ý chính. Định hình lại và nhóm dữ liệu, loại bỏ ngoại lệ, lô seaborn, mặt nạ numpy

4. Trình hiển thị chuỗi thời gian xem trang

Nguồn. Tác giả

Mục tiêu. "trực quan hóa dữ liệu chuỗi thời gian bằng biểu đồ đường, biểu đồ thanh và biểu đồ hộp"

cân nhắc. Tương tự như dự án 3, với cảnh báo bổ sung về việc phải xử lý dữ liệu chuỗi thời gian để hiển thị xu hướng và phân phối theo thời gian

Cách tiếp cận. Chuyển đổi các câu hỏi chung thành phương pháp Pandas;

Ý chính. Xoay vòng và nhóm dữ liệu, loại bỏ giá trị ngoại lai, biểu đồ gốc, biểu diễn chuỗi thời gian

5. Dự đoán mực nước biển

Nguồn. Tác giả

Mục tiêu. “Phân tích bộ dữ liệu về sự thay đổi mực nước biển trung bình toàn cầu kể từ năm 1880. Sử dụng dữ liệu để dự đoán sự thay đổi mực nước biển đến năm 2050 với hai mô hình hồi quy khác nhau”

cân nhắc. Trong dự án này, thành phần bổ sung của mô hình hồi quy đơn giản được giới thiệu khi làm việc với dữ liệu chuỗi thời gian; . Dự án này là một phần giới thiệu đơn giản nhưng hữu ích về một mô hình thống kê, kết thúc loạt bài này

Cách tiếp cận. Khớp mô hình hồi quy hai dữ liệu và vẽ các giá trị dự đoán trong chuỗi thời gian hiện tại

Ý chính. Mô hình hồi quy, biểu đồ phân tán, định dạng đồ thị

Tóm tắt và các bước tiếp theo

Nhìn chung, các dự án đại diện cho một cách tuyệt vời để xây dựng sự quen thuộc với nhiều gói và nhiệm vụ phân tích dữ liệu phổ biến, đồng thời đóng vai trò giới thiệu rất tốt về lĩnh vực này

Sau khi hoàn thành, bạn sẽ nhận được chứng chỉ cho phép bạn xây dựng sự tự tin về các kỹ năng của mình trước khi chuyển sang học thêm và xây dựng dự án

Python trên freeCodeCamp có tốt không?

Đó là ngôn ngữ đầu tiên tuyệt vời để học . Chúng tôi vừa phát hành một khóa học lập trình Python hoàn toàn mới trên freeCodeCamp. tổ chức kênh YouTube. Tên tôi là Beau Carnes và tôi đã tạo khóa học này. Trước đây tôi đã tạo một trong những khóa học JavaScript phổ biến nhất trên YouTube cũng như nhiều hướng dẫn về Python.

Python có phù hợp để phân tích dữ liệu không?

Python và R đều là ngôn ngữ nguồn mở, miễn phí có thể chạy trên Windows, macOS và Linux. Cả hai đều có thể xử lý mọi tác vụ phân tích dữ liệu và cả hai đều được coi là ngôn ngữ tương đối dễ học, đặc biệt là cho người mới bắt đầu.

freeCodeCamp phân tích dữ liệu là gì?

Trong Phân tích dữ liệu với chứng chỉ Python, bạn sẽ tìm hiểu các kiến ​​thức cơ bản về phân tích dữ liệu với Python. Khi kết thúc chứng chỉ này, bạn sẽ biết cách đọc dữ liệu từ các nguồn như CSV và SQL cũng như cách sử dụng các thư viện như Numpy, Pandas, Matplotlib và Seaborn để xử lý và trực quan hóa dữ liệu

Python nào là tốt nhất để phân tích dữ liệu?

Pandas [Phân tích dữ liệu Python] là điều bắt buộc trong vòng đời của khoa học dữ liệu. Đây là thư viện Python phổ biến và được sử dụng rộng rãi nhất cho khoa học dữ liệu, cùng với NumPy trong matplotlib.

Chủ Đề