Chứng nhận phân tích dữ liệu python

Mặc dù không có gì thực sự thay đổi nhưng những ngày đầu năm mới luôn mang đến cho chúng ta nhiều hy vọng với nhiều thứ mới mẻ hơn. Nếu bạn thêm một kế hoạch, một số mục tiêu rõ ràng và lộ trình học tập, bạn sẽ có một công thức tuyệt vời cho một năm đầy đủ năng lượng. Bài viết này nhằm cung cấp cho bạn thông tin, tài nguyên và ý tưởng để giúp bạn xây dựng lộ trình học tập hoặc cải thiện kỹ năng chuyên môn của bạn trong khoa học dữ liệu [khoa học dữ liệu]

Lưu ý. Lộ trình học về khoa học dữ liệu này dựa trên kinh nghiệm cá nhân của Harshit Tyagi, hiện đang là Web và Nhà tư vấn khoa học dữ liệu,  về khoa học dữ liệu. Đây không phải là kế hoạch học tập tất cả và cuối cùng. Bạn có thể điều chỉnh lộ trình này để phù hợp hơn với bất kỳ lĩnh vực hoặc lĩnh vực nghiên cứu cụ thể nào mà bạn quan tâm. Vui ra, tác giả đề cập nhật nhiều vì Python cá nhân anh thích nó hơn các ngôn ngữ lập trình khác.

Nội dung

Lộ trình học tập là gì?

Lộ trình học tập là một bản đồ kỹ năng với nhiều cấp độ, nhiều chi tiết về những kỹ năng bạn muốn trau dồi, cách bạn đo lường kết quả đạt được ở mỗi cấp độ .

Trong lộ trình học về khoa học dữ liệu này, bạn sẽ thấy tầm quan trọng của từng cấp độ dựa trên mức độ phức tạp và tính phổ biến của ứng dụng ứng dụng trong thế giới thực. Bạn cũng thấy thời gian ước tính cho người mới bắt đầu để hoàn thành từng cấp độ với các bài tập và dự án.

Dưới đây là kim tự tháp mô tả các kỹ năng cấp cao theo thứ tự phức tạp và ứng dụng của chúng trong ngành khoa học dữ liệu

Lộ trình học khoa học dữ liệu theo thứ tự từ menu đơn giản đến phức tạp

Mô hình trên là một khuôn khổ cơ sở mà chúng ta sẽ dựa vào đó để thiết lập lộ trình học tập dữ liệu khoa học cho mình. C húng ta sẽ đi sâu vào từng tầng với các chi tiết cụ thể hơn, có thể đo lường được. Trong đó có đề cập người dùng có thể tham gia kiểm tra các kiến ​​thức quan trọng và các nguồn lực cần thiết để nắm bắt các chủ đề đó.

Bạn có thể đo lường khả năng thu thập kiến ​​thức bằng cách áp dụng các chủ đề đã học vào một số dự án trong thế giới thực. Bạn có thể tìm thấy một số ý tưởng về dự án, cổng thông tin và nền tảng nền có thể sử dụng để đo lường mức độ thành công của mình.

1. Học về lập trình hoặc kỹ thuật lập trình

Need time time time. 2 – 3 tháng

Đầu tiên, hãy chắc chắn rằng bạn có kỹ năng lập trình. Mọi công việc liên quan đến khoa học dữ liệu đều yêu cầu kiến ​​thức về lập trình trong ít nhất một ngôn ngữ.

Các chủ đề thiết lập trình cụ thể cần biết

  • Cấu trúc dữ liệu phổ biến cấu trúc [kiểu dữ liệu, danh sách, từ điển, bộ, bộ], viết hàm, logic, điều khiển luồng, thuật toán tìm kiếm và sắp xếp, lập trình hướng đối tượng và làm việc với thư viện bên ngoài
  • SQL file command. Truy vấn cơ sở dữ liệu bằng cách sử dụng các phép kết nối, tổng hợp và truy vấn con [liên kết, tập hợp và truy vấn con]
  • Sử dụng Terminal tốt, công cụ kiểm tra phiên bản trong Git và sử dụng GitHub

Các nguồn tài liệu và từ khóa học về Python

  • learnpython. org [miễn phí] – Tài nguyên miễn phí để học Python [và các ngôn ngữ khác] c ho người mới bắt đầu. Nó bao gồm tất cả các chủ đề thiết lập chương trình cơ bản từ đầu. Bạn có thể thực hiện các chủ đề ngay trên đó.
  • Kaggle [miễn phí]  – hướng dẫn tương tác học python. Đây là một hướng dẫn rút gọn bao gồm tất cả các chủ đề quan trọng của khoa học dữ liệu.
  • Chứng nhận Python trên freeCodeCamp [miễn phí] – freeCodeCamp cung cấp một số chứng chỉ dựa trên Python, chẳng hạn như tính toán khoa học, phân tích dữ liệu và học máy.
  • Khóa học Python của freecodecamp trên YouTube [miễn phí] –   Khóa học kéo dài 5 giờ mà bạn có thể theo học để thực hiện các khái niệm cơ bản.
  • Python trung cấp  [miễn phí] – một khóa học miễn phí liên quan đến khoa học dữ liệu khác của Patrick trên freecodecamp. tổ chức
  • Coursera Python for Everyone Specialization [có trả phí] – Khóa học này   bao gồm các khái niệm cấp độ mới bắt đầu, cấu trúc dữ liệu python, thu thập dữ liệu từ .
  • Bắt đầu học Python với Hướng dẫn Python [Làm quen với Python]. Công cụ này dành cho tất cả những ai muốn học ngôn ngữ lập trình Python, cho dù bạn là người mới bắt đầu hay đã là chuyên nghiệp

Tài liệu học về Git và GitHub

  • Hướng dẫn Git và GitHub [miễn phí]. hoàn thành các hướng dẫn và phòng thí nghiệm để phát triển khả năng kiểm tra giám sát phiên bản một cách chắc chắn. Nó sẽ hữu ích cho bạn trong việc đóng góp cho các dự án nguồn mở.
  • Khóa học Git và khóa học cấp tốc GitHub trên kênh YouTube freeCodeCamp

Tài liệu học SQL

  • Giới thiệu về SQL và SQL nâng cao trên Kaggle
  • Datacamp cũng có nhiều từ khóa học về SQL
  • Khóa học về SQL và Cơ sở dữ liệu trên kênh YouTube freeCodeCamp

Kiểm tra kiến ​​thức

Bạn có thể kiểm tra kiến ​​thức chuyên môn của mình bằng cách giải quyết nhiều vấn đề và xây dựng ít nhất 2 dự án

  • Có rất nhiều vấn đề để bạn giải quyết ở đây. HackerRank [cho người mới bắt đầu] và LeetCode [có các vấn đề từ dễ đến khó]
  • Trích xuất dữ liệu từ trang web / điểm cuối API- cố gắng viết lệnh Python trích xuất dữ liệu từ trang web cho phép trích xuất dưới dạng soundcloud. com. Lưu trữ dữ liệu được trích xuất thành tệp CSV hoặc cơ sở dữ liệu SQL.
  • Viết các trò chơi như oẳn tù tì, kéo sợi, treo cổ, mô phỏng lăn xúc xắc, tic-tac-toe, v. v
  • Viết các ứng dụng web đơn giản như trình tải xuống video YouTube, trình chặn trang web, trình phát nhạc, trình kiểm tra đạo văn, v. v

Triển khai các dự án này trên trang GitHub hoặc chỉ cần lưu trữ mã trên GitHub để bạn học cách sử dụng Git

2. Học về thu thập và sắp xếp dữ liệu [Data Collection & Sắp xếp]

Need time time time. 2 tháng

  • Một phần quan trọng của công việc khoa học dữ liệu là tập trung vào việc tìm kiếm dữ liệu phù hợp để giúp bạn giải quyết vấn đề của mình. Bạn có thể thu thập dữ liệu từ các nguồn hợp pháp khác nhau – có hỗ trợ [nếu trang web cho phép], API, Cơ sở dữ liệu và các kho lưu trữ có sẵn công khai.
  • Sau khi bạn có dữ liệu trong tay, nhà phân tích thông thường sẽ tự tìm cách làm sạch các tệp dữ liệu [dataframes], làm việc với các mảng đa chiều, sử dụng tính toán mô tả / khoa học và thao tác với dataframes để
  • Dữ liệu xa khi sạch và được định dạng để sử dụng trong “thế giới thực”. Pandas and NumPy is hai thư viện cho phép bạn chuyển dữ liệu từ dữ liệu xấu sang dữ liệu sẵn sàng phân tích.
  • Khi bạn bắt đầu cảm thấy thoải mái khi viết các chương trình Python, hãy bắt đầu tham gia các bài học về cách sử dụng các thư viện như panda và numpy

Tài liệu và từ khóa học về tập hợp và làm sạch dữ liệu

  • Thao tác dữ liệu sử dụng pandas [miễn phí] –  một khóa học tương tác từ datacamp có thể giúp bạn nhanh chóng bắt đầu thao tác dữ liệu bằng Pandas. Tìm hiểu cách thêm chuyển đổi, tổng hợp, tập hợp con và lập chỉ mục tệp dữ liệu.
  • Hướng dẫn sử dụng Kaggle pandas [miễn phí]  - hướng dẫn thực hiện rút gọn và thú tiêu sẽ chỉ cho bạn các kỹ năng thao tác dữ liệu thường được sử dụng.
  • Key học Data Cleaning do Kaggle
  • Các khóa học trên freeCodeCamp về Numpy, Pandas, matplotlib và seaborn [miễn phí]
  • Khóa học Coursera về Giới thiệu Khoa học Dữ liệu trong Python [miễn phí] –  Đây là khóa học đầu tiên về Khoa học Dữ liệu Ứng dụng với Chuyên ngành Python

Ý tưởng về dự án thu thập dữ liệu

  • Thu thập dữ liệu từ một trang web / API [mở cho sử dụng công khai] mà bạn chọn và chuyển đổi dữ liệu để lưu trữ từ các nguồn khác nhau thành một tệp hoặc bảng tổng hợp [DB]. Các API mẫu bao gồm TMDB, quandl, Twitter API, v. v.
  • Chọn bất kỳ tệp dữ liệu nào có sẵn công khai và xác định một bộ câu hỏi mà bạn muốn theo đuổi sau khi xem tệp dữ liệu và tên miền. Thu thập dữ liệu để tìm ra câu trả lời cho những câu hỏi đó bằng cách sử dụng Pandas và NumPy.

3. Học về Phân tích dữ liệu khám phá, Sự nhạy bén trong kinh doanh, Kể chuyện

Need time time time. 2-3 tháng

Một số thuật ngữ

  • Phân tích dữ liệu khám phá. Thăm dò phân tích dữ liệu, là phương pháp phân tích dữ liệu chủ yếu sử dụng các kỹ thuật về biểu đồ, vẽ, cho phép bạn phát triển ý chính về dữ liệu của bạn
  • Sự nhạy bén trong kinh doanh. Nhạy bén kinh doanh
  • Kể chuyện dữ liệu. To talk by data

Giai đoạn tiếp theo cần nắm giữ là phân tích dữ liệu và kể chuyện. Rút thông tin chi tiết từ dữ liệu và sau đó truyền đạt thông tin tương tự bằng thuật ngữ và hình ảnh hóa đơn giản là nhiệm vụ cốt lõi của Nhà phân tích dữ liệu.

Phần kể chuyện yêu cầu bạn phải thành công với công việc trực tiếp hóa dữ liệu cùng với kỹ năng giao tiếp tốt

Các chủ đề về phân tích dữ liệu thăm dò và dữ liệu kể chuyện

  • Phân tích dữ liệu thăm dò [Exploratory data analysis]. xác định câu hỏi, xử lý các giá trị bị thiếu, giá trị ngoại lai, định dạng, lọc, phân tích đơn biến và đa biến.
  • Trực quan hóa dữ liệu [Trực quan hóa dữ liệu]. vẽ dữ liệu bằng các thư viện như matplotlib, seaborn và plotly. Biết cách chọn biểu đồ phù hợp để truyền đạt kết quả từ dữ liệu.
  • Phát triển bảng điều khiển [dashboards ]. phần lớn các nhà phân tích chỉ sử dụng Excel hoặc một công cụ chuyên dụng như Power BI và Tableau để xây dựng bảng điều khiển tóm tắt và tổng hợp dữ liệu Giúp các nhà quản lý đưa ra quyết định .
  • Nhạy bén kinh doanh [Sự nhạy bén trong kinh doanh]. đưa ra những câu hỏi phù hợp, những câu hỏi thực sự nhắm mục tiêu đến các số kinh doanh duy nhất. Thực hành viết báo cáo, blog và trình bày rõ ràng và rút gọn.

Tài liệu và từ khóa học về phân tích dữ liệu

  • Hướng nghiệp về Phân tích dữ liệu - cung cấp bởi datacamp. Một danh sách các nghiên cứu từ khóa tương tác mà bạn có thể tham khảo cùng với các nghiên cứu điển hình trong thế giới thực mà họ sử dụng trong khi giảng dạy. Nhưng hãy làm việc với các dự án của riêng bạn sau khi học xong chuyên môn.
  • Data Analysis with Python  – key learning of IBM trên Coursera. Key học bao gồm sắp xếp dữ liệu [sắp xếp], phân tích thăm dò [phân tích thăm dò] và mô hình phát triển đơn giản sử dụng python
  • Học phân tích dữ liệu bằng cách sử dụng python Python- khóa học miễn phí trên kênh YouTube freeCodeCamp
  • Trực quan hóa dữ liệu – của Kaggle. Một khóa học tương tác khác cho phép bạn thực hiện tất cả các kỹ thuật thường được sử dụng.
  • Data Visualization with Spreadsheets, Excel, Tableau, Power BI - bạn có thể chọn bất kỳ khóa nào bạn cần
  • Xây dựng giác quan sản phẩm và sự nhạy bén trong kinh doanh với các cuốn sách sau . Đo lường những gì quan trọng, Giải mã và chinh phục, Bẻ khóa cuộc phỏng vấn PM.

Ý tưởng dự án phân tích dữ liệu

  • Phân tích khám phá trên tệp dữ liệu điện ảnh để tìm công thức tạo phim có lợi nhuận [sử dụng nó làm nguồn cảm hứng], sử dụng tệp dữ liệu từ y tế, tài chính, WHO, điều tra dân số trước đây, . v
  • Tạo bảng điều khiển [jupyter notebooks, excel, tableau] bằng cách sử dụng các tài nguyên được cung cấp ở trên

4. Tìm hiểu về Kỹ thuật Dữ liệu

Need time time time. 4-5 tháng

Kỹ thuật dữ liệu [kỹ thuật dữ liệu] hỗ trợ các nhóm R&D bằng cách cung cấp dữ liệu sạch cho các kỹ sư nghiên cứu và nhà khoa học tại các công ty dựa trên dữ liệu lớn. Bản thân nó là một lĩnh vực và bạn có thể quyết định bỏ qua phần này nếu bạn chỉ muốn tập trung vào khía cạnh thuật toán hệ thống thống kê của các vấn đề.

Các trách nhiệm của một kỹ sư dữ liệu bao gồm việc xây dựng một hiệu quả kiến ​​trúc dữ liệu, hợp lý hóa công việc xử lý dữ liệu và duy trì các hệ thống dữ liệu quy mô lớn

Các kỹ sư sử dụng Shell [CLI], SQL và Python / Scala để tạo đường ống ETL, tự động hóa các tác vụ của hệ thống tệp và tối ưu hóa các cơ sở dữ liệu hoạt động để làm cho chúng có hiệu suất cao

Một kỹ năng quan trọng khác là phát triển các kiến ​​trúc dữ liệu này yêu cầu sự thành công về các nhà cung cấp dịch vụ đám mây như AWS, Google Cloud Platform, Microsoft Azure, v. v

Tài liệu để học kỹ thuật dữ liệu

  • Data Engineering Nanodegree on Udacity -   khóa học về kỹ thuật dữ liệu bao gồm tất cả các khái niệm cần học.
  • Giới thiệu về Kỹ thuật dữ liệu  - trên datacamp. Một khóa học rất hữu ích về xây dựng đường ống ETL [Trích xuất, chuyển đổi và tải] với một loạt công cụ
  • Kỹ thuật dữ liệu, Dữ liệu lớn và Máy học trên Chuyên môn GCP  – Bạn có thể học các chuyên đề này do Google cung cấp trên Coursera. Key học sẽ hướng dẫn bạn thông qua tất cả các API và dịch vụ chỉnh sửa chính do GCP [Google Cloud Platform] cung cấp để xây dựng một giải pháp dữ liệu hoàn chỉnh.

Ý tưởng dự án và chứng chỉ

  • AWS Certified Machine Learning   –  Một bằng chứng duy nhất do AWS cấp sẽ tăng cường thêm sức mạnh cho hồ sơ của bạn,. Yêu cầu là bạn phải hiểu rõ về các dịch vụ AWS và ML.
  • Professional Data Engineer  – Chứng nhận GCP [Goole Cloud Platform] cung cấp. Đây cũng là một kỳ thi được giám sát và đánh giá khả năng của bạn trong quá trình thiết kế hệ thống xử lý dữ liệu, khai thác mô hình máy học trong môi trường sản xuất, đồng thời .

5. Tìm hiểu về ứng dụng thống kê và toán học

Need time time time. 4-5 tháng

Phương pháp thống kê là một phần trung tâm của khoa học dữ liệu. Hầu hết tất cả các cuộc phỏng vấn khoa học dữ liệu chủ yếu tập trung vào thống kê mô tả và suy luận.

Đa phần mọi người thường bắt đầu viết mã về giải thuật máy học mà không hiểu rõ về các phương pháp thống kê và toán học cơ bản giải thích hoạt động của các thuật toán đó. Tất nhiên, đây không phải là điều nên khuyến khích.

Các chủ đề chính về Thống kê ứng dụng [ Thống kê ứng dụng] và toán học

  • Thống kê mô tả [Descriptive Statistics] – Tìm hiểu về các ước tính của vị trí [trung bình, trung vị, chế độ, thống kê có trọng số, thống kê .
  • Thống kê tham chiếu [Inferential Statistics] – thiết kế kiểm tra giả thuyết, kiểm tra A/B, xác định số liệu kinh doanh, phân tích dữ liệu thu thập và kết quả thử nghiệm bằng cách sử dụng khoảng tin cậy, giá trị
  • Đại số tuyến tính, phép tính đơn và đa biến [Linear Algebra, Single and multivariate calculus] để hiểu các hàm mất mát, gradient và các trình tối ưu hóa trong học máy

Tài liệu và từ khóa học về thống kê và toán học

  • [Sách] Thống kê thực hành cho khoa học dữ liệu [Nên đọc]  –   Hướng dẫn kỹ thuật về tất cả các phương pháp thống kê quan trọng cùng với các ứng dụng / ví dụ rõ ràng .
  • [Sách] Naked Statistics  – một hướng dẫn phi kỹ thuật nhưng chi tiết để hiểu tác động của thống kê số liệu đối với các sự kiện thường ngày, có thể thao tác, hệ thống . .
  • Tìm hiểu về thống kê với khóa học kéo dài 8 giờ trên kênh YouTube freeCodeCamp
  • Tư duy thống kê trong Python  – một khóa học nền tảng để giúp bạn bắt đầu tư duy thống kê.
  • Giới thiệu về Thống kê mô tả – do Udacity cung cấp. Bao gồm các bài giảng video giải thích các kích thước đo lường vị trí và độ biến thiên được sử dụng rộng rãi [độ lệch tâm, phương sai, độ lệch đối trung vị].
  • Inferential Statistics, Udacity  – Khóa học bao gồm các bài giảng video hướng dẫn bạn Rút ra kết luận từ dữ liệu có thể không rõ ràng ngay lập tức. Nó tập trung vào việc phát triển các giả thuyết và sử dụng các bài kiểm tra phổ biến như t-tests, ANOVA và hồi quy.
  • Và hướng dẫn về thống kê cho khoa học dữ liệu để giúp bạn bắt đầu đi đúng hướng.

Ý tưởng dự án về thống kê

  • Giải các bài tập được cung cấp trong các từ khóa học ở trên và sau đó thử xem qua một số bộ dữ liệu công khai nơi bạn có thể áp dụng các khái niệm thống kê này. Đặt những câu hỏi như “Có đủ bằng chứng để kết luận rằng tuổi trung bình của các bà mẹ sinh con ở Boston là trên 25 tuổi với nghĩa là 0,05” không?

Chủ Đề