Ví dụ phân tích dữ liệu python

Tiếp nối series về nghề, mình dành bài viết này chia sẻ về lộ trình + nguồn tự học để trở thành Chuyên viên phân tích dữ liệu dựa trên kinh nghiệm của bản thân trong hành trình 3 năm vừa phải

Nếu như bạn lần đầu đến với blog của mình, mời bạn xem qua bài viết tổng quan nói về kinh nghiệm trở thành DA của mình tại đây

Nếu như bạn là người mới tìm hiểu về nghề Data Analyst, mình xin chào các bạn hãy dành 5 phút để xem qua các công việc thực tế của một DA tại bài viết này. By may mắn, lời khuyên chân thành mà Maz muốn gửi thư đến mọi người [những ai đang tìm hiểu ngành Data và có ý định chuyển đến ngành này], hãy tìm đọc và hiểu thật kỹ giá trị cốt lõi của người phân tích dữ liệu

Rèn luyện các kỹ năng và kiến ​​thức về nghề Phân tích dữ liệu mất bao lâu? . Bạn có thể tự kiểm tra và chọn lọc những gì cần thiết cho bản thân khi đọc qua bài viết nhé

4 tháng là con số ước lượng mà mình nghĩ mọi người hoàn toàn có thể thực hiện được nếu như thật sự quyết tâm và nghiêm túc. Tuy nhiên, học sao cho đúng, cái gì đầu tư học tốt, học sâu?

Ngẫm lại vai trò của Data Analyst. là người tìm kiếm thông tin chi tiết thông qua những con số giúp doanh nghiệp tạo ra những quyết định có cơ sở, cải thiện tình hình doanh nghiệp và chất lượng sản phẩm. Vì vậy DA người phải có năng lực thực hiện công việc ở các giai đoạn. từ chuẩn bị – khám phá – làm mẫu – giao tiếp. Ở đây mình chia sẻ chi tiết các nội dung cần học trong Lộ trình theo từng giai đoạn + nguồn tài liệu kèm theo để mọi người có thể dễ dàng hình dung được kiến ​​thức và kỹ năng áp dụng vào công việc làm phân tích

I. Cần gì để chuẩn bị dữ liệu tốt?

Có 2 yêu cầu cần DA đạt được ở giai đoạn này

  1. Hiểu được kiến ​​thức tổng quan về cơ sở dữ liệu, đặc biệt là cơ sở dữ liệu quan hệ, lược đồ, bảng, ràng buộc

Nguồn. https. //www. youtube. com/watch?v=vOk3X2_GOCM. Đây là video mà mình thấy trình bày nhẹ nhàng tình cảm, mang đến cho các bạn cái nhìn tổng quan nhất. Phần nào chưa rõ các bạn cứ google thêm nhé. Nếu có thời gian, hãy “ngó” qua các khái niệm “SQL vs NoSQL” ở đây nữa nhé

2. Thực hiện công việc truy vấn, chuyển đổi, lập hồ sơ dữ liệu từ cơ sở dữ liệu. Can to use SQL or Python

SQL. Bạn cần nắm bắt được các phần chính sau đây

  • Ngôn ngữ SQL được hiểu là có thể được thao tác trên nhiều công cụ/nền tảng [SQL Sever Management Studio, Google BigQuery,…] và nền tảng khác [Redash, Metabase, Superset,…] tùy thuộc vào từng công ty đang sử dụng cái nào
  • Thành công các câu lệnh SQL mà Data Analyst thường sử dụng
    • Chọn + Từ câu lệnh
    • tuyên bố ở đâu
    • Chức năng Group By + Window
    • tham gia chức năng

nguồn

  • Hướng dẫn Cơ bản + Trung cấp của Alex The Analyst
  • hướng dẫn chi tiết. https. //www. youtube. com/playlist?list=PL08903FB7ACA1C2FB
  • Món ăn. Mình chưa từng học qua các khóa học nào cả, tuy nhiên có review một kiểu như mình thấy khóa học này của Khan Academy hoặc của Linkedin
  • Hoặc bạn có thể tham khảo nội dung trong từ khóa SQL của mình xây dựng

Nội dung chi tiết tại. Dữ liệu Mã Học. Không chỉ có kiến ​​thức SQL mà Maz còn cung cấp cho bạn các phương pháp phân tích biến phổ biến, giúp bạn tiến gần hơn với công việc phân tích dữ liệu

TRĂN. used in this phase

  • Đọc và ghi các tệp văn bản, tệp Microsoft excel
  • Làm việc với JSON
  • Làm quen với thư viện Numpy và Pandas để có thể sắp xếp dữ liệu
    • Xử lý các giá trị bị thiếu
    • Dọn dẹp & định dạng dữ liệu từ nhiều nguồn dữ liệu. Hợp nhất, nối, kết hợp các khung dữ liệu, xoay vòng, ánh xạ, thay thế, nhóm theo, …

nguồn. Mình sẽ đề cập ở phần tiếp theo

II. Khám phá dữ liệu là tiêu điểm

Trong giai đoạn này, mục tiêu chính của bạn là “khai phá” ý nghĩa của dữ liệu để đưa ra những hiểu biết sâu sắc. Vì thế bạn cần có sự kết hợp hài hòa giữa kiến ​​thức miền + kỹ thuật thống kê + kỹ năng trực quan + chiến lược giải quyết vấn đề

  1. Trau dồi kĩ năng giải toán và lĩnh vực kiến ​​thức

Khi bạn đủ hiểu về mảng công việc mình đang làm [tiếp thị, rủi ro, tài chính,…], bạn sẽ có đủ kiến ​​thức và kinh nghiệm để biết rõ từng con số, nguyên nhân gốc rễ có thể xảy ra đối với bài toán mà bạn đang giải quyết. . Khi đã hiểu rõ rồi thì việc giải quyết như thế nào là tính logic đầy đủ, có hệ thống để đảm bảo không bỏ sót những khía cạnh của vấn đề, kỹ năng giải quyết vấn đề sẽ giúp bạn chuyện này

KIẾN THỨC MIỀN. Mình khuyến khích bạn hãy tập trung vào một lĩnh vực mà mình đang theo đuổi hoặc vị trí hiện tại đang làm việc để bắt đầu đào tạo chuyên sâu. Trong quá trình làm việc và tìm hiểu thêm, mình đã tổng hợp lại một số nguồn tham khảo

  • Kiến thức tổng thể. Gary Fox – nhà tư vấn chiến lược và đổi mới [https. //www. garyfox. co/], rất nhiều câu chuyện về sự kết hợp giữa kinh doanh với các giải pháp kỹ thuật và kỹ thuật số trong suốt quá trình làm nghề của tác giả
  • Sách về Marketing Analytics. Nguồn tổng hợp chất lượng của The I Concept
  • Phân tích sản phẩm. trường sản phẩm

GIẢI QUYẾT VẤN ĐỀ

  • Hãy bắt đầu với cuốn sách kinh điển bàn về phương pháp giải quyết vấn đề thông qua những bài tập tình huống của “con cưng” cực dễ hiểu Giải toán 101
  • Cuốn sách dạy về chiến lược giải quyết vấn đề chi tiết, cực kỳ giá trị “Một kỹ năng thay đổi mọi thứ”

2. Áp dụng thống kê

Các kỹ thuật thống kê kỹ thuật là vô cùng cần thiết trong quá trình “khám phá” dữ liệu ở những bước đầu tiên, khi bạn mới tiếp xúc với dữ liệu. Vì thế hãy chắc chắn rằng bạn có thể xác định ý nghĩa và sử dụng số liệu thống kê hợp lý trong giai đoạn làm EDA [Phân tích dữ liệu khám phá]

  • Hiểu và phân biệt các chủ đề. Loại dữ liệu, thống kê mô tả, thống kê suy luận
  • Nắm chắc phần kiến ​​thức vô cùng quan trọng là thống kê mô tả
    • Biến phân loại và số
    • Ý nghĩa của biểu đồ, biểu đồ phân tán và biểu đồ hộp
    • The only number. trung bình, trung vị, chế độ, độ lệch chuẩn và hệ số biến thiên

nguồn

  • YouTube
    • Đây là kênh dạy Thống kê cực kì thú vị và dễ hiểu mà mình tâm đắc nhất StatQuest với Josh Starmer
    • Kênh thứ hai của mình hay tham khảo với những nội dung mà StatQuest không có là MarinStatsLectures
  • khóa học. Đây là 1 khóa mình đã tham gia trên Udemy với giá 13$ Statistics for Data Science and Business Analysis cho bạn một bức tranh toàn cảnh về thống kê

3. Sử dụng các công cụ BI [Công cụ trực quan hóa dữ liệu] cũng như được EDA

Với mình, các công cụ BI có thể giúp Data Analyst thực hiện rất tốt công việc phân tích dữ liệu. Bởi khả năng trực quan hóa vô cùng dễ dàng sẽ giúp chúng ta tìm ra nhanh chóng những hiểu biết mong muốn. Vậy thì mình cần học điều gì ở đây?

  • Nắm chắc kiến ​​thức về ý nghĩa của các loại biểu đồ. Cách chọn biểu đồ phù hợp cho dữ liệu của bạn
  • Ngoài ra, làm bảng điều khiển cũng là một công việc cần thiết của DA. Hãy đọc kinh nghiệm tạo ra một bảng điều khiển hiệu quả của mình tại bài viết này nhé

Chắc chắn ai cũng hay được nói nhiều về Tableau, Power BI, Qlik, Google Data Studio,… Đây chắc chắn là những công cụ BI phổ biến nhất trên thị trường hiện nay. Ở đây mình sẽ không so sánh chất lượng giữa các công cụ, vì mỗi sản phẩm sẽ vượt trội ở một tính năng riêng. Nhưng với kinh nghiệm của mình, việc chọn học những công cụ phổ biến hơn [có cơ hội được sử dụng ở nhiều công ty] thì sẽ là Tableau và Power BI

Nguồn. dxsherpa. com

nguồn

  • Hoạt cảnh
    • Bạn có thể làm theo Hướng dẫn tự học Tableau Data Visualization hiệu quả của anh Hiếu Hoàng
    • Kênh youtube mọi thứ về Tableau
  • điện BI
    • Avi Singh – PowerBI from the base to upgrade
    • Guy in a Cube – Series PowerBI phù hợp với người mới bắt đầu
  • Sách về Business Intelligence. Book or about BI

4. Python – là ngôn ngữ hiện tại mình dùng làm EDA mỗi ngày

Hiện nay, Python thường là một yêu cầu tùy chọn trong các cuộc tuyển dụng vị trí JD Data Analyst tại các công ty Việt Nam. Tuy nhiên, thị trường ngày một phát triển hơn vì thế trong vài năm tới Python cũng sẽ trở nên phổ biến như SQL của hiện tại. Với mình, việc sử dụng Python làm EDA là một “phương pháp hay nhất”. Mời bạn xem qua “đầu ra” của công việc EDA với Python sẽ như thế nào nhé [Bạn có thể xem đầy đủ bài phân tích của DMITRY UAROV tại đây. ]

Python không thể truy vấn dữ liệu mà còn có nhiều thư viện hỗ trợ chúng ta dọn dẹp, chuyển đổi, thống kê và trực quan hóa. Cùng mình tham khảo các nội dung cần thiết và nguồn học Python thôi

  • Numpy và Pandas cần thiết cho công việc dọn dẹp, chuyển đổi và phân tích dữ liệu
    • Python hướng dẫn numpy
    • Hướng dẫn Pandas [Phân tích dữ liệu bằng Python]
  • Matplotlib & Seaborn hỗ trợ công việc trực quan hóa dữ liệu với các thư viện vẽ đầy đủ các loại biểu đồ
    • Hướng dẫn Matplotlib
    • Hướng dẫn Python Seaborn
    • File mã mẫu jupyter notebook seaborn

III. Lập mô hình & Đánh giá

Với mình, công việc áp dụng các mô hình thuật toán vào phép phân tích để giải quyết cho Predictive Analytics yêu cầu sự hiểu biết và thực thi Machine Learning tốt. Tuy nhiên, đầu vào của các mô hình Machine Learning thường là các tính năng được tìm thấy từ bước phân tích mô tả và chẩn đoán. Điều này có nghĩa là bạn phải hiểu rõ bài toán, vấn đề đang giải quyết, làm rõ EDA để có thể tạo đầu vào cho bước mô hình hóa

Trong hành trình 3 năm qua, mình may mắn được làm việc cùng với nhóm có cả các bạn Data Engineer và Data Scientist, nên có thể hiểu được phần nào tính chất công việc của cả 2 vị trí này. Mình đã từng có ý định học Machine Learning ngay từ những ngày đầu bước vào nghề DA, nhưng lúc đó anh leader đã ngăn mình lại và bảo, hãy học và làm tốt bài toán mô tả và chẩn đoán trước khi bắt đầu với Modeling. Vì thế mãi đến tận bây giờ, khi mình thật sự đủ hiểu về cái nghề Data Analyst, mình mới đăng ký khóa học Machine Learning đầu tiên

  • Rất khuyến khích khóa ML bất hủ của Andrew Ng với mọi người nhé

IV. Truyền đạt thông tin chi tiết sẽ đóng chốt thành quả

90% thời gian DA sẽ dành để làm việc với dữ liệu, ước tính chỉ 10% còn lại được sử dụng để giao tiếp và trình bày kết quả mình làm ra với đối tác và trò chơi. Nhưng mà, 10% quyết định lại thành công hay thất bại của 90% thành công. Vì thế kỹ năng giao tiếp và thuyết trình là những kỹ năng tuyệt vời đối với người DA không thể lơ là

3 Tips giúp mình thực hiện truyền thông insight khách quan hơn

  • Luôn nhớ Data Storytelling là vô cùng quan trọng. Làm EDA bạn sẽ tìm ra rất rất rất là nhiều hiểu biết, nhưng cái nào thật sự quan trọng và ý nghĩa với kinh doanh và bài toán mà bạn đang đối mặt thì mới chọn nó. Hãy đọc cái gối đầu giường này để củng cố tư duy trình bày dữ liệu nhé
  • Khi mình thuyết trình, ngoài sự hiểu biết sâu sắc mọi ngóc ngách thông tin từ dữ liệu để luôn sẵn sàng trả lời mọi câu hỏi tốt nhất có thể. Mình luôn tâm niệm trong suy nghĩ. Tập trung vào khán giả của tôi. Quan sát, dự đoán cảm xúc và suy nghĩ của người nghe trong khi trình bày, nó giúp các thông điệp mình truyền tải tăng độ thu hút và hiệu quả bài thuyết trình cũng tăng theo
  • Trước khi làm slide deck hay thuyết trình, hãy đặt mình vào vị trí khán giả [họ là ai và họ muốn gì] để tìm ra một cục diện và mạch truyện tốt nhất để có thể thực hiện

V. Build Portfolio và Resume

Đây là bước cuối cùng nhưng lại là công việc mà mình phải làm từ nay và cả về sau cho sự nghiệp. Trong suốt quá trình trau dồi kiến ​​thức và kỹ năng ở trên, bạn đều thực hành với dữ liệu thực tế. Vì thế hãy sử dụng chúng để tạo nên một “hồ sơ năng lực” nhếch nhác hơn mỗi ngày nhé

  • 2 bài viết đầu tiên của mình về xây dựng portfolio với SQL và Tableau
  • Bạn có thể tham khảo hướng dẫn khá chi tiết của Alex The Analyst

Kết quả

Học cái gì trước, cái gì sau? . Đồng thời ở mỗi chủ đề mình cũng đã nói chi tiết các điểm chính trong công việc của Data Analyst mà mình cần đầu tư lĩnh vực hội

Maz không phải là một chuyên gia xuất sắc trong lĩnh vực dữ liệu, nhưng Maz biết hành trình đến với nghề Data Analyst nhiều gian truân đến mức nào. Hi vọng câu chuyện của mình sẽ giúp các bạn rút ngắn khoảng thời gian đang có trên con đường từng bước chân vào nghề phân tích dữ liệu. Nếu thấy hữu ích thì giúp mình chia sẻ với mọi người nhé

Đôi lời tâm sự. Trong các bài viết trước, Maz nhận được rất nhiều câu hỏi mà các bạn gửi tin nhắn. Một trong những lời nhắn nhủ là Maz hãy ra bài viết thường xuyên hơn. Maz rất vui vì nhận được sự quan tâm của mọi người, nhưng bản thân Maz tâm niệm rằng, việc chia sẻ những nội dung liên quan đến kiến ​​thức thì mình phải thật sự cẩn trọng và kỹ năng khéo léo để hạn chế những sai sót đã xả hết ra . Vì thế tần suất ra blog mới có hơi lâu nhưng hi vọng vẫn mang lại những nội dung chất lượng với mọi người

Theo dõi Maz tại đây để cùng cập nhật thông báo mỗi khi có bài viết mới nhé

  • trang chủ. Maz học Data & Lucas học Product
  • Cộng đồng cùng Maz học Data
  • liên kết
  • Facebook
  • TikTok

** Mọi thông tin trên blog đều thuộc bản quyền của blog Maz Nguyen. Vui lòng đọc kỹ Thông báo bản quyền trước khi sao chép hoặc đăng tải lại nội dung/hình ảnh của bài viết **

—————————————————————————————————–

Maz có một dự án dạy học ở đây. Maz Học Data với SQL là khóa học đầu tiên, bạn có thể tham khảo qua nếu thấy cần thiết nhé

Chủ Đề