Python cho nhà khoa học dữ liệu

Khám phá lĩnh vực Khoa học dữ liệu và Phân tích mới nổi và tìm hiểu cách bạn có thể hiểu sâu hơn về dữ liệu để cải thiện hoạt động kinh doanh của mình

Trong hội thảo kéo dài hai ngày này, bạn sẽ tìm hiểu các nguyên tắc cơ bản về trích xuất và phân tích dữ liệu về cách bạn có thể rút ra những hiểu biết hữu ích và nâng cao khả năng ra quyết định của mình. Bạn cũng sẽ có thể áp dụng một loạt các kỹ thuật thống kê cho phép máy móc cải thiện các tác vụ bằng kinh nghiệm và thực hiện các phân tích dự đoán

Vui lòng mang theo máy tính xách tay của riêng bạn để thực hành các bài tập. Giảng viên của chúng tôi sẽ chia sẻ các tệp cài đặt cho Python cũng như trình chỉnh sửa mã nguồn cần thiết trong lớp học. Các thư viện bổ sung cũng sẽ được cài đặt trong hội thảo

Ai nên tham gia?

Khóa học này được thiết kế cho những người tham gia có hiểu biết cơ bản về Python và những cá nhân muốn hiểu sâu hơn bằng cách sử dụng dữ liệu

Mục tiêu học tập

Sau khi hoàn thành khóa học này, bạn sẽ hiểu sâu hơn và có kiến ​​thức trong các chủ đề sau

  • Môi trường ảo Python
  • Các thư viện nổi tiếng được sử dụng cho Khoa học dữ liệu
  • Trực quan hóa dữ liệu
  • học máy
  • Học có giám sát và không giám sát
  • kỹ thuật hồi quy
  • kỹ thuật phân loại
  • kỹ thuật phân cụm

Yêu cầu đầu vào

Kiến thức lập trình trước và hiểu biết cơ bản về Python

chứng nhận

Những người tham gia sẽ được cấp chứng chỉ hoàn thành khi đáp ứng yêu cầu tham dự khóa học 75%

Đối với các khóa học có phần đánh giá, học viên sẽ được cấp chứng nhận hoàn thành khi vượt qua bài đánh giá. Nếu không, chứng nhận tham dự sẽ được cấp thay thế khi đáp ứng yêu cầu tham dự khóa học 75%

Trong thời đại thông tin, dữ liệu ở xung quanh chúng ta. Trong dữ liệu này là câu trả lời cho các câu hỏi hấp dẫn trên nhiều lĩnh vực xã hội [chính trị, kinh doanh, khoa học, v.v. ]. Nhưng nếu bạn có quyền truy cập vào một tập dữ liệu lớn, liệu bạn có thể tìm thấy câu trả lời mà mình tìm kiếm không?

Khóa học này, một phần của chương trình MicroMasters về Khoa học dữ liệu, sẽ giới thiệu cho bạn bộ sưu tập các công cụ mã nguồn mở, mạnh mẽ cần thiết để phân tích dữ liệu và tiến hành khoa học dữ liệu. Cụ thể, bạn sẽ học cách sử dụng

  • con trăn
  • máy tính xách tay jupyter
  • gấu trúc
  • cục mịch
  • matplotlib
  • git
  • và nhiều công cụ khác

Bạn sẽ học tất cả các công cụ này trong bối cảnh giải quyết các vấn đề khoa học dữ liệu hấp dẫn

Sau khi hoàn thành khóa học này, bạn sẽ có thể tìm thấy câu trả lời trong các tập dữ liệu lớn bằng cách sử dụng các công cụ python để nhập dữ liệu, khám phá, phân tích, học hỏi từ dữ liệu đó, trực quan hóa dữ liệu và cuối cùng tạo báo cáo có thể chia sẻ dễ dàng

Bằng cách học những kỹ năng này, bạn cũng sẽ trở thành thành viên của một cộng đồng trên toàn thế giới nhằm tìm cách xây dựng các công cụ khoa học dữ liệu, khám phá các bộ dữ liệu công khai và thảo luận về các phát hiện dựa trên bằng chứng. Cuối cùng nhưng không kém phần quan trọng, khóa học này sẽ cung cấp cho bạn nền tảng cần thiết để thành công trong các khóa học sau này trong chương trình MicroMasters về Khoa học dữ liệu

“Khoa học dữ liệu” chỉ là một thuật ngữ rộng như chúng xuất hiện. Có thể dễ dàng nhất để mô tả nó là gì bằng cách liệt kê các thành phần cụ thể hơn của nó

Khám phá và phân tích dữ liệu

  • Bao gồm ở đây. gấu trúc;

Trực quan hóa dữ liệu. Một cái tên khá dễ hiểu. Lấy dữ liệu và biến nó thành thứ gì đó đầy màu sắc

  • Bao gồm ở đây. Matplotlib;

Học máy cổ điển. Về mặt khái niệm, chúng ta có thể định nghĩa đây là bất kỳ nhiệm vụ học tập có giám sát hoặc không giám sát nào không phải là học sâu [xem bên dưới]. Scikit-learning là công cụ cần thiết để thực hiện phân loại, hồi quy, phân cụm và giảm kích thước, trong khi StatsModels ít được phát triển tích cực hơn nhưng vẫn có một số tính năng hữu ích

  • Bao gồm ở đây. Scikit-Learn, StatsModels

Học kĩ càng. Đây là một tập hợp con của máy học đang được phục hưng và thường được triển khai với Keras, trong số các thư viện khác. Nó đã chứng kiến ​​những cải tiến vượt bậc trong khoảng 5 năm qua, chẳng hạn như AlexNet vào năm 2012, đây là thiết kế đầu tiên kết hợp các lớp tích chập liên tiếp

  • Bao gồm ở đây. Keras, TensorFlow và nhiều thứ khác

Lưu trữ dữ liệu và khung dữ liệu lớn. Dữ liệu lớn được định nghĩa tốt nhất là dữ liệu quá lớn theo nghĩa đen để nằm trên một máy hoặc không thể xử lý nếu không có môi trường phân tán. Các ràng buộc Python với các công nghệ Apache đóng vai trò quan trọng ở đây

  • Tia lửa Apache;

Vụn vặt. Bao gồm các chủ đề phụ như xử lý ngôn ngữ tự nhiên và thao tác hình ảnh với các thư viện như OpenCV

Áp dụng Python như một công cụ khoa học dữ liệu để lập trình và phân tích kinh doanh. Tìm hiểu các phương pháp hay nhất về khai thác và phân tích dữ liệu với khóa học này tại Singapore

Tổng quan về nhiên

Trong thời đại mà dữ liệu phổ biến, điều quan trọng là phải thành thạo các công cụ cho phép chúng tôi trích xuất những hiểu biết, quyết định và sản phẩm hữu ích từ dữ liệu mà chúng tôi thu thập. Python, với nhiều thư viện hợp lý hóa từng phần của quy trình khoa học dữ liệu, là một phần thiết yếu trong bộ công cụ định lượng của chúng tôi. Dựa trên việc xem xét cú pháp Python cơ bản, khóa học này tập trung vào cách chúng ta có thể làm việc và sử dụng dữ liệu tốt hơn bằng Python, từ việc dọn dẹp các bộ dữ liệu lộn xộn, khám phá dữ liệu của chúng ta bằng cách trực quan hóa và thiết lập các mô hình máy học. Cũng cần đề cập rằng Python là ngôn ngữ lập trình số 1 cho DS

Mục tiêu khóa học

Các thư viện mới để thao tác dữ liệu, trực quan hóa và lập mô hình dữ liệu đã khiến Python trở thành một ngôn ngữ khoa học dữ liệu thay thế cho ngôn ngữ R ngày càng thú vị.
Chương trình này nhằm mục đích nhanh chóng nâng cao tốc độ của một lập trình viên hoặc nhà phân tích kinh doanh đã biết cách lập trình bằng Python để bắt đầu sử dụng Python làm công cụ khoa học dữ liệu.
Chương trình sẽ xác định khoa học dữ liệu và khám phá hai điều đầu tiên mà một nhà khoa học dữ liệu phải làm – làm sạch và trực quan hóa dữ liệu. Sau đó, nó sẽ đề cập đến Quy trình công việc khoa học dữ liệu – đào tạo các mô hình và thử nghiệm chúng thông qua việc áp dụng các mô hình máy học cho các vấn đề khoa học dữ liệu liên quan đến ngành khác nhau. Các công cụ được sử dụng sẽ bao gồm nhưng không giới hạn ở Pandas, Scikit-learning và Keras.

Kết quả học tập

Vào cuối khóa học, những người tham gia sẽ có thể

  • Sử dụng Python để trộn dữ liệu cơ bản để tổng hợp, làm sạch và xử lý dữ liệu từ các tệp cục bộ, cơ sở dữ liệu và trực tuyến
  • Tạo trực quan với Matplotlib, Pandas. cốt truyện và Seaborn
  • Tạo các mô hình phân tích từ cơ bản đến trung cấp với Python/Scikit-learning
  • Sử dụng các công cụ trên trong bối cảnh giải quyết các vấn đề khoa học dữ liệu thiết yếu
  • Áp dụng các công cụ Python để nhập dữ liệu từ nhiều nguồn khác nhau, khám phá chúng, phân tích chúng, học hỏi từ chúng, trực quan hóa chúng và chia sẻ chúng

chủ đề

  • Khái niệm cơ bản về Python [I]. Môi trường Python
    • Câu lệnh và thao tác trong Python
    • Chuyển nhượng biến
    • Hàm và Lớp
  • Khái niệm cơ bản về Python [II]
    • Danh sách và Từ điển
    • Câu lệnh điều kiện và vòng lặp
    • Đầu vào/đầu ra tập tin
    • Quản lý gói và môi trường Python
  • Làm việc với nguồn dữ liệu
    • Đọc CSV
    • Rút trích nội dung trang web
    • Tương tác với cơ sở dữ liệu cục bộ và từ xa [ODBC]
    • Đọc từ HTML
  • Dự án nhỏ. Tạo một sản phẩm dữ liệu với Python và Jupyter
  • Khám phá và sắp xếp dữ liệu
    • Sê-ri/Khung dữ liệu
    • Làm sạch dữ liệu
    • phân tích dữ liệu đ. g. , Thống kê mô tả bằng Python
  • Trực quan hóa dữ liệu với matplotlib
    • Kỹ thuật trực quan hóa cơ bản
    • Tạo các công cụ trực quan bằng matplotlib
  • Giới thiệu về Khoa học dữ liệu chính
    • Quá trình phân tích dữ liệu. Học có giám sát và không giám sát
    • Hồi quy và phân loại bằng Scikit Learn
  • Tóm tắt dự án nhỏ [và/hoặc]. Tạo sản phẩm trực quan hóa dữ liệu và phân tích dữ liệu

Ai nên tham gia

Kinh doanh/Nhà phân tích dữ liệu, Lập trình viên, Giám đốc điều hành

điều kiện tiên quyết

Phải quen thuộc với ngôn ngữ lập trình Python hoặc đã tham gia khóa đào tạo Giới thiệu về Python và thống kê 101 ở cấp độ dự bị đại học.  

Ứng dụng phần mềm

Anaconda cho Windows / MacOS

người triệu tập khóa học

[Nhấp vào ảnh của họ để xem tiểu sử ngắn của họ]

ccccc Danny Poo

PGS Danny Poo

PGS Danny Poo

PGS Danny Poo mang trong mình 35 năm kinh nghiệm Quản lý và Kỹ thuật phần mềm, Công nghệ thông tin. Tốt nghiệp Học viện Khoa học và Công nghệ Đại học Manchester [UMIST], Anh, Tiến sĩ Poo hiện là Phó Giáo sư tại Khoa Hệ thống Thông tin và Phân tích, Đại học Quốc gia Singapore. Trước khi gia nhập trường Đại học, Tiến sĩ Poo đã làm việc tại Bộ phận Vận hành Hệ thống tại DBSBank, Singapore

Là thành viên Ban chỉ đạo của Hội nghị Kỹ thuật phần mềm Châu Á-Thái Bình Dương, Tiến sĩ Poo tích cực tham gia vào nghiên cứu Quản lý thông tin và Phân tích chăm sóc sức khỏe. Là một diễn giả nổi tiếng trong các hội thảo, Tiến sĩ Poo đã thực hiện nhiều khóa đào tạo và tư vấn nội bộ cho các tổ chức, cả trong nước và khu vực. Tiến sĩ Poo là tác giả của 5 cuốn sách về Kỹ thuật phần mềm hướng đối tượng, Ngôn ngữ lập trình Java và Enterprise JavaBeans

Thông tin giảng dạy đáng chú ý của Tiến sĩ Poo bao gồm

  • Chiến lược dữ liệu
  • Kể chuyện dữ liệu
  • Trực quan hóa dữ liệu
  • Phân tích dữ liệu
  • Học máy
  • Quản lý dữ liệu
  • Quản trị dữ liệu
  • Kiến trúc dữ liệu
  • Dự án Capstone cho Phân tích Kinh doanh
  • Kỹ thuật phần mềm
  • Thiết kế và phát triển hệ thống phía máy chủ
  • Quản lý dự án công nghệ thông tin
  • Thông tin sức khỏe
  • Phân tích chăm sóc sức khỏe
  • Lãnh đạo Tin học Y tế

Chứng chỉ ngành

  • ngân hàng Deutsche
  • đá quý
  • Micron
  • NCR
  • PIL
  • PSA
  • Rohde-Schwarz
  • Ngân hàng Standard Chartered
  • ST điện tử
  • Cơ quan tiền tệ Singapore
  • Cơ quan Phát triển Thông tin Truyền thông
  • Ban thư viện quốc gia
  • Bộ nguồn nhân lực
  • Đại học Công nghệ Nanyang
  • Đại học Bách khoa Nanyang
  • bệnh viện đại học quốc gia

ddddd Ái Tân

Tiến sĩ Ái Tân

Tiến sĩ Ái Tân

Tiến sĩ Ai Xin hiện là Giảng viên của Trường Điện toán tại Đại học Quốc gia Singapore [NUS]. Cô có nhiều năm kinh nghiệm giảng dạy các khóa Trí tuệ nhân tạo và Khoa học dữ liệu, e. g. học máy, học sâu, khai thác dữ liệu, v.v.

Cô tốt nghiệp NUS với bằng Tiến sĩ về Kỹ thuật Điện và Máy tính. Nghiên cứu của cô tập trung vào Mô hình lý thuyết trò chơi, Phương pháp tối ưu hóa, Thiết kế thuật toán và Mạng không dây

Cô đã làm việc tại BHP Billiton Marketing Châu Á trong 8 năm và tích lũy được nhiều kinh nghiệm trong ngành thông qua các chức năng khác nhau, ví dụ:. g. quản lý rủi ro, quản lý chuỗi cung ứng, lập kế hoạch bán hàng và tiếp thị, v.v.

ddddd Edmund Low

Tiến sĩ Edmund Low

Tiến sĩ Edmund Low

Tiến sĩ Edmund Low hiện là Giảng viên cao cấp của Cao đẳng NUS tại Đại học Quốc gia Singapore

Ông có gần 20 năm kinh nghiệm học tập và chuyên môn trong việc sử dụng các công cụ dựa trên dữ liệu để trả lời các câu hỏi về sức khỏe cộng đồng và môi trường. Các dự án trước đây của anh ấy bao gồm áp dụng các kỹ thuật AI và mô hình máy học để lập mô hình môi trường và đánh giá tác động. Ông hiện đang đứng đầu lĩnh vực lý luận định lượng tại USP và giảng dạy các khóa học về phương pháp thống kê, khoa học dữ liệu và máy học. Là một nhà giáo dục, Edmund đã nhiều lần nhận được cả Giải thưởng Giảng dạy Xuất sắc USP, cũng như Giải thưởng Giảng dạy Xuất sắc Hàng năm của NUS. Edmund có bằng Tiến sĩ Kỹ thuật Môi trường tại Đại học Yale

câu hỏi thường gặp

Qns. Có nền tảng ưu tiên nào không và tôi cần cài đặt loại phần mềm nào?
Trả lời. Bạn có thể sử dụng Windows hoặc MacOS vì chúng tôi sẽ sử dụng Anaconda. Hướng dẫn cài đặt sẽ được cung cấp trong tài liệu khóa học trước lớp.

Qns. Khóa học có yêu cầu bất kỳ nền tảng kỹ thuật nào không?
Ans. Một số kiến ​​thức về các khái niệm lập trình đơn giản, e. g. biến, vòng lặp, sẽ thích hợp hơn. Là một phần của khóa học sẽ bao gồm những điều cơ bản về Python, những người tham gia không có kiến ​​thức trước về ngôn ngữ lập trình cũng có thể tham dự.

Qns. Có đánh giá khi kết thúc khóa học không?
Ans. Có, người tham gia được yêu cầu hoàn thành một dự án ngắn bằng Python.

Học phí

Công dân Singapore

39 tuổi trở xuống

609 đô la Singapore. 90

40 tuổi trở lên

229 đô la Singapore. 90

PR Singapore

609 đô la Singapore. 90

Tăng cường hỗ trợ đào tạo cho các doanh nghiệp vừa và nhỏ

229 đô la Singapore. 90

Người tham gia quốc tế

2.033 đô la Singapore. 00

Tổng phí chương trình ròng phải trả, bao gồm GST, sau khi tài trợ thêm từ các chương trình tài trợ khác nhau

Python có tốt cho khoa học dữ liệu không?

Python là ngôn ngữ cấp cao, mã nguồn mở, được thông dịch và cung cấp cách tiếp cận tuyệt vời cho lập trình hướng đối tượng. Đó là một trong những ngôn ngữ tốt nhất được nhà khoa học dữ liệu sử dụng cho các dự án/ứng dụng khoa học dữ liệu khác nhau .

Python nào là tốt nhất cho khoa học dữ liệu?

10 thư viện Python hàng đầu cho khoa học dữ liệu .
TenorFlow
NumPy
khoa học viễn tưởng
gấu trúc
Matplotlib
máy ảnh
SciKit-Tìm hiểu
PyTorch

Bạn có thể trở thành nhà khoa học dữ liệu chỉ với Python không?

Mặc dù Python thôi là đủ để áp dụng khoa học dữ liệu trong một số trường hợp , thật không may, trong thế giới doanh nghiệp, nó chỉ là một phần của .

Python hay C++ tốt hơn cho khoa học dữ liệu?

Ngoài ra, nếu bạn đang so sánh về mặt lập trình cạnh tranh, thì C++ sẽ tốt hơn để chọn, vì nó nhanh hơn nhiều so với Python. Nếu bạn đang phát triển các hệ thống nhúng, thì C++ sẽ chiếm ưu thế ở đây, trong khi nếu bạn đang học sâu, ML hoặc phân tích dữ liệu, thì chắc chắn Python sẽ thắng ở đây.

Chủ Đề