Câu hỏi phỏng vấn khoa học dữ liệu python github

Các cuộc phỏng vấn khoa học dữ liệu chắc chắn không dễ dàng. Tôi biết điều này đầu tiên. Tôi đã tham gia hơn 50 cuộc phỏng vấn cá nhân và màn hình điện thoại trong khi đăng ký thực tập cạnh tranh trong năm dương lịch vừa qua. Thông qua quá trình thú vị và đôi khi (đôi khi rất) đau đớn này, tôi đã tích lũy được rất nhiều tài nguyên hữu ích giúp tôi chuẩn bị và cuối cùng vượt qua các cuộc phỏng vấn khoa học dữ liệu. Nói tóm lại, tôi đã quyết định sắp xếp tất cả dấu trang và ghi chú của mình để cung cấp danh sách toàn diện về tài nguyên khoa học dữ liệu. Với danh sách này bên cạnh, bạn sẽ có đủ các công cụ hiệu quả để sử dụng vào lần tới khi bạn chuẩn bị cho một cuộc phỏng vấn quan trọng

Xem bài

Tôi cũng đã viết một bài đăng trên Medium về trải nghiệm này. Bạn có thể tìm thấy bài đăng và nhiều thông tin khác về trải nghiệm của tôi tại đây

Một danh sách các nguồn lực cho các thành viên xã hội của chúng tôi, những người có các cuộc phỏng vấn sắp tới. Repo này sẽ đóng vai trò là nơi tuyệt vời để tóm tắt một số kiến ​​thức về khoa học dữ liệu cũng như kiểm tra bản thân

Giới thiệu

Phỏng vấn khoa học dữ liệu không dễ dàng. Các công ty thường tìm kiếm những người có nhiều kỹ năng từ lập trình (cụ thể là Python và SQL) đến học máy và thống kê/xác suất. Hiệp hội Khoa học Dữ liệu cam kết giúp bạn đạt được công việc mơ ước trong lĩnh vực tuyệt vời và đang phát triển nhanh chóng này. Các thành viên ủy ban của chúng tôi đã trải qua quá trình phỏng vấn này nhiều lần và vì vậy chúng tôi quyết định tập hợp tất cả các nguồn lực của mình vào một nơi

Repo này được chia thành 4 phần chính

  • lập trình
  • Xác suất & Thống kê
  • Học máy
  • Nguyên tắc phỏng vấn chung



1. lập trình

1. 1 con trăn

Có thể cho rằng kỹ năng quan trọng nhất của một nhà khoa học dữ liệu hiện đại là khả năng viết mã. Phù hợp với Chuỗi bài giảng về Python của chúng tôi, đây là một số tài nguyên sửa đổi

  • Bảng mã khóa học về sự cố Python
    • Kiến thức Python cơ bản cô đọng thành các tài liệu có thể tải xuống
  • LearnXinYMinutes - Python3
    • Một trang kiến ​​thức Python từ biến đến lớp và hàm bao bọc
  • Leetcode
    • Hãy thử một số câu hỏi bài toán (khuyến nghị bắt đầu với các bài toán cấp độ Dễ)

1. 2 Python khoa học với Pandas

Chúng tôi đang tìm kiếm những thông tin chuyên sâu thú vị trong dữ liệu của mình nhưng điều này chỉ có thể thực hiện được nếu chúng tôi biết cách sắp xếp dữ liệu đúng cách bằng Pandas, thư viện Python

  • Bản sửa đổi gấu trúc
    • Một loạt sổ ghi chép ngắn cung cấp thông tin tổng quan về thư viện
  • Chuỗi bài giảng Pandas - Data School
    • Học qua video thay vì đọc vở
  • Pandas câu hỏi và bài tập
    • Danh sách các dự án/câu hỏi (rất) ngắn để kiểm tra kiến ​​thức về Pandas của bạn

1. 3 SQL

Thông thường trong ngành, dữ liệu không được lưu trữ trong các tệp .csv trông ưa mắt, mà thay vào đó trong các cơ sở dữ liệu như MySQL, PostgreSQL, v.v. - Một số công ty có thể yêu cầu bạn biết cách trích xuất dữ liệu bạn cần từ các hệ thống này bằng SQL (ngôn ngữ dành cho cơ sở dữ liệu)

  • Chế độ Hướng dẫn
    • Hướng dẫn từng bước tuyệt vời về các hàm và toán tử khác nhau có sẵn trong SQL

Nguồn lực hạn chế được cung cấp về chủ đề này vì nó thường chỉ được hỏi trong cuộc phỏng vấn nếu nó được viết trong CV của bạn



2. Xác suất và Thống kê

Phần này chứa các tài nguyên để sửa đổi thống kê và xác suất chức năng. Ở đây, bạn KHÔNG tìm thấy bằng chứng hoặc dẫn xuất nghiêm ngặt, mà là những thứ hữu ích hơn cho ngành

  • Khái niệm cơ bản về xác suất cho khoa học dữ liệu
    • Biến ngẫu nhiên, phân phối và điểm Z
  • Bảng tính xác suất lớn - William Chen
    • Một cheatsheet LỚN về xác suất, có lẽ tốt nhất là lướt qua cái này
  • Dòng trung bình DS - Bao gồm. Thống kê Bayes
    • Chuỗi bài đăng trên blog nhỏ về xác suất và thống kê trong khoa học dữ liệu. Đã bao gồm một bài viết rất hữu ích về Thống kê Bayesian



3. Học máy

Bao gồm các tài nguyên học tập có giám sát và không giám sát. Phần này là điểm khác biệt trong nhiều cuộc phỏng vấn giữa các ứng viên chỉ mới biết về các mô hình và những người hiểu rõ những gì đang xảy ra.

3. 1 Tài nguyên chung

Liên kết đến các thư viện mà chúng tôi quan tâm nhất trong phần học máy này. Phần lớn các tài nguyên này sẽ sử dụng một hoặc nhiều thư viện này trong bản sửa đổi của chúng

  • Hướng dẫn giới thiệu scikit-learn
    • Bánh mì và bơ của học máy
  • Dòng chảy / PyTorch
    • Khoảng cách lớn nhất kể từ dứa trên pizza

3. 2 Tài nguyên được xếp hạng hàng đầu

  • HOÀN THÀNH NGUỒN ML
    • Các "tài liệu" được liên kết trong tài nguyên này rất phù hợp với tất cả các kiến ​​thức về máy học, từ Hồi quy và Chính quy hóa đến CNN và RNN. Rất khuyến khích
  • 41 câu hỏi nếu bạn biết công cụ của bạn
    • Nếu bạn tự tin với mọi thứ bạn đã thấy cho đến nay, hãy thử một số câu hỏi
  • Tài nguyên một trang (lớn)
    • Tài nguyên khá tốt nói chung, nhiều toán học hơn tài nguyên trước đó nhưng rất tuyệt để cuộn qua nếu bạn có thời gian
  • Trường dữ liệu 15 giờ video
    • Thích học bằng cách xem? . ) hãy xem một số video này

3. 3 đề cập danh dự

  • Tăng tốc so với Đóng gói - Sự khác biệt là gì?
  • Bias vs Variance - Cuộc chiến đánh đổi
  • Giảm kích thước - Trích xuất nội dung quan trọng từ các tính năng của bạn



4. Hướng dẫn phỏng vấn

Xin chúc mừng. Bạn đã tiến xa đến mức này trong các tài nguyên và hy vọng bạn có một số kiến ​​thức học máy tuyệt vời. Thật không may, điều đó không phải lúc nào cũng đủ

Các công ty đang tìm kiếm những người giao tiếp tuyệt vời và những người họ thực sự muốn làm việc cùng. Dưới đây là một số mẹo phỏng vấn chung