Sally mở sách giáo khoa thống kê của mình và thấy rằng có hai loại thống kê chính, mô tả và suy luận.
Thống kê mô tả xác định các mẫu trong dữ liệu, nhưng chúng không cho phép đưa ra các giả thuyết về dữ liệu
Trong thống kê mô tả, có hai biện pháp được sử dụng để mô tả dữ liệu. xu hướng trung tâm và độ lệch. Xu hướng trung tâm đề cập đến vị trí trung tâm của dữ liệu [trung bình, trung bình, chế độ] trong khi độ lệch mô tả mức độ lan truyền của dữ liệu so với giá trị trung bình. Độ lệch thường được đo bằng độ lệch chuẩn. Độ lệch chuẩn nhỏ cho biết dữ liệu gần với giá trị trung bình, trong khi độ lệch chuẩn lớn cho biết dữ liệu trải rộng hơn so với giá trị trung bình
Thống kê suy luận cho phép chúng ta đưa ra các giả thuyết [hoặc suy luận] về một mẫu có thể áp dụng cho tổng thể. Đối với Sally, điều này liên quan đến việc phát triển một giả thuyết về mẫu các trường trung học cơ sở ở Tennessee của cô ấy và áp dụng nó vào dân số của tất cả các trường học ở Tennessee
Hiện tại, Sally bỏ thống kê suy luận sang một bên và đi sâu vào thống kê mô tả
Để bắt đầu tìm hiểu về mẫu, Sally sử dụng phương pháp describe
của gấu trúc, như bên dưới. Các tiêu đề cột in đậm thể hiện các biến mà Sally sẽ khám phá. Mỗi tiêu đề hàng đại diện cho một thống kê mô tả về cột tương ứng
Dưới đây là phần thảo luận về các số liệu từ bảng trên và mỗi kết quả chỉ ra điều gì về mối quan hệ giữa school_rating
và reduced_lunch
đếm. số lượng các trường tại mỗi đánh giá. Hầu hết các trường trong mẫu của Sally đều có xếp hạng 4 hoặc 5 sao, nhưng 25% trường có xếp hạng 1 sao hoặc thấp hơn. Điều này khẳng định rằng thành tích học tập kém không chỉ đơn thuần là giai thoại, mà là một vấn đề nghiêm trọng đáng được quan tâm.
bần tiện. tỷ lệ phần trăm học sinh trung bình trên reduced_lunch
trong số tất cả các trường theo mỗi school_rating
. Khi hiệu suất của trường tăng lên, số lượng học sinh ăn trưa giảm trung bình sẽ giảm. Trường bị xếp hạng 0 sao có 83. 6% học sinh được giảm bữa trưa. Và ngược lại, trung bình các trường 5 sao có 21. 6% học sinh được giảm bữa trưa. Chúng tôi sẽ kiểm tra mô hình này hơn nữa. trong phần vẽ đồ thị
tiêu chuẩn. độ lệch chuẩn của biến. Đề cập đến school_rating
của 0, độ lệch chuẩn là 8. 813498 chỉ ra rằng 68. 2% [tham khảo readme] của tất cả các quan sát nằm trong phạm vi 8. 81 điểm phần trăm ở hai bên của mức trung bình, 83. 6%. Lưu ý rằng độ lệch chuẩn tăng khi school_rating
tăng, cho thấy rằng reduced_lunch
mất khả năng giải thích khi hiệu suất học tập được cải thiện. Đối với giá trị trung bình, chúng ta sẽ khám phá thêm ý tưởng này trong phần vẽ đồ thị
tối thiểu. giá trị nhỏ nhất của biến. Điều này thể hiện trường có tỷ lệ học sinh được giảm bữa trưa thấp nhất ở mỗi xếp hạng trường. Đối với các trường 0 và 1 sao, tỷ lệ học sinh được giảm bữa trưa tối thiểu là 53%. Mức tối thiểu cho trường 5 sao là 2%. Giá trị tối thiểu kể một câu chuyện tương tự như giá trị trung bình, nhưng xem xét nó từ mức thấp nhất của phạm vi quan sát
25%. phần tư dưới cùng; . Đối với trường 0 sao, 25% số lượt quan sát dưới 79. 5%. Sally thấy xu hướng tương tự ở phần tư dưới cùng như các số liệu trên. khi school_rating
tăng thì 25% dưới cùng của reduced_lunch
giảm
50%. phần tư thứ hai; . Nhìn vào xu hướng trong school_rating
và reduced_lunch
, mối quan hệ tương tự hiện diện ở đây
75%. phần tư hàng đầu; . Xu hướng tiếp tục
tối đa. giá trị tối đa cho biến đó. Bạn đoán nó. xu hướng tiếp tục
Các số liệu thống kê mô tả luôn tiết lộ rằng các trường học có nhiều học sinh ăn trưa giảm giá sẽ hoạt động kém hơn so với các trường cùng lứa tuổi. Sally là trên một cái gì đó
Sally quyết định xem xét reduced_lunch
từ một góc độ khác bằng cách sử dụng ma trận tương quan với phương pháp school_rating
4 của gấu trúc. Các giá trị trong bảng ma trận tương quan sẽ nằm trong khoảng từ -1 đến 1 [xem bên dưới]. Giá trị -1 biểu thị mối tương quan tiêu cực mạnh nhất có thể, nghĩa là khi một biến giảm thì biến kia tăng. Và giá trị 1 chỉ ra điều ngược lại. Kết quả bên dưới, -0. 815757, biểu thị mối tương quan tiêu cực mạnh mẽ giữa reduced_lunch
và school_rating
. Rõ ràng có một mối quan hệ giữa hai biến
Chúng tôi đã tải xuống hàng nghìn tin tuyển dụng bằng cách tìm kiếm trên mục lục của cuốn sách này về Nghiên cứu điển hình 1 - 4 [xem Tuyên bố vấn đề để biết chi tiết]. Bên cạnh các bài đăng đã tải xuống, chúng tôi cũng có sẵn hai tệp văn bản. school_rating
7 và school_rating
8. Tệp đầu tiên chứa bản nháp sơ yếu lý lịch. Tệp thứ hai chứa mục lục bị cắt bớt, được sử dụng để truy vấn kết quả danh sách việc làm của chúng tôi. Mục tiêu của chúng tôi là trích xuất các kỹ năng khoa học dữ liệu phổ biến từ các tin tuyển dụng đã tải xuống. Sau đó, chúng tôi sẽ so sánh các kỹ năng này với sơ yếu lý lịch của mình để xác định kỹ năng nào còn thiếu. Chúng tôi sẽ làm như vậy bằng cách