So sánh tỷ lệ phần trăm stata năm 2024

Nhìn chung, tiến trình phân tích số liệu bao gồm 3 bước: quản lý số liệu, phân tích số liệu mang tính chất thăm dò, và phân tích thống kê 1. Quản lý số liệu: bao gồm tất cả các công đoạn từ thu thập số liệu, nhập số liệu, kiểm tra và làm sạch số liệu 2. Phân tích số liệu mang tính chất thăm dò [exploratory data analysis]: là công đoạn xem xét số liệu với các phép thống kê mô tả và các kỹ thuật vẽ đồ thị [graphs] 2.1 Kiểm tra số liệu Một số sai sót của số liệu có thể được phát hiện bằng việc kiểm tra nhanh với lệnh tabulate [đối với biến số phân loại] và summarize [đồi với biến số liên tục] 2.2 Xử lý "Các giá trị nằm ngoài" [Outliers] Các "outliers" có thể là do:

Việc sử dụng if không bị giới hạn trong lệnh lập bảng tabulate. Ở đây, ta sử dụng nó với lệnh list và nhiều lệnh khác nữa.

list if rep78 >= 4

Bạn có thấy rằng một số quan sát có giá trị là '.' cho rep78? Đây là những giá trị bị thiếu missing value stata. Ví dụ, giá trị của rep78 cho AMC Spirit bị thiếu. Stata coi một giá trị bị thiếu là positive infinity[ số dương vô cực], số cao nhất có thể. Vì vậy, khi liệt kê list if rep78> = 4, Stata đã bao gồm các quan sát trong đó rep78 bị missing value. Nếu chúng ta chỉ muốn bao gồm các quan sát hợp lệ [không bị thiếu missing] lớn hơn hoặc bằng 4, chúng ta có thể làm như sau để cho Stata biết rằng chúng ta chỉ muốn các quan sát trong đó rep78> = 4 và rep78 không bị thiếu. list if rep78 >= 4 & !missing[rep78] hoặc câu lệnh tương đương là list if rep78 >= 4 & rep78 != . Kết quả ra như sau:

Chúng ta có thể sử dụng if với hầu hết các lệnh Stata. Tại đây, chúng ta nhận được số liệu thống kê tóm tắt về giá của những chiếc xe có lịch sử sửa chữa là 1 hoặc 2. Lưu ý rằng dấu kép bằng [==] đại diện cho IS EQUAL TO và ký tự[|] đại diện cho OR. summarize price if rep78 == 1 | rep78 == 2

Câu lệnh tương tự là summarize price if rep78 = 2 Thống kê nếu rep78 lớn hơn 2 summarize if rep78> 2 Thống kê nếu rep78 nhỏ hơn hoặc bằng 2 summarize if rep78 = 3 summarize if rep78! = 3 để bỏ qua các giá trị bị thiếu, hãy sử dụng summarize if rep78> 3 &! missing [rep78] summarize if rep78> = 3 &! missing [rep78] summarize if rep78! = 3 &! missing [rep78]

Bạn cứ trao đổi thêm với nhóm ở đây, hoặc comment bên dưới nhé

Liên hệ nhóm thạc sĩ Hỗ trợ Stata.

– SMS, Zalo, Viber:

– Facebook facebook.com/hotroStata

– Email hotrostata@gmail.com

Lệnh sysuse tải tập dữ liệu định dạng Stata có sẵn cùng với Stata. Ở đây sẽ sử dụng file dữ liệu auto [file này có sẵn khi cài stata]

Từ màn hình Stata nhập lệnh sau: sysuse auto

describe Lệnh describe hiển thị cho bạn thông tin cơ bản về file dữ liệu Stata. Như bạn có thể thấy, nó cho chúng ta biết số lượng quan sát trong file, số lượng biến, tên của các biến và hơn thế nữa. File này nói về việc sửa chữa xe hơi.

Lệnh codebook là một công cụ tuyệt vời để có cái nhìn tổng quan nhanh chóng về các biến trong file dữ liệu. Nó tạo ra một loại sổ mã điện tử từ file dữ liệu. Hãy xem những gì nó tạo ra bên dưới.

Một lệnh hữu ích khác để có cái nhìn tổng quan nhanh về file dữ liệu là lệnh inspect . Đây là những gì lệnh tạo ra cho file này
Lệnh list rất hữu ích để xem giá trị nội dung của tất cả hoặc một loạt các quan sát. Ở đây chúng tôi xem xét make, price, mpg, rep78 và foreign cho 10 quan sát đầu tiên. list make price mpg rep78 foreign in 1/10

Tạo bảng với lệnh tabulate

Lệnh tabulate rất hữu ích để lấy các bảng tần số. Dưới đây, làm một bảng cho rep78. Lệnh cũng có thể được rút ngắn thành tab.

Lệnh tab1 có thể được sử dụng để làm gọn câu lệnh tab đi, để yêu cầu bảng cho một loạt biến [thay vì gõ lệnh lập bảng lặp đi lặp lại cho mỗi biến quan tâm].
Chúng ta có thể sử dụng tùy chọn plot để tạo biểu đồ nhằm hiển thị trực quan các giá trị được lập bảng.
Cũng có thể tạo bảng chéo bằng cách sử dụng lệnh tab . Hãy cùng nhìn lại lịch sử sửa chữa của ô tô nước ngoài và ô tô trong nước.

Với tùy chọn column, ta có thể yêu cầu tỷ lệ phần trăm cột. Lưu ý rằng khoảng 86% ô tô nước ngoài nhận được đánh giá 4 hoặc 5. Chỉ có khoảng 23% ô tô trong nước được đánh giá cao.
tabulate rep78 foreign, column Ngoài ra để hiển thỉ chỉ mỗi %, ta thêm nofreq tabulate rep78 foreign, column nofreq
Và lưu ý rằng thứ tự của các option sau dấu phẩy trong stata không quan trọng, quan trọng là nó phải nằm sau dấu phẩy

Chủ Đề