Cách loại bỏ điểm dị biệt trong spss
Ngày đăng:
19/11/2021
Trả lời:
0
Lượt xem:
306
Không biết có tác dụng gì cho bác không. Em còn thấy mấy cách nữa (thật ra vì dốt thống kê nên không biết nó có trùng với cái nào ở trên không):
sau đó sẽ làm gì với chúng (outliers)? Cảm ơn bạn Thành, cả 3 phương pháp như GS Tuấn trình bày mình cũng đã từng làm rồi. Thông thường mình phương pháp chuyển dạng số liệu rồi kiểm tra lại. Nếu không đạt kết quả (rất nhiều trường hợp thường là như vậy) mình thường chuyển qua phương pháp thứ 3 là khử những giá trị tính từ trung bình +/- 2 lần độ lệch chuẩn (mean +/- 2SD), tuy nhiên trường hợp này áp dụng được khi số liệu có phân bố chuẩn hoặc gần chuẩn. Với những số liệu mà phân bố không chuẩn thì việc áp dụng phương pháp khử outliers này nên thực hiện như thế nào?
uh, có thể nhận diện qua histogram, hồi qui và cả một số graph thông thường như graph dạng box. Nhận diện outliers và extremes thì không khó nhưng xử lý chúng mới là vấn đề không phải lúc nào cũng giải quyết được, đặc biệt khi giữ hoặc loại bỏ outliers có thể làm thay đổi hoàn toàn kết quả thống kê từ p < 0.05 thành p > 0.05 và ngược lại.
Như mình đã giải thích ở trên, khi tìm được dạng phân bố của số liệu thì việc xử lý outliers sẽ tự tin hơn nhiều so với số liệu phân bố không chuẩn.
mình không đọc được file pdf
-Do ký hiệu "]" ở cuối bị nhận nhầm là link, em post lại http://cran.r-project.org/web/packages/outliers/outliers.pdf -Em không hiểu rõ vấn đề lắm, có thể anh dùng từ "outliers" với nghĩa khác, nhưng theo em hay dùng thì "outliers" là các số liệu kỳ dị do sai sót đo đạc là chính và mọi outlier phải được loại bỏ trước các xử lý downstream (trừ khi chính các outliers là đối tượng cần tìm), và vấn đề chính là nhận diện mà thôi. Extrem values thì khác, là các giá trị cực biên (hợp lý) của một phân bố. Có thể khảo sát chúng sử dụng dạng tiệm cận extreme value distributions (http://en.wikipedia.org/wiki/Extreme_value_theory) tương ứng của ba lớp chính. Có lẽ từ đó cũng có thể xác định được p-value của số liệu cực biên, loại bỏ các outliers do đo đạc. Khác với outliers cần phải loại bỏ, extreme values là các đối tượng khảo sát. Em vừa search extreme value package với R http://rss.acs.unt.edu/Rdoc/library/evir/html/00Index.html
Cảm ơn pththao (Thảo??), trong nhiều trường hợp rất khó xác định các outliers có phải là do sai sót kỹ thuật (technical errors) hay không, ví dụ như trong trường hợp nghiên cứu tập tính động vật, rất nhiều loài chung phản ứng rất khác nhau với cùng một nhân tố kích thích (e.g. thức ăn: có cá thể ăn rất nhanh nên chúng bắt hàng trăm con mồi trong khoảng 10 phút, trong khi đó có những cá thể chẳng hề động đậy trong suốt thời gian đó và mức trung bình của cả quần thể là 30 con mồi trong 10 phút). Có lẽ mình sẽ thử tạo ra (create) một bài toán thí nghiệm đơn giản và cụ thể đưa lên và cùng mọi người thảo luận nếu như có hứng thú. P/S: mình có thể sử dụng được một số phần mềm thống kê (SPSS, Statistica, SAS, GraphPad Prism etc) trừ R, mặc dù khi đọc command trên R cũng có thể lơ mơ đoán được vài thứ
Hi Thảo, cảm ơn bạn đã tham gia nhiệt tình vào chủ đề này. Bài toán trong file excel rất đơn giản. câu hỏi nghiên cứu: liệu rằng thuốc trừ sâu có làm thay đổi tốc độ bắt mồi của Mayfly hay không? Giả thuyết H0: thuốc trừ sâu không làm thay đổi tốc độ bắt mồi của mayfly Giả thuyết H1: thuốc trừ sâu làm thay đổi tốc độ bắt mồi của mayfly Thiết kế thí nghiệm: 60 cá thể mayfly được phân chi một cách ngẫu nhiên, đều nhau vào 1 trong 2 nghiệm thức: nghiệm thức 0: môi trường ko có thuốc trừ sâu: 30 cá thể nghiệm thức 1: môi trường có thuốc trừ sâu: 30 cá thể sau 1 tuần thí nghiệm trong các điều kiện môi trường trên, các cá thể được quan sát để tính toán tốc độ bắt mồi của chúng. Con mồi: Daphnia nauplii, với mật độ như nhau trong các nghiệm thức. Tốc độ bắt mồi được tính bằng số lượng Daphnia nauplii bị mayfly bắt trong vòng 1 phút. Kết quả thu được như trong bảng excel. -- Dùng STATISTICA: dùng GLM procedure; oneway ANOVA Dùng SAS: command line: proc glm data=mayfly2 ; class poll ; model feeding = poll ; lsmeans poll / ADJUST=TUKEY ; run; Kết quả: 1) Không loại bỏ outliers: (sheet 1) F(1, 58)=4.1960, p=.04505 điều này có nghĩa là reject H0 và chấp nhận H1, feeding rate of Mayfly was reduced in the presence of pesticide. 2) Loại bỏ outliers (sheet 2) F(1, 46)=3.2767, p=.07681 điều này có nghĩa là chưa đủ bằng chứng để reject H0. So feeding rate of Mayfly did not reduce in the presence of pesticide.
hi Thảo, mình mất khoảng 10 phút để tạo ra các số liệu này và khoảng thời gian tương tự cho hiệu chỉnh lại bài toán cho phù hợp với những ảnh hưởng mà outliers có thể gây ra cho thí nghiệm. Một đặc điểm rất chung của các thí nghiệm về tập tính động vật là số liệu thu được hiếm khi nào có phân bố chuẩn, cực hiếm vì hành vi của động vật biểu hiện rất khác nhau ngay trong cùng một điều kiện. Mình sẽ chờ đợi thêm xem bạn và các anh chị em khác giỏi về thống kê sinh học có cao kiến gì không?
Không phủ nhận là rất nhiều lần mình đã từng visualisation số liệu trước khi quyết định sử dụng trực tiếp hay chuyển dạng số liệu và cũng nghĩ trong đầu về việc số liệu kiểu này thì sẽ lựa chọn model xử lý kiểu gì. Tuy nhiên, sau đó mình vẫn thường chạy thử để kiểm tra xem cái nào là "best fit" dựa trên thống kê chứ không phải dựa vào "mắt thường" hay "niềm tin" vì như thế quá chủ quan. Mình không biết có mô hình test nào là supermodel hay không. Có lẽ không vì mỗi cái có thế mạnh riêng vì thậm chí ngay cả với 1 model cụ thể chạy trên cùng 1 software ở các phiên bản khác nhau đôi khi có phiên bản thì chạy được, có phiên bản thì không chạy được. Mình đã từng được nghe một câu chuyện về một anh chàng sau khi xử lý số liệu viết báo và gửi tạp chí, sau khi được phản biện góp ý, cần phải chạy lại 1 model trong đó để kiểm tra lại. Tuy nhiên, khi chạy lại trên software (đã được nâng cấp) thì nó không chạy nữa (thử đủ mọi cách nó không chạy). Thời điểm đó, software phiên bản cũ đã hết hạn sử dụng. Mình gặp vấn đề tương tự với cái này: http://www.sinhhocvietnam.com/forum/showthread.php?t=15434 , chạy mãi cũng không được và cuối cùng phải đổi model. Quay trở lại với bài toán giả tưởng mà mình tạo ra, có ai có ý kiến gì về nó không? |