Cách loại bỏ điểm dị biệt trong spss

nguyenvantuan.net said:
Vấn đề đặt ra là xử lí outlier như thế nào. Trong khoa học có vài phương pháp ứng phó với các giá trị outlier. Phương pháp thứ nhất là hoán chuyển chúng sang một đơn vị khác và phân tích lại xem chúng có ảnh hưởng đến kết quả chung. Chẳng hạn như nếu đơn vị đo lường gốc là đồng tiền (như USD) thì chúng ta có thể hoán chuyển sang đơn vị logarít trước khi phân tích. Phương pháp thứ hai là sử dụng các thuật toán phân tích tinh vi để ước tính thông số của mô hình tương quan. Phương pháp thứ ba là khử bỏ chúng (còn gọi là winsorizing) và phân tích lại. Thật ra, còn vài phương pháp khác nữa, nhưng nói chung 3 phương pháp trên thường rất có hiệu quả.
Click to expand...

Không biết có tác dụng gì cho bác không.

Em còn thấy mấy cách nữa (thật ra vì dốt thống kê nên không biết nó có trùng với cái nào ở trên không):

Phân hạng dữ liệu (nhóm dữ liệu lại với nhau kiểu 0<=x1<1; 1<=x2<2...), dùng trong trường hợp biến định lượng liên tục và có một (ít) outlier nằm ở hai đầu.
Dùng weighted mean thay vì mean (có thể kết hợp với phân hạng nếu cần)

(Mong các bác nhẹ tay ạ)

Đinh Duy Thành said:
Không biết có tác dụng gì cho bác không.

Phân hạng dữ liệu (nhóm dữ liệu lại với nhau kiểu 0<=x1<1; 1<=x2<2...), dùng trong trường hợp biến định lượng liên tục và có một (ít) outlier nằm ở hai đầu.
(Mong các bác nhẹ tay ạ)
Click to expand...

sau đó sẽ làm gì với chúng (outliers)?

Cảm ơn bạn Thành, cả 3 phương pháp như GS Tuấn trình bày mình cũng đã từng làm rồi. Thông thường mình phương pháp chuyển dạng số liệu rồi kiểm tra lại. Nếu không đạt kết quả (rất nhiều trường hợp thường là như vậy) mình thường chuyển qua phương pháp thứ 3 là khử những giá trị tính từ trung bình +/- 2 lần độ lệch chuẩn (mean +/- 2SD), tuy nhiên trường hợp này áp dụng được khi số liệu có phân bố chuẩn hoặc gần chuẩn. Với những số liệu mà phân bố không chuẩn thì việc áp dụng phương pháp khử outliers này nên thực hiện như thế nào?

pththao said:
Thông thường với các thí nghiệm đơn lẻ em nhận diện outliers bằng mắt trên histogram, thế là đơn giản và có khi hiệu quả hơn cả.
Click to expand...

uh, có thể nhận diện qua histogram, hồi qui và cả một số graph thông thường như graph dạng box. Nhận diện outliers và extremes thì không khó nhưng xử lý chúng mới là vấn đề không phải lúc nào cũng giải quyết được, đặc biệt khi giữ hoặc loại bỏ outliers có thể làm thay đổi hoàn toàn kết quả thống kê từ p < 0.05 thành p > 0.05 và ngược lại.

pththao said:
Nếu bắt buộc xử lý dãy các thí nghiệm với số lượng lớn thì về cơ bản vẫn phải dựa trên giả thiết về phân bố chuẩn, hoặc exponential, hoặc các dạng tiệm cận khác nhau.
Click to expand...

Như mình đã giải thích ở trên, khi tìm được dạng phân bố của số liệu thì việc xử lý outliers sẽ tự tin hơn nhiều so với số liệu phân bố không chuẩn.

pththao said:
Package outliers có thể có ích [http://cran.r-project.org/web/packages/outliers/outliers.pdf]
Click to expand...

mình không đọc được file pdf

Đinh Văn Khương said:
mình không đọc được file pdf
Click to expand...

-Do ký hiệu "]" ở cuối bị nhận nhầm là link, em post lại http://cran.r-project.org/web/packages/outliers/outliers.pdf

-Em không hiểu rõ vấn đề lắm, có thể anh dùng từ "outliers" với nghĩa khác, nhưng theo em hay dùng thì "outliers" là các số liệu kỳ dị do sai sót đo đạc là chính và mọi outlier phải được loại bỏ trước các xử lý downstream (trừ khi chính các outliers là đối tượng cần tìm), và vấn đề chính là nhận diện mà thôi.

Extrem values thì khác, là các giá trị cực biên (hợp lý) của một phân bố. Có thể khảo sát chúng sử dụng dạng tiệm cận extreme value distributions (http://en.wikipedia.org/wiki/Extreme_value_theory) tương ứng của ba lớp chính. Có lẽ từ đó cũng có thể xác định được p-value của số liệu cực biên, loại bỏ các outliers do đo đạc. Khác với outliers cần phải loại bỏ, extreme values là các đối tượng khảo sát.

Em vừa search extreme value package với R http://rss.acs.unt.edu/Rdoc/library/evir/html/00Index.html

pththao said:
-Do ký hiệu "]" ở cuối bị nhận nhầm là link, em post lại http://cran.r-project.org/web/packages/outliers/outliers.pdf

-Em không hiểu rõ vấn đề lắm, có thể anh dùng từ "outliers" với nghĩa khác, nhưng theo em hay dùng thì "outliers" là các số liệu kỳ dị do sai sót đo đạc là chính và mọi outlier phải được loại bỏ trước các xử lý downstream (trừ khi chính các outliers là đối tượng cần tìm), và vấn đề chính là nhận diện mà thôi.

Extrem values thì khác, là các giá trị cực biên (hợp lý) của một phân bố. Có thể khảo sát chúng sử dụng dạng tiệm cận extreme value distributions (http://en.wikipedia.org/wiki/Extreme_value_theory) tương ứng của ba lớp chính. Có lẽ từ đó cũng có thể xác định được p-value của số liệu cực biên, loại bỏ các outliers do đo đạc. Khác với outliers cần phải loại bỏ, extreme values là các đối tượng khảo sát.

Em vừa search extreme value package với R http://rss.acs.unt.edu/Rdoc/library/evir/html/00Index.html
Click to expand...

Cảm ơn pththao (Thảo??), trong nhiều trường hợp rất khó xác định các outliers có phải là do sai sót kỹ thuật (technical errors) hay không, ví dụ như trong trường hợp nghiên cứu tập tính động vật, rất nhiều loài chung phản ứng rất khác nhau với cùng một nhân tố kích thích (e.g. thức ăn: có cá thể ăn rất nhanh nên chúng bắt hàng trăm con mồi trong khoảng 10 phút, trong khi đó có những cá thể chẳng hề động đậy trong suốt thời gian đó và mức trung bình của cả quần thể là 30 con mồi trong 10 phút).

Có lẽ mình sẽ thử tạo ra (create) một bài toán thí nghiệm đơn giản và cụ thể đưa lên và cùng mọi người thảo luận nếu như có hứng thú.

P/S: mình có thể sử dụng được một số phần mềm thống kê (SPSS, Statistica, SAS, GraphPad Prism etc) trừ R, mặc dù khi đọc command trên R cũng có thể lơ mơ đoán được vài thứ

pththao said:
Vâng, anh thử mô tả thí nghiệm xem ạ, nếu hiểu được gì thì em tham gia theo dõi.

Dù chưa rõ lắm nhưng ví dụ mà anh nêu trong ngoặc là một mixture, về cơ bản thông tin tóm lược trong mean value không được đầy đủ (và có lẽ mean phải tính weighted theo loài). Một đại lượng có thể thấy ngay rất quan trọng trường hợp này là variance.

Em thì không biết gì khác ngoài R, nhưng nếu anh dùng command lines thì em nghĩ chắc về cơ bản cũng tương đương nhau cả.

PS: Anh cứ gọi Thảo thôi ạ.
Click to expand...

Hi Thảo, cảm ơn bạn đã tham gia nhiệt tình vào chủ đề này.
Bài toán trong file excel rất đơn giản.

câu hỏi nghiên cứu: liệu rằng thuốc trừ sâu có làm thay đổi tốc độ bắt mồi của
Mayfly hay không?
Giả thuyết H0: thuốc trừ sâu không làm thay đổi tốc độ bắt mồi của mayfly
Giả thuyết H1: thuốc trừ sâu làm thay đổi tốc độ bắt mồi của mayfly

Thiết kế thí nghiệm:

60 cá thể mayfly được phân chi một cách ngẫu nhiên, đều nhau vào 1 trong 2 nghiệm thức:
nghiệm thức 0: môi trường ko có thuốc trừ sâu: 30 cá thể
nghiệm thức 1: môi trường có thuốc trừ sâu: 30 cá thể

sau 1 tuần thí nghiệm trong các điều kiện môi trường trên, các cá thể được quan sát để tính toán tốc độ bắt mồi của chúng.

Con mồi: Daphnia nauplii, với mật độ như nhau trong các nghiệm thức.
Tốc độ bắt mồi được tính bằng số lượng Daphnia nauplii bị mayfly bắt trong vòng 1 phút.

Kết quả thu được như trong bảng excel.
--
Dùng STATISTICA: dùng GLM procedure; oneway ANOVA

Dùng SAS: command line:

proc glm data=mayfly2 ;
class poll ;
model feeding = poll ;
lsmeans poll / ADJUST=TUKEY ;
run;

Kết quả:

1) Không loại bỏ outliers: (sheet 1)

F(1, 58)=4.1960, p=.04505
điều này có nghĩa là reject H0 và chấp nhận H1, feeding rate of Mayfly was reduced in the presence of pesticide.

2) Loại bỏ outliers (sheet 2)

F(1, 46)=3.2767, p=.07681
điều này có nghĩa là chưa đủ bằng chứng để reject H0. So feeding rate of Mayfly did not reduce in the presence of pesticide.

pththao said:
Em chưa vẽ được cái histogram để đánh giá số liệu, tuy nhiên nhìn qua cho thấy số liệu có vẻ long-tailed, phân bố có vẻ rất không chuẩn nên chắc không dùng được Fisher test. Long-tailed cũng là nguyên nhân khó khăn xác định các outliers. Vì phân bố không rõ ràng, nếu dùng classical hypothesis test có lẽ nên dùng non-parametric methods chẳng hạn sign-test hoặc rank-test? Trường hợp này outliers sẽ ảnh hưởng rất nhỏ và có lẽ không cần phải loại bỏ.
Click to expand...

hi Thảo, mình mất khoảng 10 phút để tạo ra các số liệu này và khoảng thời gian tương tự cho hiệu chỉnh lại bài toán cho phù hợp với những ảnh hưởng mà outliers có thể gây ra cho thí nghiệm. Một đặc điểm rất chung của các thí nghiệm về tập tính động vật là số liệu thu được hiếm khi nào có phân bố chuẩn, cực hiếm vì hành vi của động vật biểu hiện rất khác nhau ngay trong cùng một điều kiện.

Mình sẽ chờ đợi thêm xem bạn và các anh chị em khác giỏi về thống kê sinh học có cao kiến gì không?

pththao said:
Thực tế là thế, theo kinh nghiệm của em người xử lý số liệu nên bắt đầu với mô tả hình ảnh (visualisation) ở dạng nguyên thuỷ nhất nếu có thể. (Có một câu dẫn của ai đó: "You have to look at the data many times before modelling them."). Khi kết luận có thể phỏng đoán cảm tính từ đầu thì người ta mới chọn, thiết kế test và mô hình. Từ đó việc thiết kế test cũng được hướng đạo, việc đánh giá và loại bỏ các yếu tốt ngoại lại không mong muốn cũng dễ dàng. Trường hợp tín hiệu không rõ ràng trên mô tả hình ảnh (visualisation) thông thường là báo hiệu các kết quả test không thống nhất (robust), trừ khi có một test hoặc mô hình thực sự (super) tốt (rất hiếm).
Click to expand...

Không phủ nhận là rất nhiều lần mình đã từng visualisation số liệu trước khi quyết định sử dụng trực tiếp hay chuyển dạng số liệu và cũng nghĩ trong đầu về việc số liệu kiểu này thì sẽ lựa chọn model xử lý kiểu gì. Tuy nhiên, sau đó mình vẫn thường chạy thử để kiểm tra xem cái nào là "best fit" dựa trên thống kê chứ không phải dựa vào "mắt thường" hay "niềm tin" vì như thế quá chủ quan.

Mình không biết có mô hình test nào là supermodel hay không. Có lẽ không vì mỗi cái có thế mạnh riêng vì thậm chí ngay cả với 1 model cụ thể chạy trên cùng 1 software ở các phiên bản khác nhau đôi khi có phiên bản thì chạy được, có phiên bản thì không chạy được. Mình đã từng được nghe một câu chuyện về một anh chàng sau khi xử lý số liệu viết báo và gửi tạp chí, sau khi được phản biện góp ý, cần phải chạy lại 1 model trong đó để kiểm tra lại. Tuy nhiên, khi chạy lại trên software (đã được nâng cấp) thì nó không chạy nữa (thử đủ mọi cách nó không chạy). Thời điểm đó, software phiên bản cũ đã hết hạn sử dụng.

Mình gặp vấn đề tương tự với cái này: http://www.sinhhocvietnam.com/forum/showthread.php?t=15434 , chạy mãi cũng không được và cuối cùng phải đổi model.

Quay trở lại với bài toán giả tưởng mà mình tạo ra, có ai có ý kiến gì về nó không?

Mẹo Hay Cách

Cách loại bỏ điểm dị biệt trong spss

Bài Viết Liên Quan

Quảng Cáo

Có thể bạn quan tâm

Toplist được quan tâm

Quảng cáo

Xem Nhiều

Quảng cáo

Chúng tôi

Điều khoản

Trợ giúp

Mạng xã hội