Nhược điểm của số liệu thống kê bootstrapping

Bootstrapping là một quy trình thống kê lấy mẫu lại một tập dữ liệu để tạo nhiều mẫu mô phỏng. Quá trình này cho phép bạn tính toán các lỗi tiêu chuẩn, xây dựng khoảng tin cậy và thực hiện kiểm tra giả thuyết cho nhiều loại thống kê mẫu. Các phương pháp Bootstrap là các phương pháp thay thế cho thử nghiệm giả thuyết truyền thống và đáng chú ý là dễ hiểu hơn và có giá trị trong nhiều điều kiện hơn

Trong bài đăng trên blog này, tôi giải thích những điều cơ bản về bootstrapping, so sánh bootstrapping với các phương pháp thống kê thông thường và giải thích khi nào nó có thể là phương pháp tốt hơn. Ngoài ra, tôi sẽ làm việc thông qua một ví dụ sử dụng dữ liệu thực để tạo khoảng tin cậy khởi động

Bootstrapping và kiểm tra giả thuyết truyền thống là các thủ tục thống kê suy luận

Nhược điểm của số liệu thống kê bootstrapping
Nhược điểm của số liệu thống kê bootstrapping
Cả phương pháp bootstrapping và phương pháp truyền thống đều sử dụng các mẫu để rút ra kết luận về dân số. Để đạt được mục tiêu này, các quy trình này coi một mẫu duy nhất mà nghiên cứu thu được chỉ là một trong nhiều mẫu ngẫu nhiên mà nghiên cứu có thể đã thu thập

Từ một mẫu duy nhất, bạn có thể tính toán nhiều thống kê mẫu khác nhau, chẳng hạn như giá trị trung bình, trung vị và độ lệch chuẩn—nhưng chúng tôi sẽ tập trung vào giá trị trung bình ở đây

Bây giờ, giả sử một nhà phân tích lặp lại nghiên cứu của họ nhiều lần. Trong tình huống này, giá trị trung bình sẽ thay đổi từ mẫu này sang mẫu khác và tạo thành phân phối của giá trị trung bình mẫu. Các nhà thống kê gọi loại phân phối này là phân phối lấy mẫu. Phân phối lấy mẫu là rất quan trọng vì chúng đặt giá trị của thống kê mẫu của bạn vào bối cảnh rộng hơn của nhiều giá trị có thể khác

Mặc dù thực hiện một nghiên cứu nhiều lần là không khả thi, nhưng cả hai phương pháp đều có thể ước tính phân phối lấy mẫu. Sử dụng bối cảnh lớn hơn mà phân phối lấy mẫu cung cấp, các quy trình này có thể xây dựng khoảng tin cậy và thực hiện kiểm tra giả thuyết

Bài viết liên quan. Sự khác biệt giữa Thống kê mô tả và suy luận

Sự khác biệt giữa Bootstrapping và Thử nghiệm giả thuyết truyền thống

Sự khác biệt chính giữa bootstrapping và thống kê truyền thống là cách họ ước tính phân phối lấy mẫu

Các quy trình thử nghiệm giả thuyết truyền thống yêu cầu các phương trình ước tính phân phối lấy mẫu bằng cách sử dụng các thuộc tính của dữ liệu mẫu, thiết kế thử nghiệm và thống kê thử nghiệm. Để có được kết quả hợp lệ, bạn sẽ cần sử dụng thống kê thử nghiệm phù hợp và đáp ứng các giả định. Tôi mô tả quá trình này chi tiết hơn trong các bài đăng khác—liên kết bên dưới

Phương pháp bootstrap sử dụng một cách tiếp cận rất khác để ước tính phân phối lấy mẫu. Phương pháp này lấy dữ liệu mẫu mà một nghiên cứu thu được, sau đó lấy mẫu lại nhiều lần để tạo ra nhiều mẫu mô phỏng. Mỗi mẫu mô phỏng này có các thuộc tính riêng, chẳng hạn như giá trị trung bình. Khi bạn vẽ biểu đồ phân phối của các giá trị trung bình này trên biểu đồ, bạn có thể quan sát phân phối lấy mẫu của giá trị trung bình. Bạn không cần phải lo lắng về số liệu thống kê kiểm tra, công thức và giả định

Quy trình bootstrap sử dụng các phân phối lấy mẫu này làm nền tảng cho khoảng tin cậy và kiểm tra giả thuyết. Chúng ta hãy xem quy trình lấy mẫu lại này hoạt động như thế nào

Bài viết liên quan. Cách thức hoạt động của các bài kiểm tra t và cách thức hoạt động của bài kiểm tra F trong ANOVA

Cách Bootstrapping lấy mẫu lại dữ liệu của bạn để tạo bộ dữ liệu mô phỏng

Bootstrapping lấy mẫu lại tập dữ liệu gốc với sự thay thế hàng nghìn lần để tạo tập dữ liệu mô phỏng. Quá trình này liên quan đến việc vẽ các mẫu ngẫu nhiên từ tập dữ liệu gốc. Đây là cách nó hoạt động

  1. Phương pháp bootstrap có xác suất vẽ ngẫu nhiên từng điểm dữ liệu gốc bằng nhau để đưa vào bộ dữ liệu được lấy mẫu lại
  2. Quy trình có thể chọn một điểm dữ liệu nhiều lần cho tập dữ liệu được lấy mẫu lại. Thuộc tính này là khía cạnh “với sự thay thế” của quy trình
  3. Quy trình tạo các tập dữ liệu được lấy mẫu lại có cùng kích thước với tập dữ liệu gốc

Quá trình kết thúc với tập dữ liệu mô phỏng của bạn có nhiều cách kết hợp khác nhau của các giá trị tồn tại trong tập dữ liệu gốc. Mỗi bộ dữ liệu mô phỏng có bộ thống kê mẫu riêng, chẳng hạn như giá trị trung bình, trung bình và độ lệch chuẩn. Quy trình khởi động sử dụng phân phối thống kê mẫu trên các mẫu mô phỏng làm phân phối lấy mẫu

Ví dụ về các mẫu Bootstrap

Hãy làm việc thông qua một trường hợp dễ dàng. Giả sử một nghiên cứu thu thập năm điểm dữ liệu và tạo bốn mẫu bootstrap, như hình bên dưới

Nhược điểm của số liệu thống kê bootstrapping
Nhược điểm của số liệu thống kê bootstrapping

Ví dụ đơn giản này minh họa các thuộc tính của các mẫu bootstrap. Các tập dữ liệu được lấy mẫu lại có cùng kích thước với tập dữ liệu gốc và chỉ chứa các giá trị tồn tại trong tập hợp gốc. Hơn nữa, các giá trị này có thể xuất hiện thường xuyên hơn hoặc ít hơn trong tập dữ liệu được lấy mẫu lại so với trong tập dữ liệu gốc. Cuối cùng, quá trình lấy mẫu lại là ngẫu nhiên và có thể đã tạo ra một bộ dữ liệu mô phỏng khác

Tất nhiên, trong một nghiên cứu thực tế, bạn hy vọng sẽ có cỡ mẫu lớn hơn và bạn sẽ tạo ra hàng nghìn bộ dữ liệu được lấy mẫu lại. Với số lượng lớn các tập dữ liệu được lấy mẫu lại, bạn sẽ luôn sử dụng máy tính để thực hiện các phân tích này

Bootstrapping hoạt động tốt như thế nào?

Nhược điểm của số liệu thống kê bootstrapping
Nhược điểm của số liệu thống kê bootstrapping
Lấy mẫu lại liên quan đến việc sử dụng lại một tập dữ liệu của bạn nhiều lần. Nó gần như có vẻ quá tốt để trở thành sự thật. Trên thực tế, thuật ngữ “bootstrapping” bắt nguồn từ cụm từ không thể tự nâng mình lên bằng chính nỗ lực của chính bạn. Tuy nhiên, việc sử dụng sức mạnh của máy tính để lấy mẫu lại ngẫu nhiên một tập dữ liệu của bạn để tạo hàng nghìn tập dữ liệu mô phỏng sẽ tạo ra kết quả có ý nghĩa

Phương pháp bootstrap đã có từ năm 1979 và việc sử dụng nó đã tăng lên. Các nghiên cứu khác nhau trong nhiều thập kỷ qua đã xác định rằng phân phối lấy mẫu bootstrap gần đúng với phân phối lấy mẫu chính xác

Để hiểu cách thức hoạt động của nó, hãy nhớ rằng bootstrapping không tạo ra dữ liệu mới. Thay vào đó, nó coi mẫu ban đầu là đại diện cho dân số thực và sau đó lấy các mẫu ngẫu nhiên từ mẫu đó. Do đó, giả định trung tâm cho bootstrapping là mẫu ban đầu đại diện chính xác cho dân số thực tế

Quá trình lấy mẫu lại tạo ra nhiều mẫu có thể mà một nghiên cứu có thể đã rút ra. Các kết hợp khác nhau của các giá trị trong các mẫu mô phỏng cùng nhau cung cấp ước tính về độ biến thiên giữa các mẫu ngẫu nhiên được lấy từ cùng một tổng thể. Phạm vi của các mẫu tiềm năng này cho phép quy trình xây dựng khoảng tin cậy và thực hiện kiểm tra giả thuyết. Điều quan trọng là, khi kích thước mẫu tăng lên, bootstrapping hội tụ trên phân phối lấy mẫu chính xác trong hầu hết các điều kiện

Bây giờ, hãy xem một ví dụ về quy trình này đang hoạt động

Ví dụ về việc sử dụng Bootstrapping để tạo khoảng tin cậy

Đối với ví dụ này, tôi sẽ sử dụng bootstrapping để xây dựng khoảng tin cậy cho tập dữ liệu chứa tỷ lệ phần trăm mỡ cơ thể của 92 cô gái vị thành niên. Tôi đã sử dụng tập dữ liệu này trong bài đăng của mình về việc xác định phân phối dữ liệu của bạn. Những dữ liệu này không tuân theo phân phối bình thường. Bởi vì nó không đáp ứng giả định về tính quy tắc của thống kê truyền thống, nên nó là một ứng cử viên sáng giá cho việc khởi động. Mặc dù, kích thước mẫu lớn có thể cho phép chúng ta bỏ qua giả định này. Biểu đồ bên dưới hiển thị phân phối của dữ liệu mẫu ban đầu

Nhược điểm của số liệu thống kê bootstrapping
Nhược điểm của số liệu thống kê bootstrapping

Tải xuống tập dữ liệu CSV để tự mình dùng thử. body_fat

Thực hiện thủ tục bootstrap

Để tạo các mẫu khởi động, tôi đang sử dụng Statistics101, đây là một chương trình phần mềm quà tặng. Đây là một chương trình mô phỏng tuyệt vời mà tôi cũng đã sử dụng để giải Bài toán Monty Hall

Sử dụng ngôn ngữ lập trình của nó, tôi đã viết một tập lệnh lấy tập dữ liệu ban đầu của mình và lấy mẫu lại với sự thay thế 500.000 lần. Quá trình này tạo ra 500.000 mẫu khởi động với 92 quan sát trong mỗi mẫu. Chương trình tính toán giá trị trung bình của từng mẫu và vẽ biểu đồ 500.000 giá trị trung bình thu được trong biểu đồ bên dưới. Các nhà thống kê gọi loại phân phối này là phân phối lấy mẫu của phương tiện. Các phương pháp khởi động tạo chúng bằng cách lấy mẫu lại, trong khi các phương pháp truyền thống sử dụng các phương trình. Tải xuống tập lệnh này để tự chạy. BodyFatBootstrapCI

Nhược điểm của số liệu thống kê bootstrapping
Nhược điểm của số liệu thống kê bootstrapping

Để tạo khoảng tin cậy bootstrapped, chúng tôi chỉ cần sử dụng phần trăm. Đối với khoảng tin cậy 95%, chúng ta cần xác định 95% ở giữa của phân phối. Để làm điều đó, chúng tôi sử dụng 97. phân vị thứ 5 và 2. phân vị thứ 5 (97. 5 – 2. 5 = 95). Nói cách khác, nếu chúng ta sắp xếp tất cả các mẫu có nghĩa là từ thấp đến cao, rồi cắt bỏ 2 mẫu thấp nhất. 5% và cao nhất 2. 5% phương tiện, 95% trung bình còn lại. Phạm vi đó là khoảng tin cậy bootstrapped của chúng tôi

Đối với dữ liệu về lượng mỡ trong cơ thể, chương trình tính toán khoảng tin cậy 95% bootstrapped của giá trị trung bình [27. 16 30. 01]. Chúng tôi có thể tin tưởng 95% rằng trung bình dân số nằm trong phạm vi này

Khoảng này có cùng độ rộng với khoảng tin cậy truyền thống cho những dữ liệu này và nó chỉ khác một vài điểm phần trăm. Hai phương pháp rất gần

Lưu ý cách phân phối lấy mẫu trong biểu đồ xấp xỉ phân phối bình thường mặc dù phân phối dữ liệu cơ bản bị sai lệch. Xấp xỉ này xảy ra nhờ định lý giới hạn trung tâm. Khi kích thước mẫu tăng lên, phân phối lấy mẫu sẽ hội tụ về phân phối chuẩn bất kể phân phối dữ liệu cơ bản (với một vài ngoại lệ). Để biết thêm thông tin về định lý này, hãy đọc bài đăng của tôi về Định lý giới hạn trung tâm

So sánh quy trình này với cách các phương pháp thống kê truyền thống tạo khoảng tin cậy

Lợi ích của Bootstrapping so với thống kê truyền thống

Người đọc blog của tôi biết rằng tôi thích giải thích trực quan về các phương pháp thống kê phức tạp. Và, bootstrapping phù hợp với triết lý này. Quá trình này dễ hiểu hơn nhiều so với các phương trình phức tạp cần thiết cho phân phối xác suất của các phương pháp truyền thống. Tuy nhiên, bootstrapping mang lại nhiều lợi ích hơn là chỉ dễ hiểu

Bootstrapping không đưa ra các giả định về việc phân phối dữ liệu của bạn. Bạn chỉ lấy mẫu lại dữ liệu của mình và sử dụng bất kỳ phân phối lấy mẫu nào xuất hiện. Sau đó, bạn làm việc với bản phân phối đó, bất kể nó là gì, như chúng tôi đã làm trong ví dụ

Ngược lại, các phương pháp truyền thống thường cho rằng dữ liệu tuân theo phân phối chuẩn hoặc một số phân phối khác. Đối với phân phối chuẩn, định lý giới hạn trung tâm có thể cho phép bạn bỏ qua giả định này đối với các cỡ mẫu lớn hơn ~30. Do đó, bạn có thể sử dụng bootstrapping cho nhiều bản phân phối hơn, các bản phân phối chưa biết và kích thước mẫu nhỏ hơn. Cỡ mẫu nhỏ đến 10 là có thể sử dụng được

Theo hướng này, tất cả các phương pháp truyền thống đều sử dụng các phương trình ước tính phân phối lấy mẫu cho một thống kê mẫu cụ thể khi dữ liệu tuân theo một phân phối cụ thể. Thật không may, các công thức cho tất cả các kết hợp thống kê mẫu và phân phối dữ liệu không tồn tại. Ví dụ: không có phân phối lấy mẫu đã biết cho trung vị, điều này làm cho quá trình khởi động trở thành phân tích hoàn hảo cho nó. Các phân tích khác có các giả định như sự bằng nhau của phương sai. Tuy nhiên, không có vấn đề nào trong số này là vấn đề đối với bootstrapping

Tôi có thể sử dụng Bootstrapping để thống kê mẫu nào?

Mặc dù bài đăng trên blog này tập trung vào ý nghĩa mẫu, nhưng phương pháp bootstrap có thể phân tích một loạt các thuộc tính và thống kê mẫu. Những số liệu thống kê này bao gồm giá trị trung bình, trung bình, chế độ, độ lệch chuẩn, phân tích phương sai, tương quan, hệ số hồi quy, tỷ lệ, tỷ lệ chênh lệch, phương sai trong dữ liệu nhị phân và thống kê đa biến trong số những thứ khác

Có một số điều kiện, chủ yếu là bí truyền, khi bootstrapping không phù hợp, chẳng hạn như khi phương sai tổng thể là vô hạn hoặc khi các giá trị tổng thể không liên tục ở mức trung bình. Và, có nhiều điều kiện khác nhau trong đó các điều chỉnh đối với quy trình khởi động là cần thiết để điều chỉnh độ lệch. Tuy nhiên, những trường hợp đó vượt ra ngoài phạm vi của bài đăng blog giới thiệu này

Những lợi thế của số liệu thống kê bootstrapping là gì?

“Ưu điểm của bootstrapping là đó là một cách đơn giản để lấy các ước tính về sai số chuẩn và khoảng tin cậy , đồng thời thuận tiện .

Bootstrapping có làm giảm sự thiên vị không?

Có sự thay đổi có hệ thống giữa các ước tính mẫu trung bình và giá trị tổng thể. do đó, trung bình mẫu là một ước tính sai lệch của trung bình dân số. May mắn thay, sự sai lệch này có thể được sửa chữa bằng bootstrap .

Bootstrapping có đáng tin cậy không?

Bootstrap cũng là một cách thích hợp để kiểm soát và kiểm tra tính ổn định của kết quả. Mặc dù đối với hầu hết các vấn đề, không thể biết khoảng tin cậy thực sự, bootstrap chính xác hơn một cách tiệm cận so với các khoảng tiêu chuẩn thu được bằng cách sử dụng phương sai mẫu và các giả định về tính quy tắc

Bootstrapping có làm giảm Overfitting không?

Bootstrap aggregating, còn được gọi là đóng bao (từ bootstrap aggregating), là một siêu thuật toán tập hợp máy học được thiết kế để cải thiện tính ổn định và độ chính xác của các thuật toán máy học được sử dụng trong phân loại và hồi quy thống kê. Nó cũng làm giảm phương sai và giúp tránh khớp quá mức .