Khi nào tôi nên sử dụng phương pháp bootstrap?

Bootstrap là một phương pháp mạnh mẽ dựa trên máy tính để suy luận thống kê mà không cần dựa vào quá nhiều giả định. Lần đầu tiên tôi áp dụng phương pháp bootstrap là trong một dự án thử nghiệm A/B. Lúc đó tôi như sử dụng một phép thuật mạnh mẽ để hình thành phân phối mẫu chỉ từ một dữ liệu mẫu. Không có công thức cần thiết cho suy luận thống kê của tôi. Không chỉ vậy, trên thực tế, nó còn được ứng dụng rộng rãi trong các suy luận thống kê khác như khoảng tin cậy, mô hình hồi quy, thậm chí cả lĩnh vực học máy. Điều đó dẫn tôi đến một số nghiên cứu về bootstrap để bổ sung kiến ​​thức suy luận thống kê mang tính thực tế hơn ngoài các lớp thống kê toán học lý thuyết của tôi

Bài viết này chủ yếu tập trung giới thiệu các khái niệm cốt lõi của Bootstrap hơn là ứng dụng của nó. Nhưng một số mã nhúng sẽ được sử dụng như một khái niệm minh họa. Chúng tôi sẽ giới thiệu phương pháp lấy mẫu lại Bootstrap, sau đó minh họa động lực của Bootstrap khi nó được giới thiệu bởi Bradley Efron (1979) và minh họa ý tưởng chung về bootstrap

Kiến thức cơ bản liên quan

Thực tế, những ý tưởng đằng sau bootstrap đang chứa đựng rất nhiều chủ đề thống kê cần được quan tâm. Tuy nhiên, đây là một cơ hội tốt để tóm tắt lại một số khái niệm suy luận thống kê. Khái niệm thống kê liên quan bao gồm

  • Giải tích cơ bản và khái niệm hàm số
  • Giá trị trung bình, phương sai và độ lệch chuẩn
  • Hàm phân phối (CDF) và Hàm mật độ xác suất (PDF)
  • Phân phối lấy mẫu
  • Định lý giới hạn trung tâm, Luật số lớn và hội tụ trong xác suất
  • Chức năng thống kê, chức năng phân phối theo kinh nghiệm và nguyên tắc trình cắm

Có một số kiến ​​thức cơ bản ở trên sẽ giúp đạt được những ý tưởng cơ bản đằng sau bootstrap. Một số ý tưởng có thể bao gồm thống kê trước, nhưng tôi sẽ sử dụng một cách đơn giản và các biểu thức toán học không chính thức để minh họa ý tưởng cơ bản đơn giản nhất có thể. Các liên kết ở cuối bài viết sẽ được cung cấp nếu bạn muốn tìm hiểu thêm về các khái niệm này

Phương pháp lấy mẫu Bootstrap

Ý tưởng cơ bản của bootstrap là đưa ra suy luận về ước tính (chẳng hạn như trung bình mẫu) cho tham số dân số θ (chẳng hạn như trung bình dân số) trên dữ liệu mẫu. Đây là một phương pháp lấy mẫu lại bằng cách lấy mẫu độc lập với sự thay thế từ dữ liệu mẫu hiện có với cùng kích thước mẫu n và thực hiện suy luận giữa các dữ liệu được lấy mẫu lại này

Nói chung, bootstrap bao gồm các bước sau

  1. Một mẫu từ tổng thể với cỡ mẫu n
  2. Vẽ một mẫu từ dữ liệu mẫu ban đầu với sự thay thế bằng kích thước n và sao chép B lần, mỗi mẫu được lấy mẫu lại được gọi là Mẫu Bootstrap và sẽ có hoàn toàn B Mẫu Bootstrap
  3. Đánh giá thống kê của θ cho từng Mẫu Bootstrap và sẽ có toàn bộ B ước tính của θ
  4. Xây dựng phân phối lấy mẫu với các số liệu thống kê B Bootstrap này và sử dụng nó để đưa ra suy luận thống kê hơn nữa, chẳng hạn như
  • Ước tính lỗi tiêu chuẩn của thống kê cho θ
  • Lấy khoảng tin cậy cho θ

Chúng tôi có thể thấy chúng tôi tạo các điểm dữ liệu mới bằng cách lấy mẫu lại từ một mẫu hiện có và đưa ra suy luận chỉ dựa trên các điểm dữ liệu mới này

Làm thế nào và tại sao bootstrap hoạt động?

Trong bài viết này, tôi sẽ chia câu hỏi lớn này thành ba phần

  1. Động lực ban đầu mà Efron giới thiệu bootstrap là gì?
  2. Tại sao sử dụng kỹ thuật mô phỏng?
  3. Ý tưởng chính mà chúng ta cần rút ra một mẫu từ mẫu ban đầu có thay thế là gì không?
I. Động lực ban đầu- Lỗi tiêu chuẩn của người ước tính

Ý tưởng cốt lõi của kỹ thuật bootstrap là tạo ra một số loại suy luận thống kê với sự trợ giúp của sức mạnh máy tính hiện đại. Khi Efron giới thiệu phương pháp này, nó đặc biệt được thúc đẩy bởi việc đánh giá độ chính xác của một công cụ ước tính trong lĩnh vực suy luận thống kê. Thông thường, sai số chuẩn ước tính là bước đầu tiên để suy nghĩ nghiêm túc về các ước tính thống kê chính xác

Bây giờ, để minh họa cách bootstrap hoạt động và lỗi tiêu chuẩn của công cụ ước tính đóng vai trò quan trọng như thế nào, hãy bắt đầu với một trường hợp đơn giản

Trường hợp kịch bản

Hãy tưởng tượng rằng bạn muốn tóm tắt số lần một ngày sinh viên nhấc điện thoại thông minh của họ trong phòng thí nghiệm của bạn với tổng số 100 sinh viên. Thật khó để tóm tắt số lượng xe bán tải trong toàn bộ phòng thí nghiệm như một cách điều tra dân số. Thay vào đó, bạn thực hiện một cuộc khảo sát trực tuyến cũng cung cấp APP đếm hàng. Trong vài ngày tới, bạn sẽ nhận được phản hồi của 30 sinh viên về số lần lấy hàng của họ trong một ngày nhất định. Bạn đã tính giá trị trung bình của 30 lần lấy hàng này và nhận được ước tính cho số lần lấy hàng là 228. 06 lần

Mã cho trường hợp này, chỉ cần kiểm tra

Trong lĩnh vực thống kê, quá trình trên được gọi là ước tính điểm. Những gì chúng tôi muốn biết là số lượng xe bán tải thực sự trong toàn bộ phòng thí nghiệm. Chúng tôi không có dữ liệu điều tra dân số, những gì chúng tôi có thể làm chỉ là đánh giá tham số dân số thông qua một công cụ ước tính dựa trên một mẫu được quan sát và sau đó lấy ước tính dưới dạng đánh giá mức sử dụng điện thoại thông minh trung bình trong phòng thí nghiệm

  • Ước tính/Thống kê. Quy tắc tính toán ước tính. Trong trường hợp này là Ý nghĩa mẫu, luôn được ký hiệu là X̄
  • Số liệu dân số. Tóm tắt số về dân số. Trong trường hợp này là thời gian nhận điện thoại trung bình mỗi ngày trong phòng thí nghiệm của chúng tôi, luôn được ký hiệu là μ

Một câu hỏi quan trọng là - Kết quả ước tính này chính xác đến mức nào?

Do sự thay đổi của mẫu, hầu như không bao giờ X̄ = μ xảy ra. Do đó, bên cạnh việc báo cáo giá trị của ước tính điểm, cần đưa ra một số dấu hiệu về độ chính xác. Thước đo phổ biến của độ chính xác là sai số chuẩn của ước lượng

Lỗi tiêu chuẩn

Lỗi tiêu chuẩn của công cụ ước tính là độ lệch chuẩn. Nó cho chúng tôi biết ước tính mẫu của bạn sai lệch bao nhiêu so với tham số thực tế. Nếu bản thân lỗi tiêu chuẩn liên quan đến các tham số không xác định, chúng tôi đã sử dụng lỗi tiêu chuẩn ước tính bằng cách thay thế các tham số không xác định bằng ước tính của các tham số

Hãy lấy một ví dụ. Trong trường hợp của chúng tôi, công cụ ước tính của chúng tôi là trung bình mẫu và đối với trung bình mẫu (và gần như chỉ một. ), chúng ta có một công thức đơn giản để dễ dàng thu được sai số chuẩn của nó

Tuy nhiên, độ lệch chuẩn của dân số σ luôn không xác định trong thế giới thực, vì vậy phép đo phổ biến nhất là sai số chuẩn ước tính, sử dụng độ lệch chuẩn mẫu S làm độ lệch chuẩn ước tính của dân số

Trong trường hợp của chúng tôi, chúng tôi có mẫu với 30 và giá trị trung bình của mẫu là 228. 06 và độ lệch chuẩn mẫu là 166. 97, vì vậy sai số chuẩn ước tính cho giá trị trung bình mẫu của chúng tôi là 166. 97/ √30 = 30. 48

Lỗi tiêu chuẩn trong suy luận thống kê

Bây giờ chúng tôi đã có lỗi tiêu chuẩn ước tính của chúng tôi. Làm thế nào có thể sử dụng lỗi tiêu chuẩn trong suy luận thống kê?

Nói một cách đại khái, nếu một công cụ ước tính có phân phối chuẩn hoặc phân phối xấp xỉ chuẩn, thì chúng tôi hy vọng rằng ước tính của chúng tôi sẽ ít hơn một lỗi tiêu chuẩn so với kỳ vọng của nó khoảng 68% thời gian và ít hơn hai lỗi tiêu chuẩn khoảng 95

Trong trường hợp của chúng ta, hãy nhớ rằng mẫu mà chúng ta đã thu thập là 30 mẫu phản hồi, đủ lớn theo quy tắc ngón tay cái, Định lý giới hạn trung tâm cho chúng ta biết phân phối lấy mẫu của X̄ gần giống với phân phối chuẩn. Kết hợp lỗi tiêu chuẩn ước tính đó, chúng ta có thể nhận được

Chúng ta có thể tin tưởng một cách hợp lý rằng giá trị đúng của μ, số lần trung bình một ngày học sinh cầm điện thoại thông minh trong phòng thí nghiệm của chúng ta, nằm trong khoảng 2 sai số chuẩn của X̄, đó là (228. 06 −2×30. 48, 228. 06+2×30. 48) = (167. 1, 289. 02)

Lý tưởng và thực tế trong thế giới thống kê

Chúng tôi đã thực hiện suy luận thống kê của chúng tôi. Tuy nhiên, làm thế nào suy luận này diễn ra tốt đẹp theo một số giả định nghiêm ngặt

Hãy nhớ lại những giả định hoặc định lý cổ điển mà chúng ta có thể đã sử dụng cho đến nay

  • Có thể dễ dàng ước tính sai số chuẩn của giá trị trung bình mẫu của chúng tôi, chúng tôi đã sử dụng độ lệch chuẩn của mẫu làm công cụ ước tính và một công thức đơn giản để thu được sai số chuẩn ước tính
  • Chúng tôi cho rằng chúng tôi biết hoặc có thể ước tính về dân số của công cụ ước tính. Trong trường hợp của chúng tôi là phân phối bình thường gần đúng

Tuy nhiên, trong thế giới thực của chúng ta, đôi khi thật khó để đáp ứng các giả định hoặc định lý như trên

  • Thật khó để biết thông tin về dân số, hoặc nó phân phối
  • Sai số chuẩn của một ước tính nói chung khó đánh giá. Hầu hết thời gian, không có công thức chính xác như sai số chuẩn của trung bình mẫu. Nếu bây giờ, chúng ta muốn suy luận về trung bình của số lần mua điện thoại thông minh, thì sai số tiêu chuẩn của trung bình mẫu là bao nhiêu?

Đây là lý do tại sao bootstrap ra đời để giải quyết các loại vấn đề này. Khi các giả định này bị vi phạm hoặc khi không có công thức nào để ước tính các lỗi tiêu chuẩn, bootstrap là sự lựa chọn hiệu quả

II. Giải thích về Bootstrap

Để minh họa các khái niệm chính, giải thích sau đây sẽ phát triển một số định nghĩa và ký hiệu toán học, là loại không chính thức để cung cấp thêm trực giác và hiểu biết

1. Kịch bản ban đầu

Giả sử chúng ta muốn ước tính sai số chuẩn của thống kê để suy luận về tham số tổng thể, chẳng hạn như để xây dựng khoảng tin cậy tương ứng (giống như những gì chúng ta đã làm trước đây. ). Và

  • Chúng tôi không biết gì về dân số
  • Không có công thức chính xác để ước lượng sai số chuẩn của thống kê

Cho X1, X2, …, Xn là mẫu ngẫu nhiên từ tổng thể P với hàm phân phối F. Và đặt M= g(X1, X2, …, Xn), là thống kê của chúng ta cho tham số quan tâm, nghĩa là thống kê là một hàm của dữ liệu mẫu X1, X2, …, Xn. Điều chúng ta muốn biết là phương sai của M, ký hiệu là Var(M)

  • Đầu tiên, vì chúng ta không biết gì về dân số nên chúng ta không thể xác định giá trị của Var(M) yêu cầu tham số dân số đã biết, vì vậy chúng ta cần ước tính Var(M) với sai số chuẩn ước tính, ký hiệu là EST_Var( . (Bạn có nhớ sai số chuẩn ước tính của giá trị trung bình mẫu không?)
  • Thứ hai, trong thế giới thực, chúng ta luôn không có một công thức đơn giản để đánh giá EST_Var(M) ngoài giá trị trung bình của mẫu

Nó dẫn đến việc chúng ta cần tính gần đúng EST_Var(M). Thế nào?

2. mô phỏng

Hãy nói về ý tưởng mô phỏng. Nó rất hữu ích để lấy thông tin về phân phối lấy mẫu của thống kê với sự trợ giúp của máy tính. Nhưng nó có một giả định quan trọng — Giả sử chúng ta biết dân số P

Bây giờ, đặt X1, X2, … , Xn là một mẫu ngẫu nhiên từ một tổng thể và giả sử M= g(X1, X2, …, Xn) là thống kê quan tâm, chúng ta có thể tính gần đúng giá trị trung bình và phương sai của thống kê M bằng cách mô phỏng như sau

  1. Rút mẫu ngẫu nhiên cỡ n từ P
  2. Tính thống kê cho mẫu
  3. Replicate B lần cho process 1. và 2 và lấy số liệu thống kê B
  4. Lấy giá trị trung bình và phương sai cho các số liệu thống kê B này

Tại sao mô phỏng này hoạt động?

  • Giá trị trung bình của thống kê B này hội tụ thành giá trị trung bình thực của thống kê M là B → ∞

Và theo Định luật số lớn và một số định lý liên quan đến Sự hội tụ trong Xác suất

  • Phương sai mẫu của thống kê B này hội tụ về phương sai thực của thống kê M là B → ∞

Với sự trợ giúp của máy tính, chúng ta có thể làm cho B lớn bao nhiêu tùy thích để gần đúng với phân phối lấy mẫu của thống kê M

Sau đây là mã Python ví dụ để mô phỏng trong trường hợp chọn điện thoại trước đó. Tôi sử dụng B=100000 và giá trị trung bình mô phỏng và sai số chuẩn cho giá trị trung bình mẫu rất gần với kết quả lý thuyết trong hai ô cuối cùng. Vui lòng kiểm tra

Mã ví dụ cho mô phỏng được áp dụng với trường hợp chọn điện thoại trước đó bắt đầu từ ô [10]

3. Chức năng phân phối theo kinh nghiệm và Nguyên tắc trình cắm thêm

Chúng tôi đã học được ý tưởng mô phỏng. Bây giờ, chúng ta có thể tính gần đúng EST_Var(M) bằng mô phỏng không? . Sự thật là chúng tôi không biết gì về P. Để giải quyết vấn đề này, một trong những thành phần quan trọng nhất trong Phương pháp bootstrap được thông qua

Sử dụng hàm phân phối theo kinh nghiệm để tính gần đúng hàm phân phối của dân số và áp dụng Nguyên tắc phần bổ trợ để ước tính Var(M) — công cụ ước tính phần bổ trợ

(1) Hàm phân phối thực nghiệm

Ý tưởng về Hàm phân phối theo kinh nghiệm (EDF) là xây dựng hàm phân phối (CDF) từ một tập dữ liệu hiện có. EDF thường xấp xỉ CDF khá tốt, đặc biệt đối với cỡ mẫu lớn. Trên thực tế, đây là một phương pháp phổ biến, hữu ích để ước tính CDF của một biến ngẫu nhiên trong thực tế.

EDF là một phân phối rời rạc mang lại trọng số bằng nhau cho từng điểm dữ liệu (i. e. , nó gán xác suất 1/n cho mỗi trong số n quan sát ban đầu) và tạo thành một hàm phân phối tích lũy là một hàm bước nhảy lên 1/n tại mỗi điểm trong số n điểm dữ liệu

(2) Chức năng thống kê

Bootstrap sử dụng EDF làm công cụ ước tính cho CDF dân số. Tuy nhiên, chúng tôi biết EDF là một loại hàm phân phối tích lũy (CDF). Để áp dụng EDF làm công cụ ước tính cho thống kê M của chúng ta, chúng ta cần tạo dạng của M dưới dạng một hàm của loại CDF, ngay cả tham số quan tâm cũng như có một số đường cơ sở. Để làm được điều này, một cách phổ biến là khái niệm gọi là Hàm thống kê. Nói một cách đại khái, hàm thống kê là bất kỳ hàm nào của hàm phân phối. Hãy lấy một ví dụ

Giả sử chúng ta quan tâm đến các tham số của dân số. Trong lĩnh vực thống kê, luôn tồn tại tình huống các tham số quan tâm là một hàm của hàm phân phối, chúng được gọi là hàm thống kê. Danh sách sau đây có nghĩa là dân số E(X) là một chức năng thống kê

Từ trên, chúng ta có thể thấy giá trị trung bình của dân số E(X) cũng có thể được biểu thị dưới dạng CDF của dân số F — đây là một hàm thống kê. Tất nhiên, biểu thức này có thể được áp dụng cho bất kỳ hàm nào khác ngoài giá trị trung bình, chẳng hạn như phương sai

Hàm thống kê có thể được xem như đại lượng mô tả các tính năng của dân số. Giá trị trung bình, phương sai, trung vị, lượng tử của F là những đặc điểm của dân số. Như vậy, sử dụng hàm thống kê, chúng ta có một cách chặt chẽ hơn để xác định các khái niệm về tham số dân số. Do đó, có thể nói, thống kê M của chúng ta có thể là. M=g(F), với quần thể CDF F

(3) Nguyên lý plug-in = EDF + Chức năng thống kê

Ta đã biến thống kê của mình là M= g(X1, X2, …, Xn)=g(F) là một dạng hàm thống kê. Tuy nhiên, chúng tôi không biết F. Vì vậy, chúng tôi phải "cắm" một công cụ ước tính cho F, "vào" M=g(F) của chúng tôi, để làm cho M này có thể được đánh giá

Nó được gọi là nguyên tắc plug-in. Nói chung, nguyên tắc plug-in là một phương pháp ước tính các hàm thống kê từ phân phối tổng thể bằng cách đánh giá các hàm tương tự, nhưng với phân phối theo kinh nghiệm dựa trên mẫu. Ước tính này được gọi là ước tính bổ sung cho tham số dân số quan tâm. Ví dụ: trung bình của phân bố dân số có thể được xấp xỉ bằng trung bình của phân phối theo kinh nghiệm của một mẫu. Phân phối theo kinh nghiệm ở đây chỉ được hình thành theo mẫu vì chúng ta không biết dân số. Nói một cách đơn giản

  • Nếu tham số quan tâm của chúng ta , giả sử θ, có dạng hàm thống kê θ=g(F), mà F là CDF dân số
  • Công cụ ước tính plug-in cho θ=g(F), được định nghĩa là θ_hat=g(F_hat)

  • Từ công thức trên, chúng ta có thể thấy chúng ta “cắm” θ_hat và F_hat cho θ và F chưa biết. F_hat ở đây, hoàn toàn được ước tính bằng dữ liệu mẫu
  • Lưu ý rằng cả θ và θ_hat đều được xác định bởi cùng một hàm g(. )

Hãy lấy một ví dụ trung bình như sau, chúng ta có thể thấy g(. ) cho giá trị trung bình là — tính trung bình tất cả các điểm dữ liệu và nó cũng được áp dụng cho giá trị trung bình mẫu. F_hat ở đây, được lấy mẫu làm công cụ ước tính của F. Chúng tôi nói rằng trung bình mẫu là một công cụ ước tính plug-in của trung bình dân số. (Kết quả rõ ràng hơn sẽ sớm được cung cấp. )

Vì vậy, F_hat là gì?

Hãy xem công cụ ước tính M= g(X1, X2, …, Xn)=g(F) của chúng ta sẽ trông như thế nào nếu chúng ta cắm EDF vào nó

  • Đặt Thống kê quan tâm là M=g(X1, X2, …, Xn)= g(F) từ một quần thể CDF F
  • Ta không biết F nên ta xây dựng công cụ ước lượng Plug-in cho M, M trở thành M_hat= g(F_hat). Hãy viết lại M_hat như sau

Chúng tôi biết EDF là một phân phối rời rạc với hàm khối lượng xác suất PMF gán xác suất 1/ n cho mỗi trong số n quan sát, do đó, theo điều này, M_hat trở thành

Theo điều này, đối với ví dụ trung bình của chúng tôi, chúng tôi có thể tìm thấy công cụ ước tính bổ trợ cho giá trị trung bình μ chỉ là giá trị trung bình mẫu

Do đó, chúng tôi thông qua Nguyên tắc trình cắm, để ước tính cho M=g(F), giả sử M_hat=g(F_hat). Và hãy nhớ rằng, cái mà chúng ta muốn tìm hiểu là Var(M) và chúng ta tính gần đúng Var(M) theo Var(M_hat). Nhưng trong trường hợp chung, không có công thức chính xác nào cho Var(M_hat) ngoài giá trị trung bình mẫu. Nó dẫn chúng ta đến việc áp dụng một mô phỏng

(4) Ước tính phương sai Bootstrap

Gần như là bước cuối cùng. Hãy làm mới toàn bộ quy trình với khái niệm Nguyên tắc phần bổ trợ

Mục tiêu của chúng tôi là ước tính phương sai của công cụ ước tính M của chúng tôi, đó là Var(M). Nguyên tắc Bootstrap như sau

  1. Chúng tôi không biết dân số P với CDF được ký hiệu là F, vì vậy bootstrap sử dụng hàm phân phối theo kinh nghiệm (EDF) làm ước tính của F
  2. Sử dụng dữ liệu mẫu hiện có của chúng tôi để tạo thành EDF dưới dạng dân số ước tính
  3. Đã áp dụng Nguyên tắc trình cắm để làm cho M=g(F) có thể được đánh giá bằng EDF. Do đó, M=g(F) trở thành M_hat= g(F_hat), đó là công cụ ước tính được bổ trợ với EDF — F_hat
  4. Đưa mô phỏng về gần đúng với Var(M_hat)

Nhớ lại rằng để thực hiện phiên bản mô phỏng ban đầu, chúng ta cần lấy dữ liệu mẫu từ dân số, lấy thống kê M=g(F) từ nó và sao chép quy trình B lần, sau đó lấy phương sai của thống kê B này để tính gần đúng giá trị thực.

Vì vậy, để thực hiện mô phỏng ở bước 4, chúng ta cần

  1. Vẽ dữ liệu mẫu từ EDF
  2. Nhận thống kê trình cắm M_hat= g(F_hat)
  3. Sao chép hai thủ tục B lần
  4. Nhận phương sai của các thống kê B này, để tính gần đúng phương sai thực sự của thống kê trình cắm. (Đây là phần dễ bị nhầm lẫn. )

Mô phỏng là gì?

Hai câu hỏi ở đây (tôi hứa đây là hai câu hỏi cuối cùng. )

  1. Vẽ từ EDF trông như thế nào trong bước 1?
  2. Mô phỏng này hoạt động như thế nào?

Vẽ từ EDF trông như thế nào?

Chúng tôi biết EDF xây dựng CDF từ dữ liệu mẫu hiện có X1, …, Xn và theo định nghĩa, nó đặt khối lượng 1/n tại mỗi điểm dữ liệu mẫu. Do đó, vẽ một mẫu ngẫu nhiên từ EDF, có thể được coi là vẽ n quan sát, với sự thay thế, từ dữ liệu mẫu hiện có của chúng tôi X1, …, Xn. Vì vậy, đó là lý do tại sao mẫu bootstrap được lấy mẫu thay thế như được hiển thị trước đó

Mô phỏng hoạt động như thế nào?

Phương sai của công cụ ước tính trình cắm thêm M_hat=g(F_hat) là thứ mà mô phỏng bootstrap muốn mô phỏng. Khi bắt đầu mô phỏng, chúng tôi rút ra các quan sát bằng cách thay thế từ dữ liệu mẫu hiện có của chúng tôi X1, …, Xn. Hãy biểu thị các dữ liệu được lấy mẫu lại này X1* , …, Xn*. Bây giờ, hãy so sánh lại mô phỏng bootstrap với phiên bản mô phỏng ban đầu của chúng tôi

Quá trình mô phỏng ban đầu cho Var(M=g(F))

Original Simulation Version- Approximate EST_Var(M|F) with known FLet X1, X2, … , Xn be a random sample from a population P and assume M= g(X1, X2, …, Xn) is the statistic of interest, we could approximate variance of statistic M by simulation as follows:1. Draw random sample with size n from P.
2. Compute statistic for the sample.
3. Replicate B times for process 1. and 2 and get B statistics.
4. Get the variance for these B statistics.

Tương tự với phần Mô phỏng trước để mô phỏng Var(M)

Mô phỏng Bootstrap cho Var(M_hat=g(F_hat))

Bootstrap Simulation Version- Approximate Var(M_hat|F_hat) with EDFNow let X1, X2, … , Xn be a random sample from a population P with CDF F, and assume M= g(X1, X2, …, Xn ;F) is the statistic of interest. But we don't know F, so we:1.Form a EDF from the existing sample data by draw observations with replacement from our existing sample data X1, …, Xn. These are denote as X1*, X2*, …, Xn*. We call this is a bootstrap sample.2.Compute statistic M_hat= g(X1*, X2*, …, Xn* ;F_hat) for the bootstrap sample.3. Replicate B times for steps 2 and 3, and get B statistics M_hat.4. Get the variance for these B statistics to approximate the Var(M_hat).

Mô phỏng cho Var(M_hat)

Bạn có cảm thấy quen thuộc với các quy trình trên không?

III. Bootstrap hoạt động như thế nào?

Cuối cùng, hãy xem mô phỏng của chúng tôi sẽ hoạt động như thế nào. Những gì chúng tôi sẽ nhận được xấp xỉ từ mô phỏng bootstrap này là cho Var(M_hat), nhưng điều chúng tôi thực sự quan tâm là liệu Var(M_hat) có thể xấp xỉ với Var(M). Vì vậy, hai câu hỏi ở đây

  1. Liệu kết quả mô phỏng phương sai bootstrap, là S², có thể tính gần đúng cho Var(M_hat) không?
  2. Var(M_hat) có thể xấp xỉ với Var(M) không?

Để trả lời câu hỏi này, hãy sử dụng sơ đồ để minh họa lỗi mô phỏng cả hai loại

  1. Từ ước tính phương sai bootstrap, chúng ta sẽ nhận được ước tính cho Var(M_hat) — ước tính plug-in cho Var(M). Và Luật số lớn cho chúng ta biết, nếu thời gian mô phỏng B của chúng ta đủ lớn, ước lượng phương sai bootstrap S², là một giá trị gần đúng cho Var(M_hat). May mắn thay, chúng ta có thể nhận được B lớn hơn tùy thích với sự trợ giúp của máy tính. Vì vậy, lỗi mô phỏng này có thể nhỏ
  2. Phương sai của M_hat, là ước tính phần bổ trợ cho phương sai của M so với F thực. Var(M_hat; F_hat) có phải là công cụ ước tính tốt cho Var(M; F) không? . Trên thực tế, chủ đề tính chất tiệm cận của công cụ ước lượng plug-in được phân loại trong thống kê toán học cấp cao. Nhưng hãy giải thích các vấn đề và ý tưởng chính
  • Đầu tiên, chúng tôi biết phân phối theo kinh nghiệm sẽ hội tụ tốt với hàm phân phối thực nếu kích thước mẫu lớn, giả sử F_hat → F
  • Thứ hai, nếu F_hat → F, và nếu đó là hàm thống kê tương ứng g(. ) là điều kiện làm trơn thì g(F_hat) → g(F). Trong trường hợp của chúng ta, hàm thống kê g(. ) là Phương sai, thỏa mãn các điều kiện liên tục bắt buộc. Do đó, điều đó giải thích tại sao phương sai bootstrap là một ước tính tốt về phương sai thực của công cụ ước tính M

Nói chung, điều kiện trơn tru trên một số chức năng rất khó xác minh. May mắn thay, hầu hết các hàm thống kê phổ biến như giá trị trung bình, phương sai hoặc khoảnh khắc đều thỏa mãn các điều kiện liên tục bắt buộc. Nó cung cấp rằng bootstrapping hoạt động. Và tất nhiên, làm cho kích thước mẫu ban đầu không quá nhỏ như chúng ta có thể

Dưới đây là mã mẫu Bootstrap của tôi cho trường hợp lấy hàng, bạn có thể kiểm tra miễn phí

Bản tóm tắt Bootstrap

Hãy tóm tắt lại những ý tưởng chính của bootstrap với sơ đồ sau

Cho đến nay tôi biết nó không hề dễ dàng với vô số khái niệm thống kê. Nhưng việc hiểu các khái niệm cơ bản đằng sau một phương pháp có thể giúp chúng ta đi đúng hướng khi áp dụng nó. Xét cho cùng, Bootstrap đã được áp dụng cho nhiều trường hợp thực tế hơn, việc học bắt đầu từ phần cơ bản sẽ mang tính xây dựng hơn. Cảm ơn đã đọc cho đến nay và hy vọng bài viết này sẽ giúp. Để lại ý kiến ​​​​của bạn nếu tôi đã thực hiện bất kỳ sai lầm. )

Thẩm quyền giải quyết

Cuốn sách hữu ích nhất của Efron, với khái niệm tổng quát hơn về Bootstrap và cách nó kết nối với suy luận thống kê

Tại sao bạn sẽ sử dụng bootstrapping?

“Ưu điểm của bootstrapping là đó là một cách đơn giản để lấy các ước tính về sai số chuẩn và khoảng tin cậy , đồng thời thuận tiện . ”

Tại sao bootstrapping được sử dụng trong di truyền học?

Phương pháp này được sử dụng để đánh giá độ tin cậy của phát sinh loài dựa trên trình tự . Các giá trị bootstrap trong cây phát sinh gen chỉ ra rằng trong số 100, có bao nhiêu lần cùng một nhánh được quan sát khi lặp lại việc tạo cây phát sinh gen trên một tập hợp dữ liệu được lấy mẫu lại.