Інтуїтивно зрозуміле пояснення, чому працює процедура БНД Бенджаміні-Хохберга?


14

Чи є простий спосіб пояснити, чому процедура Бенджаміні та Хохберга (1995) насправді контролює показник помилкового виявлення (FDR)? Ця процедура є настільки елегантною та компактною, але доказ того, чому вона працює під незалежністю (міститься в додатку до їх документа 1995 року ), не дуже доступний.


4
на мою думку, доказ контролю FDR, представлений тут, більш інтуїтивний (зверніть увагу, ви шукаєте доказ теореми 2): citeseerx.ist.psu.edu/viewdoc/… Там аргумент просто спирався на те, що ми помітили, що ми може використовувати факультативну теорему зупинки.
користувач795305

3
На YouTube є хороша лекція від Бенджаміні про проблему численних порівнянь та історію та логічний розвиток методів коригування, які використовуються для її вирішення.
Олексій

Рамдас та ін. (2017) - це дуже приємний нещодавній документ, який об'єднує та узагальнює багато методів тестування, а їх пропозиція 1 (с) передбачає теорему 1 у „Бенджаміні та Хохберг“ (1995). Доказ якраз і застосовує лему 1 (c), щоб обмежити очікування FDP, і сама ця лемма лише доведена дуже базовим багатофакторним численням у їх додатку.
daniel.s

2
Ось ще одне інтуїтивне пояснення, яке я знайшов на каналі StatQuest на YouTube: youtube.com/watch?v=K8LQSvtjcEo
RobertF

Відповіді:


2

Ось який- Rкод для створення малюнка. Він покаже 15 змодельованих p-значень, побудованих відповідно до їх порядку. Таким чином вони утворюють закономірність висхідної точки. Точки нижче червоних / фіолетових ліній є значущими тестами на рівні 0,1 або 0,2. FDR - це кількість чорних точок нижче лінії, поділене на загальну кількість точок нижче рядка.

x0 <- runif(10)      #p-values of 10 true null hypotheses. They are Unif[0,1] distributed.
x1 <- rbeta(5,2,30)  # 5 false hypotheses, rather small p-values
xx <- c(x1,x0)
plot(sort(xx))
a0 <- sort(xx)
for (i in 1:length(x0)){a0[a0==x0[i]] <- NA}
points(a0,col="red")
points(c(1,15), c(1/15 * 0.1 ,0.1), type="l", col="red")
points(c(1,15), c(1/15 * 0.2 ,0.2), type="l", col="purple")

Сподіваюся, це може дати певне відчуття щодо форми, яку має розподіл упорядкованих p-значень. Це правильні лінії, а не, наприклад, якась крива притча у формі, пов'язана з формою розподілу порядку. Це має бути розраховано чітко. Насправді, лінія - це лише консервативне рішення.


1
Ви б не хотіли додати set.seed(<some number>)та розмістити отриману цифру для людей, які не читають R?
gung - Відновіть Моніку

Жоден з очок не потрапляє нижче рядка, коли я запускаю цей код ...
winni2k
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.