Які практичні відмінності між процедурами фальшивих виявлень Benjamini & Hochberg (1995) та Benjamini & Yekutieli (2001)?

У моїй статистичній програмі застосовуються процедури Benjamini & Hochberg (1995) та Benjamini & Yekutieli (2001). Я зробив усе можливе, щоб прочитати наступний документ, але він досить математичний і я не впевнений, що розумію різницю між процедурами. З основного коду в моїй статистичній програмі я бачу, що вони дійсно різні, і що останній включає кількість q, яку я бачив, про яку я згадував стосовно FDR, але також не дуже розуміє.

Чи є якась причина віддавати перевагу процедурі Бенджаміні і Хохберга (1995), а не процедурам Бенджаміні і Єкутіелі (2001)? Чи мають вони різні припущення? Які практичні відмінності між цими підходами?

Бенджаміні, Ю. та Хохберг, Ю. (1995). Контроль швидкості виявлення помилок: практичний та потужний підхід до багаторазового тестування. Журнал Королівського статистичного товариства, серія B, 57, 289–300.

Бенджаміні, Ю. та Єкутіелі, Д. (2001). Контроль швидкості виявлення помилкових даних при багаторазовому тестуванні в залежності. Літописи статистики 29, 1165–1188.

Документ 1999 року, на який посилаються в коментарях нижче: Yekutieli, D., & Benjamini, Y. (1999). Швидкість виявлення помилок виявлення на основі переупорядкування, що контролює кілька процедур тестування для корельованих статистичних даних випробувань. Журнал статистичного планування та висновків, 82 (1), 171-196.

post-hoc false-discovery-rate

— russellpierce
джерело

Я вважав, що документ 2001 року встановлює властивості FDR (1995) під залежністю. Єкутіелі та Бенджаміні (Журнал статистичного планування та висновку, 1999) встановлюють іншу процедуру FDR. Якийсь шанс, який ви шукаєте?

— 1313

@julieth: Це було моє відчуття статті 2001 року, коли я читала реферат, але формули в роботі (наприклад, 27-30), схоже, містять величину, що називається q. Потім знову так, як це цитує цей документ у 1999 році. Хоча я розумію, що документ 1999 року реалізує підхід до повторного відбору проб, який чітко (з огляду на код) - це не те, що робить моя програма статистики (R; p.adjust) ... але я можу помилятися.

— russellpierce

Наприкінці статті 2001 року цитується документ про 1999 рік, і вони говорять "Нарешті, пригадайте процедуру перекомпонування Єкутіелі та Бенджаміні (1999), яка намагається впоратися з вищезазначеною проблемою і одночасно використовувати інформацію про залежність. Структура, отримана з вибірки. Процедура на основі пересимплінгу є більш потужною, за рахунок більшої складності та лише приблизного контролю FDR ". ... так що я вважаю, що документ 2001 року забезпечив обчислювальне рішення закритої форми і саме це реалізує моя програма статистики.

— russellpierce

Гаразд, значить, ви використовуєте p.adjust. 99 папір взагалі відрізняється, як ви зазначили. Я завжди бачив варіант BY в p.adjust і не звертав уваги. Цей документ 2001 року, як правило, цитується стосовно доказу FDR та "позитивної регресійної залежності". Я ніколи не сприймав це як цитування іншого оцінювача, але, можливо, він є там. Схоже, мені потрібно це перечитати.

— 1313

Відповіді:

Бенджаміні та Хохберг (1995) запровадили помилковий показник. Бенджаміні та Єкутіелі (2001) довели, що оцінювач справедливий у деяких формах залежності. Залежність може виникнути наступним чином. Розглянемо неперервну змінну, використану в t-тесті, та іншу змінну, співвідносну з нею; наприклад, тестування, чи ІМТ відрізняється в двох групах, і якщо окружність талії відрізняється в цих двох групах. Оскільки ці змінні є корельованими, отримані p-значення також будуть співвідноситись. Yekutieli і Benjamini (1999) розробили ще одну процедуру контролю FDR, яку можна використовувати в загальній залежності шляхом перекомпонування нульового розподілу. Оскільки порівняння стосується нульового розподілу перестановки, оскільки загальна кількість справжніх позитивних факторів збільшується, метод стає більш консервативним. Виявляється, BH 1995 також консервативний, оскільки кількість справжніх позитивних результатів збільшується. Щоб покращити це, Бенджаміні та Хохберг (2000) запровадили процедуру адаптивного FDR. Це вимагало оцінки параметра, нульової пропорції, який також використовується в оцінці pFDR Storey. Сторі проводить порівняння і стверджує, що його метод є більш потужним і підкреслює консервативний характер процедури 1995 року. Етаж також має результати та симуляції під залежністю.

Всі перераховані вище тести дійсні при незалежності. Питання полягає в тому, з яким відходом від незалежності можна розглянути ці оцінки.

Моє сьогоднішнє мислення полягає в тому, що якщо ви не очікуєте занадто багато справжніх позитивних результатів, процедура BY (1999) є приємною, оскільки вона включає функції розподілу та залежність. Однак я не знаю про реалізацію. Метод Сторі був розроблений для багатьох справжніх позитивів з деякою залежністю. BH 1995 пропонує альтернативу рівню помилок у сімейному відношенні, але вона досі консервативна.

Бенджаміні, Y і Y Hochberg. Про адаптивне управління частотою помилкових виявлень при багаторазових тестуваннях з незалежною статистикою. Журнал статистики освіти та поведінки, 2000.

— липень
джерело

Дуже дякую! Не могли б ви переглянути своє питання, щоб уточнити наступні моменти / проблеми: "Перестановка нульового розподілу" є документом 1999 року? Надайте, будь ласка, цитату до документа 2000 року? Ви, здавалося, знайомі з p.adjust, чи реально це реалізація процедури BY? Потрібно використовувати БГ, коли тести гіпотези не залежать? Що обумовлює тести гіпотези, що вважаються залежними? - Будь ласка, повідомте мене, якщо будь-яке з цих питань виходить за межі нинішнього обсягу і вимагає задати нове запитання.

— russellpierce

p.adjust має варіанти як для BH, так і для BY. Однак я подумав, що це однаково, тому щось пропустив.

— 1313

І базовий код теж різний (я перевірив), щоб вони видавали різні числа.

— russellpierce

Отже, яку процедуру ви вважаєте, що p.adjust виконує аргумент BY? Я не думаю, що це процедура 1999 року. Основним кодом є pmin (1, cummin (q * n / i * p [o])) [ro]. BH є pmin (1, cummin (n / i * p [o])) [ro]. Таким чином, вони відрізняються лише q, який є сумою (1 / (1: n)), де n = кількість значень. o і ro просто служать для приведення значень p у зменшенному числовому порядку для функції, а потім виплюнути їх назад в тому ж порядку, в який користувач ввів їх.

— russellpierce

Отже, оскільки нових відповідей не надходить, я прийму цю відповідь і підсумую своє розуміння. p.adjust може бути неправильним для BY. Те, що виконується, не є перекомпонуванням. BH, 2000 запровадив адаптивну процедуру FDR, і це включає оцінку нульової пропорції, яка може бути q, яка відображається в коді BY. Тим часом, здається, розумним є те, що цитувати p.adjust безпосередньо, оскільки це відображає фактичну процедуру, що використовується під час використання опції "BY", і просто знати, що "BY" насправді може реалізовувати Benjamini & Hochberg, 2000.

— russellpierce

p.adjust не є неправильним для BY. Посилання на теорему 1.3 (доказ у розділі 5 на с.1182) у статті:

Оскільки в цьому документі обговорюється декілька різних коригувань, посилання на сторінку довідки (на момент написання) для p.adjust () дещо незрозуміло. Метод гарантовано контролює FDR за вказаною швидкістю за найбільш загальною структурою залежності. У слайдах Крістофера Геновеса є інформативні коментарі за адресою: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf Зверніть увагу на коментар до слайда 37, посилаючись на метод теореми 1.3 у статті BY 2001 [метод = "BY" з p.adjust ()], що: "На жаль, це, як правило, дуже консервативно, іноді навіть більше, ніж Бонферроні".

Числовий приклад: method='BY' vsmethod='BH'

Далі порівнюється метод = 'BY' з методом = 'BH', використовуючи функцію p.adjust () R для p-значень із стовпця 2 таблиці 2 у папері Бенджаміні та Хохберга (2000):

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

$\sum_{i=1}^m (1/i)$ $m$

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

setNames (mult, paste (c ('m =', rep ('', 5)), c (11, 30, 34, 226, 1674, 12365))) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

$m$

— Джон Мендональд
джерело