Коли виправити значення p у кількох порівняннях?


11

Боюся, що відповідні запитання не відповіли на моє. Ми оцінюємо продуктивність> 2 класифікаторів (машинне навчання). Наша гіпотеза Нуля полягає в тому, що продуктивність не відрізняється. Для оцінки цієї гіпотези ми виконуємо параметричні (ANOVA) та непараметричні (Фрідман) тести. Якщо вони значущі, ми хочемо з’ясувати, які класифікатори розрізняються в ході квесту.

Моє запитання двояке:

1) Чи потрібна корекція р-значень після тестування численних порівнянь? Німецький сайт Вікіпедії на "Alphafehler Kumulierung" говорить, що проблема виникає лише в тому випадку, якщо на одних і тих же даних перевіряється кілька гіпотез. При порівнянні класифікаторів (1,2), (1,3), (2,3) дані лише частково перекриваються. Чи все-таки потрібно виправити значення p?

2) Корекція значення P часто використовується після парного тестування з t-тестом. Чи потрібно це також робити спеціалізовані пост-спеціальні тести, такі як Неменій (непараметричний) або тест Хью на Тьюкі? Ця відповідь каже «ні» для HSD Tukey: Чи правильний тест Hidro Tukey для кількох порівнянь? . Чи є якесь правило чи потрібно це шукати для кожного потенційного тестування?

Дякую!


Чому ви виконувати як ANOVA і Фрідмана тести?
Олексій

Йдеться про автоматизовану систему тестування, яка повинна надавати рецензенту як параметричну, так і непараметричну альтернативу, якщо параметричні припущення не виконані.
Кріс

1
Щодо згаданих нами тестів омнібусів: (A) якщо ваші групи даних незалежні, слід використовувати або тест ANOVA (параметричний), або тест Kruskal-Wallis (непараметричний); (B) якщо ваші групи залежні (наприклад, повторні заходи), то слід використовувати або повторні заходи ANOVA (параметричні), або тест Фрідмана (непараметричні). (Класичний) Тест ANOVA та Фрідмана як його альтернатива не здається правильним.
GegznaV

Відповіді:


10

Відповідь на питання 1
Вам потрібно скоригуватися для декількох порівнянь, якщо ви дбаєте про ймовірність появи помилки типу I. Просте поєднання метафори / експерименту з думкою може допомогти:

Уявіть, що ви хочете виграти в лотереї. Ця дилатація, як не дивно, дає вам 0,05 шансу на виграш (тобто 1 на 20). M - вартість квитка в цій лотереї, тобто очікуваний прибуток за один розіграш в лотереї становить M / 20. Тепер, навіть незнайомо, уявіть, що з невідомих причин ця вартість, M , дозволяє мати стільки лотерейних квитків, скільки вам потрібно (або принаймні більше двох). Думаючи собі «чим більше граєш, тим більше виграєш», ти захоплюєш купу квитків. Ваша очікувана віддача від розіграшу в лотереї вже не M / 20, а щось трохи більше. Тепер замініть "виграш в лотереї" на "помилка I типу".

Якщо ви не піклуєтесь про помилки і не переймаєтесь людьми неодноразово і насмішливо спрямовуєте свою увагу на певний мультфільм про медузів , тоді йдіть вперед і не налаштовуйте на численні порівняння.

Проблема "тих самих даних" виникає в методах виправлення помилок у сімейному режимі (наприклад, Bonferroni, Holm-Sidák тощо), оскільки поняття "сім'я" дещо розпливчасте. Однак, помилкові методи швидкості виявлення (наприклад, Бенджаміні та Хохберг, Бенджаміні та Єукетелі тощо) мають властивість, що їх результати є надійними для різних груп висновків.


Відповідь на запитання 2
Більшість парних тестів потребують виправлення, хоча існують стилістичні та дисциплінарні відмінності у тому, що називається тестом. Наприклад, деякі люди посилаються на " тести Bonferroni t " (що є акуратним трюком, оскільки Bonferroni не розробив ані тесту t , ані коригування Bonferroni для кількох порівнянь :). Я особисто вважаю це незадоволюючим, оскільки (1) я хотів би розрізняти проведення групи статистичних тестів і коригування для кількох порівнянь, щоб ефективно зрозуміти висновки, які я роблю, і (2) коли хтось приходить разом з новий парний тест, заснований на твердому визначенні , тоді я знаю, що можу виконати коригування для кількох порівнянь.α


2
+1 для вичерпної та жартівливої ​​відповіді (та для посилань на xkcd). Зокрема, ви також вирішили моє ще невербалізоване питання, чи є різниця між "тестом Бонферроні" та "Корекцією Бонферроні". Тим не менш, ти не проти пояснити проблему численних порівнянь з точки зору мого опису проблеми? Я розумію, що один класифікатор - це як група лікування, в якій немає / синього / зеленого / ... желе квасолі.
Кріс

@Chris Вас вітає ... Я не зовсім впевнений, про що ви питаєте. Так, потрібно кілька порівнянь. Так, ви можете виконати коригування FWER або FDR на будь-якому попарному тесті, який повертає -значення (процедури, як правило, змінюють -значення або змінюють рівень відхилення, як загальний, так і послідовно). pp
Олексій

Я думаю, що це добре, велике дякую! Може знадобитися ще трохи часу, щоб застосувати приклад лотереї до мого випадку використання, але я отримав ідею.
Кріс

@Chris розуміють, що лотерея була лише метафорою. Якщо вам потрібна допомога у застосуванні методів FWER або FDR, ознайомтеся з записами у Вікіпедії, знайдіть відповідні запитання тут або, можливо, задайте нове запитання з цього приводу. :)
Олексій
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.