Чи слід звертатися до кількох коригувань порівнянь під час використання довірчих інтервалів?


27

Припустимо, у нас є декілька сценаріїв порівнянь, таких як пост-хоч висновок по парній статистиці, або як множинна регресія, де ми робимо загальну кількість порівнянь. Припустимо також, що ми хотіли б підтримати умовивід у цих кратних, використовуючи довірчі інтервали.m

1. Чи застосовуємо кілька коригувань порівняння до КІ? Тобто, так само, як багаторазове порівняння примушує переосмислити значення на коефіцієнт помилок у сімейному відношенні (FWER) або на помилковий показник виявлення (FDR), має значення впевненість (або достовірність 1 , або невизначеність, або прогнозування, або inferential ... виберіть свій інтервал) змініть аналогічно багаторазовим порівнянням? Я усвідомлюю, що негативна відповідь тут викличе мої залишилися запитання.α

2. Чи є прямий переклад декількох процедур коригування порівняння від тестування гіпотез до інтервальної оцінки? Наприклад, чи коригування було б зосереджено на зміні терміна в інтервалі довіри: ?CI-levelCIθ=(θ^±т(1-Рівень CI) / 2σ^θ)

3. Як би ми вирішили процедури поглибленого або поступового контролю для КІ? Деякі коригування рівня помилок щодо сімейного підходу до тестування гіпотез до висновку є "статичними", оскільки в кожному окремому висновку робиться точно однакове коригування. Наприклад, коригування Бонферроні здійснюється шляхом зміни критерію відхилення від:

  • відхилити, якщо до:pα2
  • відхилити, якщо ,pα2м

але прискорене регулювання Холма-Бонферроні не є "статичним", а скоріше зроблено:

  • спочатку впорядковуючи -значення найменшого до найбільшого, а потімp
  • відхилити, якщо (де індексує впорядкування -значень) доp1-(1-α2)1м+1-iip
  • ми не можемо відкинути нульову гіпотезу і автоматично не відкидаємо всі наступні нульові гіпотези.

Оскільки відхилення / відмова відхилення не відбувається з CI (більш формально, див. Посилання нижче), чи означає це, що поетапні процедури не перекладаються (тобто включаючи всі методи FDR)? Мені слід зауважити, що я не запитую, як перевести КІ в тести на гіпотези (представники літератури "тестування візуальної гіпотези", наведеної нижче, отримують це нетривіальне питання).

4. Що з будь-яким з тих інших інтервалів, які я згадував у думках у 1?


1 Боже, я сподіваюся, що я не зіткнуся з тими, хто заспокоює милі, милі байєсські стилі, використовуючи тут це слово. :)


Список літератури
Afshartous, D. and Preston, R. (2010). Інтервали довіри залежних даних: Прирівнювання неперекриття зі статистичною значимістю. Обчислювальна статистика та аналіз даних , 54 (10): 2296–2305.

Куммінг, Г. (2009). Висновок очей: зчитування накладання незалежних довірчих інтервалів. Статистика медицини , 28 (2): 205–220.

Payton, ME, Greenstone, MH, and Schenker, N. (2003). Перекриваються довірчі інтервали або стандартні інтервали помилок: що вони означають у статистичному значенні? Журнал науки про комах , 3 (34): 1–6.

Tryon, WW та Lewis, C. (2008). Метод інтерференційного довірчого інтервалу для встановлення статистичної еквівалентності, який коригує коефіцієнт зниження Триона (2001). Психологічні методи , 13 (3): 272–277.


Зараз я не встигаю вивчити повну відповідь, тож відповім у коментарі.
Харві Мотульський

[Останній коментар урізався. [Я не маю часу вивчити повну відповідь, тому я відповім у коментарі. 1) Так, це має сенс в тих же ситуаціях, що і багаторазове порівняння тестування гіпотез має сенс. 2. Багаторазове порівняння Bonferroni, Tukey і Dunnet можна легко адаптувати до створення довірчих інтервалів, коли рівень довіри застосовується для всієї родини. 3. Наскільки я можу сказати, немає можливості робити довірчі інтервали від методу Холма. 4. У мене немає поняття!
Харві Мотульський

2
pα

Відповіді:


9

Відмінна тема, якій, на жаль, приділено недостатньо уваги.

Під час обговорення декількох параметрів та довірчих інтервалів слід розрізняти одночасний висновок та вибіркове висновок. [2] дає чудову демонстрацію справи.

1-α

Ці два поняття можна комбінувати: Скажіть, ви будуєте інтервали лише на параметрах, щодо яких ви відхилили нульову гіпотезу. Ви чітко маєте справу з селективним висновком. Ви можете гарантувати одночасне охоплення вибраних параметрів або граничне покриття вибраних параметрів. Перший був би аналогом FWER-контролю, а другий - FDR-контролем.

Тепер ще до речі: Не всі процедури тестування мають супутні інтервали. Про процедури FWER та їх супутні інтервали див. [3]. На жаль, ця посилання трохи застаріла. Інформацію про контроль інтервалу BH FDR див. [1] та додаток у [4] (який також включає короткий огляд цього питання). Зауважте, що це свіже та активне науково-дослідне поле, щоб ви могли очікувати більше результатів у найближчому майбутньому.

[1] Бенджаміні, Ю. та Д. Єкутіелі. “Неправильне встановлення частоти відкриття, скориговане декількома інтервалами довіри для вибраних параметрів”. 469 (2005): 71–81.

[2] Кокс, ДР «Зауваження щодо кількох методів порівняння». Технометрія 7, вип. 2 (1965): 223–24.

[3] Хохберг, Ю. та Тамайн. Кілька процедур порівняння Нью-Йорк, Нью-Йорк, США: John Wiley & Sons, Inc., 1987.

[4] Розенблат, Дж. Д. та Бенджаміні. «Вибіркові кореляції; Не вуду ». NeuroImage 103 (грудень 2014 р.): 401–10.


1

Я б ніколирегулювати довірчі інтервали для багаторазового тестування. Я не є великим прихильником р-значень, тому що я вважаю, що оцінювання параметрів є кращим використанням статистики, ніж тестування гіпотез, які ніколи не відповідають дійсності. Однак я визнаю, що тестування гіпотез має свою цінність, скажімо, рандомізоване контрольоване випробування, де принаймні можна стверджувати, що асимптотично, якщо лікування не працює, нульова гіпотеза є вірною. Однак, як я вже говорив в іншому місці [1], зазвичай це пов'язано з одним первинним результатом. Однак довірчі інтервали, у частофілістському визначенні, не передбачають гіпотез, і тому вони не потребують коригування для інших, потенційно нерелевантних порівнянь. Припустимо, я тестував фенотипи, пов'язані з певним геном, скажімо, зріст і артеріальний тиск. Я ' я хотів би знати, наскільки велика різниця у зрості між особами з геном і без нього, і наскільки добре я це оцінив. Я не бачу, що той факт, що я також вимірював артеріальний тиск, не має нічого спільного. Де могло бути важливо, що якби ці двоє були єдиними значущими з сотні, яких ми перевірили. Тоді цілком ймовірно, що різниці випадково перевищують очікувані контрфактичні експерименти, де ми вимірювали лише висоту та артеріальний тиск, але зробили це сотні експериментів. Однак за таких обставин не вдасться просту коригування, і краще дати невідрегульовану оцінку, але зрозуміти, як ви отримали ці порівняння. Ми також опублікували деякі результати щодо перекриваючих довірчих інтервалів. [2] не бачу, що той факт, що я також вимірював артеріальний тиск, не має нічого спільного. Де могло бути важливо, що якби ці двоє були єдиними значущими з сотні, яких ми перевірили. Тоді цілком ймовірно, що різниці випадково перевищують очікувані контрфактичні експерименти, де ми вимірювали лише висоту та артеріальний тиск, але зробили це сотні експериментів. Однак за таких обставин не вдасться просту коригування, і краще дати невідрегульовану оцінку, але зрозуміти, як ви отримали ці порівняння. Ми також опублікували деякі результати щодо перекриваючих довірчих інтервалів. [2] не бачу, що той факт, що я також вимірював артеріальний тиск, не має нічого спільного. Де могло бути важливо, що якби ці двоє були єдиними значущими з сотні, яких ми перевірили. Тоді цілком ймовірно, що різниці випадково перевищують очікувані контрфактичні експерименти, де ми вимірювали лише висоту та артеріальний тиск, але зробили це сотні експериментів. Однак за таких обставин не вдасться просту коригування, і краще дати невідрегульовану оцінку, але зрозуміти, як ви отримали ці порівняння. Ми також опублікували деякі результати щодо перекриваючих довірчих інтервалів. [2] більший, ніж очікувані зустрічні експерименти, де ми вимірювали лише висоту та артеріальний тиск, але робили це сотні експериментів. Однак за таких обставин не вдасться просту коригування, і краще дати невідрегульовану оцінку, але зрозуміти, як ви отримали ці порівняння. Ми також опублікували деякі результати щодо перекриваючих довірчих інтервалів. [2] більший, ніж очікувані зустрічні експерименти, де ми вимірювали лише висоту та артеріальний тиск, але робили це сотні експериментів. Однак за таких обставин не вдасться просту коригування, і краще дати невідрегульовану оцінку, але зрозуміти, як ви отримали ці порівняння. Ми також опублікували деякі результати щодо перекриваючих довірчих інтервалів. [2]

[1] Статистика Кемпбелла MJ та Swinscow TDV (2009) Статистика на першій площі. 11-е видання Оксфорда; BMJ Книги Блеквелл

[2] Julious SA, Campbell MJ, Walters SJ (2007) Прогнозуючи, де будуть лежати майбутні засоби, виходячи з результатів поточного судового розгляду. Сучасні клінічні випробування, 28, 352-357.


1
Дякую за думки, що викликають відповідь, Майку. Бенджаміні, Хохберг та Єкутіелі, схоже, стверджують, що порівняння не є "неактуальними", а насправді одночасними: "Також потрібне одночасне охоплення, коли слід вжити дії на основі значення всіх параметрів. Таким чином, порівнюючи первинні кінцеві точки між двома лікування в клінічному випробуванні, ймовірно, передбачає обстеження всіх їх, незалежно від того, чи вони суттєво відрізняються чи ні. Це чітка ситуація, коли потрібно одночасне охоплення ". (Залишаючи осторонь питання про вибіркове представлення лише деяких КІ.)
Олексій

До речі, з огляду на "Я не є великим прихильником р-значень, тому що я вважаю, що оцінювання параметрів - це краще використання статистики, ніж тестування гіпотез, які ніколи не є абсолютно істинними", вам може сподобатися Чому часті тестистські тестування гіпотез стають упередженими щодо відхилення нульова гіпотеза з досить великими зразками? . Ура.
Олексій

1
Хоча я погоджуюся з вами, що довірчі інтервали для параметрів переважають за значеннями p для більшості форм висновку, я не впевнений, що це обов'язково означає, що корекція для кількох порівнянь з довірчими інтервалами не потрібна. Більшість довірчих інтервалів визначаються за допомогою використання альфа, щоб вказати покриття. Навіть розлучившись із рамками тестування суворої гіпотези, мені здається (наївно, не намагаючись робити симуляції, щоб перевірити), що це може ввести в оману дотримуватися догматично номінального покриття (наприклад, 95%, так що альфа = 0,05), коли багаторазове порівняння залучений.
Райан Сіммонс

2
Майк Кемпбелл заявив, що "інтервали довіри, у частотулістичному визначенні, не передбачають гіпотез, і тому вони не потребують коригування для інших, потенційно невідповідних порівнянь". Це дивне твердження. Хоча CI можуть не відображати "тести на гіпотезу" самі по собі, вони відображають статистичні тести, які мають певну швидкість помилок (наприклад, .05), і цей показник помилок завищений у міру збільшення кількості тестів - точно такою ж базовою математичною принцип, що застосовується до тестів з нульовою гіпотезою. Не можна уникати проблеми декількох порівнянь, зосереджуючись на CI замість p-значень.
Бонферроні
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.