Загальна помилка I типу при повторному тестуванні накопичувальних даних


12

У мене є питання про групові послідовні методи .

За даними Вікіпедії:

У рандомізованому дослідженні з двома групами лікування класичне групове послідовне тестування використовується таким чином: Якщо наявне n суб'єктів у кожній групі, проводиться проміжний аналіз на 2n суб'єктів. Статистичний аналіз проводиться для порівняння двох груп, і якщо альтернативна гіпотеза прийнята, випробування припиняється. В іншому випадку випробування триває для інших 2n суб'єктів, з n суб'єктами на групу. Статистичний аналіз проводиться знову на 4n випробовуваних. Якщо альтернатива буде прийнята, то судовий розгляд припиняється. В іншому випадку він продовжується з періодичними оцінками, поки не буде доступно N наборів із 2n предметів. У цей момент проводиться останнє статистичне випробування, і випробування припиняється

Але багаторазово перевіряючи накопичення даних таким чином, рівень помилок типу I завищується ...

Якби вибірки не залежали один від одного, загальна помилка I типу, , була бα

α=1(1α)k

де - рівень кожного тесту, а - кількість проміжних поглядів.αk

Але зразки не є незалежними, оскільки вони перетинаються. Якщо припустити, що проміжний аналіз проводиться з рівними кроками інформації, можна виявити, що (слайд 6)

введіть тут опис зображення

Чи можете ви пояснити мені, як виходить ця таблиця?

Відповіді:


12

Наступні слайди через 14 пояснюють ідею. Суть, як ви зазначаєте, полягає в тому, що послідовність статистики співвідношена.

Контекст - це z-тест з відомим стандартним відхиленням. Перша статистика випробувань , відповідно стандартизована, має нормальний (0,1) розподіл з cdf . Це стосується й другої статистики , але - оскільки перша використовує підмножину даних, що використовуються для другої - дві статистичні дані співвідносяться з коефіцієнтом кореляції . Тому має бінормальне розподіл. Імовірність помилки I типу (за нульовою гіпотезою) дорівнює ймовірності того, що або (a) помилка типу I трапляється в першому тесті, або (b) помилка типу I не виникає в першому тесті, але трапляється в другий тест. Нехайz1Φz21/2(z1,z2)c=Φ1(10.05/2)- критичне значення (для двостороннього тесту з номінальним розміром = 0,05). Тоді ймовірність помилки I типу після двох аналізів дорівнює ймовірності, що або і . Числова інтеграція дає значення 0,0831178 для цієї ймовірності, узгоджуючи таблицю. Подальші значення в таблиці отримують з аналогічними міркуваннями (і більш складними інтеграціями).α|z1|>c|z1|c|z2|>c

Ця графіка зображує бінормальний pdf та область інтеграції (тверда поверхня). Бінормальний PDF, 3D графік поверхні


Розуміли, дякую! Чи важко отримати кореляційний кор (z1, z2)?
окрам

@ Marco, Кореляцію можна легко обчислити, оскільки тестова статистика настільки проста: це лінійна комбінація нормальних змінних. (Це тому, що ми припускаємо, що дисперсія відома.) Як альтернативу, ви можете вважати другу статистику сумою двох незалежних випадкових змінних: першої, , плюс зміни, створеної додатковими даними, . У більш складних випадках співвідношення може бути досить важким для обчислення: ось одна з причин цієї дещо ідеалізованої ситуації використовується для мотивації послідовних тестів! z1z1z2
whuber

Дуже дякую. Так, кореляція виглядає досить легко для обчислення. Власне, мені було не ясно, що контекст - це порівняння засобів двох нормальних розподілів. Тепер це зрозуміло, і ви робите все інше дуже зрозумілим! Дякую!
окрам

Ви можете надати формулу (або R код), як обчислити це, наприклад, n = 400? Я би робив це сам, але, на жаль, не знаю як. І як мені доведеться коригувати формулу, якщо я хочу обчислити загальний показник помилок, якщо у мене є кілька порівнянь (наприклад, порівнюючи 4 пропорції) і не роблю виправлення, як Bonferroni і робити повторні тести? Чи можете ви мені в цьому допомогти?
Андреас
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.