Непараметричні значення p завантаження та довірчі інтервали


11

Контекст

Це дещо схоже на це питання , але я не думаю, що це точний дублікат.

Коли ви шукаєте, як інструкції, як виконати тест гіпотези завантажувальної програми, зазвичай зазначається, що добре використовувати емпіричний розподіл для довірчих інтервалів, але що вам потрібно правильно завантажити завантаження з розподілу під нульовою гіпотезою, щоб отримати p- значення. Як приклад, див. Прийняту відповідь на це запитання . Загальний пошук в Інтернеті здебільшого, схоже, наводить подібні відповіді.

Причиною не використання р-значення, заснованого на емпіричному розподілі, є те, що більшість часу ми не маємо інваріантності перекладу.

Приклад

Дозвольте навести короткий приклад. У нас є монета, і ми хочемо зробити однобічний тест, щоб побачити, чи частота головок перевищує 0,5

Проводимо n=20 випробувань і отримуємо k=14 голів. Справжнє p-значення для цього тесту було б p=0.058 .

З іншого боку, якщо ми завантажуємо свої 14 з 20 голів, ми ефективно відбираємо вибір з біноміального розподілу з n=20 і p=1420=0.7. Зсуваючи цей розподіл на віднімання 0,2, ми отримаємо ледь значний результат при тестуванні нашого спостережуваного значення 0,7 проти отриманого емпіричного розподілу.

У цьому випадку розбіжність дуже мала, але вона збільшується, коли рівень успішності, яку ми перевіряємо, наближається до 1.

Питання

Тепер дозвольте мені підійти до реальної точки мого питання: той самий дефект стосується і довірчих інтервалів. Насправді, якщо довірчий інтервал має вказаний рівень довіри α то довірчий інтервал, що не містить параметр під нульовою гіпотезою, еквівалентний відхиленню нульової гіпотези на рівні значущості 1α .

Чому саме інтервали довіри, засновані на емпіричному розподілі, широко прийняті, а значення p не?

Чи є глибша причина чи люди просто не такі консервативні з інтервалами довіри?

У цій відповіді Пітер Дальгард дає відповідь, яка, здається, погоджується з моїм аргументом. Він каже:

Немає нічого особливо поганого в цьому розсуді, або, принаймні, не (набагато) гірше, ніж обчислення ІС.

Звідки походить (багато)? Це означає, що генерування р-значень таким чином дещо гірше, але не має конкретного питання.

Заключні думки

Також у Вступі до Bootstrap Ефроном та Тібширані вони присвячують багато місця інтервалам довіри, але не p-значенням, якщо вони не генеруються при правильному нульовому розподілі гіпотез, за ​​винятком однієї лінії викиду про загальну еквівалентність довірчі інтервали та p-значення в главі про тестування перестановки.

Повернемося також до першого питання, яке я пов’язав. Я погоджуюся з відповіддю Майкла Черника, але знову ж він також стверджує, що і довірчі інтервали, і p-значення, засновані на емпіричному розподілі завантажувальної програми, однаково недостовірні в деяких сценаріях. Це не пояснює, чому ви знаходите багато людей, які говорять вам про те, що інтервали в порядку, але значення p не є.


Я починаю щедро з цього питання, тому що мені дуже цікаво досягти ясності щодо того, як і коли можна використовувати CI для завантаження / відхилення гіпотези. Можливо, ви могли б переформулювати / переформатувати своє запитання, щоб зробити його більш коротким та привабливим? Дякую !
Xavier Bourret Sicotte

Я думаю, що більшість людей погодиться, що коли застосовуються такі припущення, то з використанням CI для тестування гіпотез це нормально: симетричний розподіл статистики тесту, основна статистика тесту, застосування CLT, відсутність або декілька неприємних параметрів тощо. Але що станеться, коли статистика є дивним або не є доказовим. Ось справжній приклад, над яким я працюю: наприклад, дві вибіркові різниці між 75-ми відсотками статистичного відношення (співвідношення двох сум)
Xavier Bourret Sicotte

Чи не проста відповідь, просто зрозуміло, як зробити вибірку під нульовою гіпотезою, тож існує альтернативний метод, який явно кращий? Відбір проб під завантажувальним рядком, як правило, відбувається за емпіричним розподілом, тому справжній механізм генерування даних, так що явно не слід використовувати замість просто вибірки під нулем. Інтерфейс завантаження із завантаженим завантаженням виявляється шляхом інвертування розподілу вибірки за справжнім механізмом генерування даних. Це правда, що цей ІП може не працювати добре, але, як сказав Далгард, не обов'язково очевидно, як це виправити.
jsk

Я повинен уточнити, що емпіричний розподіл - це лише наближення справжнього механізму генерації даних. Те, наскільки це не відповідає правді, негативно позначиться на завантаженій ІР у невідомих напрямках, що призведе до покриття менше ніж 95%.
jsk

1
Вибірка під нулем зрозуміла, коли тест є різницею засобів, але в багатьох випадках не очевидно, як відтворити нуль ... наприклад, нульовим є те, що 75-й перцентиль з двох співвідношень є однаковим ... як чи зміщувати чисельники та знаменники відношень у кожному зразку, щоб отримати це? Крім того, як я можу бути впевненим, що зміщення компонентів співвідношення насправді відтворює нуль?
Xavier Bourret Sicotte

Відповіді:


3

Як заявив @MichaelChernick у відповідь на коментар до своєї відповіді на пов'язане питання :

Загалом існує відповідність 1-1 між довірчими інтервалами та тестами гіпотез. Наприклад, 95% довірчий інтервал для параметра моделі представляє область неприйняття для відповідного тесту гіпотези рівня 5% щодо значення цього параметра. Немає вимоги щодо форми розподілу населення. Очевидно, що якщо це стосується довірчих інтервалів, це стосується довірчих інтервалів завантаження.

Отже, ця відповідь стосуватиметься двох пов’язаних питань: (1) чому представлення результатів завантажувальної програми може здаватися частіше задавати інтервали довіри (CI), а не p -значення, як пропонується у запитанні, та (2), коли можуть бути обидва p -значення і КІ, визначені завантажувальним завантаженням, підозрюються як ненадійні, тому потрібен альтернативний підхід.

Я не знаю даних, які конкретно підтверджують претензію в цьому питанні до першого питання. Можливо, на практиці багато бальних оцінок, отриманих під час завантаження, є (або, принаймні, здаються) настільки далекими від меж рішення тестових рішень, що мало цікавить p -значення відповідної нульової гіпотези, причому первинний інтерес до точкової оцінки та в деяка розумна міра величини її ймовірної мінливості.

Що стосується другого питання, багато практичних застосувань передбачають "симетричний розподіл статистики тесту, основну статистику тесту, застосування CLT, відсутність або декілька неприємних параметрів тощо" (як у коментарі @XavierBourretSicotte вище), для яких є невеликі труднощі. Потім стає питання, як виявити потенційні відхилення від цих умов і як з ними боротися, коли вони виникають.

Ці потенційні відхилення від ідеальної поведінки оцінювались десятиліттями. На початку було розроблено декілька підходів до завантаження CI для їх вирішення. Studentized завантажувальний засіб допомагає надати ключову статистику, а метод BCa стосується як упередженості, так і косості з точки зору отримання більш надійних CI від завантажувальних систем. Варіант-стабілізуюча трансформація даних перед визначенням завантаженого інтерфейсу завантаження з подальшим зворотним перетворенням у початковий масштаб також може допомогти.

Приклад цього питання щодо відбору проб з 14 голів з 20 кидок із справедливої ​​монети чудово обробляється за допомогою КІ методу BCa; в R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

В інших оцінках КІ виникає відзначена проблема того, що це дуже близько до межі чисельності популяції - 10 голів на 20 кидок. ІСС BCa спричиняє скосистість (як це введено шляхом відбору біноміального відбору від парних шансів), тому вони добре включають значення популяції 10.

Але вам слід шукати такі відхилення від ідеальної поведінки, перш ніж ви зможете скористатися цими рішеннями. Як і в багатьох статистичних практиках, ключовим фактором може бути фактичний перегляд даних, а не просто включення до алгоритму. Наприклад, це запитання про CI для упередженого результату завантаження показує результати для перших 3 CI, показаних у вищевказаному коді, але виключає CI BCa. Коли я спробував відтворити аналіз, показаний у цьому питанні, включити BCa CI, я отримав результат:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

де 'w' бере участь у корекції зміщення. Статистика, що досліджується, має фіксовану максимальну величину, і оцінка додатків, яка була завантажена, також була по своїй суті упереджена. Отримання подібного результату повинно вказувати на порушення звичайних припущень, що лежать в основі завантаженої ІС.

Аналіз основної кількості дозволяє уникнути подібних проблем; незважаючи на те, що емпіричний розподіл не може мати корисної суворої статистики, важливою метою є наближення до максимально розумного значення. Останні кілька абзаців цієї відповіді містять посилання на подальші допоміжні засоби, як, наприклад, схеми зведення, щоб оцінити за допомогою завантажувальної програми, чи статистика (можливо після деякої трансформації даних) близька до ключової, і обчислювально дорога, але потенційно визначальна подвійна завантажувальна програма.


Дякую Edm! Якщо між КІ та тестом гіпотези існує 1-1 рекайт, то чому тестування завантажувальної програми зазвичай передбачає зміну наборів даних для відтворення нуля? Роблячи це, чи не отримуємо ми інші результати, ніж ті, що ми отримали, обчисливши, наприклад, CI розподілу різниці?
Xavier Bourret Sicotte

@XavierBourretSicotte Я не думаю, що це цілком коректно, що "тестування завантажувальної програми зазвичай передбачає зміну наборів даних для відтворення нуля". Кожен зразок завантажувальної програми - це спроба повторити оригінальну вибірку / експеримент, використовуючи зразок під рукою для представлення базової сукупності. Якщо ж відповідна статистика не є ключовою, то CI, розроблений на завантажених зразках, не буде представляти CI, розроблений для базової сукупності. Тож вам потрібно виправити розподіл статистики щодо того, що воно було б під нулем, з BCa або іншими підходами.
EdM
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.