P-значення в тесті з двома хвостами з асиметричним нульовим розподілом


18

Моя ситуація така: я хочу, через дослідження Монте-Карло, порівняти -значення двох різних тестів для статистичної значущості оцінюваного параметра (нульовим є "немає ефекту - параметр дорівнює нулю", а мається на увазі альтернатива " параметр не дорівнює нулю "). Тест А - стандартний "незалежний двопробний тест на рівність засобів" , з рівними відхиленнями під нулем. p

Тест Б Я створив сам. Тут використовуваний нульовий розподіл - це асиметричний загальний дискретний розподіл. Але я знайшов такий коментар у Rohatgi & Saleh (2001, 2-е видання, стор. 462)

"Якщо розподіл не симетричний, значення -значення недостатньо визначено у двосторонньому випадку, хоча багато авторів рекомендують подвоїти однобічне -значення"пpp .

Автори не обговорюють це далі, а також не коментують "багато пропозицій авторів", щоб подвоїти однобічну значення. (Це створює питання "подвоїти -значення якої сторони? І чому ця сторона, а не інша?"пpp

Я не зміг знайти жодного іншого коментаря, думки чи результату з цього питання. Я розумію, що при асиметричному розподілі, хоча ми можемо розглянути інтервал, симетричний навколо нульової гіпотези щодо значення параметра, у нас не буде другої звичайної симетрії - розподілу маси ймовірності. Але я не розумію, чому це робить -значення "не точно визначеним". Особисто, використовуючи інтервал, симетричний навколо нульової гіпотези для значень оцінювача, я не бачу жодного визначенняpПроблема в тому, що "ймовірність того, що нульовий розподіл призведе до значень, рівних межам або поза цим інтервалом, є XX". Те, що маса ймовірностей з одного боку буде іншою, ніж маса ймовірностей, з іншого боку, не викликає проблем, принаймні для моїх цілей. Але це скоріше імовірніше, ніж не те, що Рохатгі і Салех знають те, чого я не знаю.

Отже, це моє запитання: У якому сенсі -значення є (або може бути) "недостатньо визначеним" у разі двостороннього тесту, коли нульовий розподіл не симетричний?p

Можливо, важлива зауваження: я підходжу до цього питання більше фішерським духом, я не намагаюся отримати суворе правило прийняття рішення в сенсі Неймана-Пірсона. Я залишаю це користувачеві тесту використовувати інформацію значення разом з будь-якою іншою інформацією для здійснення висновків.p


4
Окрім підходів, що ґрунтуються на ймовірності ("Fisherian") та LR (NP), інший метод розглядає, як отримати короткі довірчі інтервали та використовує їх для тестування гіпотез. Це робиться в дусі теорії рішень (і з використанням її методів), де довжина включена в функцію втрат. Для одномодальних симетричних розподілів тестової статистики очевидно, що найкоротші можливі інтервали виходять за допомогою симетричних інтервалів (по суті "подвоєння p-значення" однобічних тестів). Найменші інтервали залежать від параметризації: таким чином вони не можуть бути фішерськими.
whuber

Мені було цікаво, чи відповіді, розміщені тут, будуть застосовні і для бета-версій. Спасибі.
JLT

@JLT: Так, чому б і ні?
Scortchi

Відповіді:


12

Якщо ми подивимось на тест 2x2 точного і вважаємо, що це наш підхід, те, що "більш екстремальне", може бути безпосередньо виміряне "нижчою ймовірністю". (Agresti [1] згадує ряд підходів різних авторів до обчислення двох хвостових p-значень саме для цього випадку точного тесту 2x2 Фішера, з яких цей підхід є одним із трьох, що спеціально обговорюються як "найпопулярніший".)

Для безперервного (одномодального) розподілу ви просто знайдете точку в іншому хвості з тією ж щільністю, що і ваше значення вибірки, і все з однаковою або меншою ймовірністю в іншому хвості зараховується до вашого обчислення р-значення.

Для дискретних розподілів, які монотонно не збільшуються в хвостах, це так само просто. Ви просто рахуєте все з однаковою або меншою ймовірністю, ніж ваш зразок, який, враховуючи додані мною припущення (щоб термін "хвости" відповідав ідеї), дає змогу це розробити.

Якщо ви знайомі з інтервалами HPD (і знову ми маємо справу з унімодальністю), це, як правило, як вивезти все поза відкритим інтервалом HPD, який обмежений одним хвостом вашою статистикою вибірки.

введіть тут опис зображення

[Ще раз повторюю - це ймовірність під нулем, який ми прирівнюємо тут.]

Так що, принаймні, в одномодальному випадку, здається досить простим, щоб наслідувати точний тест Фішера і все ж говорити про два хвости.

Однак, можливо, ви не мали наміру посилатися на дух точного випробування Фішера цілком таким чином.

Тож мислячи поза цією ідеєю того, що робить щось на кшталт «або більш екстремального» на мить, давайте трохи підемо до кінця речей Неймана-Пірсона. Це може допомогти (перш ніж тестувати!) Вирішити визначення області відхилення для тесту, проведеного на якомусь загальному рівні (я не маю на увазі, що ви повинні буквально обчислити його, як саме ви його обчислили). Як тільки ви це зробите, спосіб обчислити два зубчасті p-значення для вашого випадку повинен стати очевидним.α

Цей підхід може бути цінним навіть у тому випадку, якщо людина проводить тест поза звичайним тестом на коефіцієнт ймовірності. Для деяких застосувань може бути складно розібратися, як обчислити р-значення в асиметричних тестах перестановки ... але це часто стає суттєво простішим, якщо спочатку подумати про правило відхилення.

З F-тестами на дисперсію я помітив, що "подвійне значення одного хвоста" може дати зовсім інші p-значення тому, що я вважаю правильним підходом. [Не має значення, яку групу ви називаєте "зразок 1", чи додаєте в чисельник більшу чи меншу дисперсію.]

[1]: Agresti, A. (1992),
Огляд точних висновків для
статистичних таблиць на випадок надзвичайних ситуацій , Vol. 7 , № 1. (лют.), Стор 131-153.


1
ctd ... Якщо ми робимо тест на коефіцієнт ймовірності, коефіцієнт ймовірності завжди є однобічним, але якщо ми побудуємо еквівалентний два тестові випробування на основі якоїсь статистики, то ми все одно будемо дивитися на менші коефіцієнти ймовірності, щоб знайти "більш екстремальний"
Glen_b -Встановити Моніку

2
Подвоєння однохвостого p-значення може бути захищене як корекція Bonferroni для проведення двох односхилих тестів. Зрештою, після двосхилого тесту, ми, як правило, дуже схильні розглядати будь-які сумніви щодо правдивості нуля як перевагу іншій гіпотезі, напрямок якої визначається даними.
Scortchi

1
@Alecos це досить просто, щоб виправдати симетричний вибір! Мені важко зрозуміти, як ти читав те, що я писав, як пропонуючи симетричний вибір, якимось чином не було дійсним (цей вибір охоплюється дискусією, яку я дав про правило відхилення - ви можете легко побудувати симетричний правило відхилення). Перша частина моєї відповіді відповідала на частину запитання про Фішера. Якщо ви запитаєте про Фішера, чи не повинен я обговорювати те, що, здається, може зробити Фішер, грунтуючись на тому, що він робив за подібних обставин? Ви, здається, інтерпретуєте мою відповідь як сказану більше, ніж є.
Glen_b -Встановіть Моніку

1
@Alecos Зокрема, я не виступаю за підходи Фішера чи Неймана Пірсона (будь то ми говоримо про тести на коефіцієнти ймовірності або просто тести гіпотези), і не слід вважати мене спробою припустити, що все, що я опустив, може бути неправильним . Я просто обговорюю ряд речей, які ви, здавалося, піднімаєте у своєму питанні.
Glen_b -Встановити Моніку

2
Зрештою, так. Акуратний варіант підходу Фішера полягає в тому, що він дає дуже розумний спосіб досягти значення p, навіть не маючи альтернативи. Але якщо у вас є конкретні цікаві альтернативи, ви можете націлити свою область відхилення більш-менш точно на ці альтернативи, оголосивши частини простору вибірки, де альтернативи, як правило, ставлять ваші зразки як область відхилення. Тестова статистика, T, - це зручний спосіб досягти цього, по суті, поєднуючи одне число з кожною точкою в ньому (даючи нам "більш крайній", виміряний Т). ...
ctd

9

STST=|S|

S 2 tt=min(PrH0(S<s),PrH0(S>s))S2t

Коли має безперервний розподіл, підхід до формування двосхилого тесту, показаного @ Glen_b - визначення щільності як тестової статистики: - звичайно дасть дійсні значення p; але я не впевнений, що його коли-небудь рекомендував Фішер або що його зараз рекомендують неофішрівці. Якщо на перший погляд це виглядає більш принципово, ніж подвоєння однохвостого p-значення, зауважте, що мати справу з щільністю ймовірності, а не масою, означає, що розраховане таким чином двохвосте p-значення може змінюватися, коли тестова статистика є перетворена функцією збереження порядку. Наприклад, якщо для перевірки нуля значення середнього гаусса дорівнює нулю, ви берете єдине спостереження & отримуєтеSST=fS(S)X1.66, значення з однаковою щільністю на іншому хвості становить , а значення отже,Але якщо ви розглядаєте це як тестування нуля, що середнє геометричне значення журналу-Гаусса дорівнює одиниці, і взяти одне спостереження & отримати , значення з однаковою щільністю на іншому хвості - ( ), і значення отже,1.66

p=Pr(X>1.66)+Pr(X<1.66)=0.048457+0.048457=0.09691.
Ye1.66=5.25930.025732=e3.66
p=Pr(Y>5.2593)+Pr(Y<0.025732)=0.048457+0.00012611=0.04858.

введіть тут опис зображення

Зауважимо, що функції кумулятивного розподілу інваріантні перетворенням, що зберігають порядок, тому в наведеному вище прикладі подвоєння найнижчого p-значення дає

p=2t=2min(Pr(X<1.66),Pr(X>1.66))=2min(Pr(Y<5.2593),Pr(Y>5.2593))=2min(0.048457,0.951543)=2×0.048457=0.09691.

Свого роду продовження до цього відповіді, обговорюючи деякі принципи побудови тестів , в яких альтернативна гіпотеза не зазначено інакше, можна знайти тут .

† Коли має дискретний розподіл, записS

pL=PrH0(Ss)
pU=PrH0(Ss)

для нижнього та верхнього однохвостих p-значень двозначне p-значення задається значенням

Pr(Tt)={pL+PrH0(PUpL)when pLpUpU+PrH0(PLpU)otherwise

; тобто додаючи до меншого однохворого p-значення найбільшу досяжну p-величину в іншому хвості, яка не перевищує його. Зауважте, що все ще є верхньою межею.2t


1
Ух ти. Це дуже хороший момент, +1. Яка ваша порада тоді? Також чи можу я інтерпретувати цю невідповідність як відповідну різним (у даному випадку неявним) вибору статистики тесту?
амеба каже, що поверніть Моніку

1
@amoeba: Не друкарня! А коли ви спостерігаєте 1,66, то приймаєте мінімум 0,952 & 0,048. Якщо ви насправді спостерігали -3,66, це буде мінімум 0,0001 & 0,9999.
Scortchi

1
@Scortchi Я щойно прийняв відповідь Glen_b, тому що вона була мені "кориснішою" у вузькому розумінні. Але ваш допоміг мені уникнути пастки думки, що "це все є", це відмінний страховий поліс на майбутні ризики. Знову дякую.
Алекос Пападопулос

1
@Scortchi Я повинен погодитися; моя відповідь сприйняла досить спрощений та однобічний погляд, і я повинен кваліфікувати, розширити та обґрунтувати відповідь. Я, мабуть, буду це робити в кілька етапів.
Glen_b -Встановіть Моніку

1
@Glen_b: Дякую, я з нетерпінням чекаю цього. Я також хочу розширити своє, щоб показати, як тестові бали та узагальнені тести щодо коефіцієнта ймовірності дають різні відповіді (загалом); & теорію неупереджених тестів, безумовно, варто згадати в цьому контексті (але я її ледве пам’ятаю).
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.