Чому доказ Вілкса 1938 р. Не працює для неправильно визначених моделей?


23

У відомому документі 1938 р. (" Великий вибірковий розподіл коефіцієнта ймовірності для тестування складених гіпотез ", "Анали математичної статистики", 9: 60-62) Семюел Вілкс отримав асимптотичний розподіл у (коефіцієнт вірогідності журналу) для вкладених гіпотез, при припущенні, що більша гіпотеза правильно вказана. Обмежуючим розподілом є (chi-квадрат) з ступенями свободи, де - кількість параметрів у більшій гіпотезі іχ 2 год - м год м2×LLRχ2hmhm- кількість вільних параметрів у вкладеній гіпотезі. Однак, мабуть, добре відомо, що цей результат не дотримується, коли гіпотези неправильно уточнюються (тобто, коли більша гіпотеза не є істинним розподілом для вибіркових даних).

Хтось може пояснити, чому? Мені здається, що доказ Вількса все-таки повинен працювати з незначними модифікаціями. Він спирається на асимптотичну нормальність максимальної оцінки ймовірності (MLE), яка все ще дотримується неправильних моделей. Єдина відмінність - матриця коваріації лімітуючої багатоваріантної нормалі: для правильно заданих моделей ми можемо наблизити коваріаційну матрицю з оберненою інформаційною матрицею Фішера , при неправильному визначенні ми можемо використовувати сендвіч-оцінку матриці коваріації ( ). Останнє зводиться до оберненої інформаційної матриці Фішера, коли модель задана правильно (оскільки J - 1 K J - 1 J = KJ1J1KJ1J=K). AFAICT, доказ Вількса байдуже, звідки береться оцінка матриці коваріації, якщо ми маємо неперевернуту асимптотичну коваріаційну матрицю багатоваріантної норми для MLE ( в роботі Wilks). c1


Коли більша модель відповідає дійсності, але підмодель помилкова, асимптотичний розподіл вже не є (наприклад, у лінійних моделях з помилками Гаусса, ми отримуємо такі речі, як точні нецентральні розподіли F, тому асимптотичний розподіл повинен бути чимось на зразок nc - здогадуюсь). То чому б ми очікували, що це буде коли і більша, і менша модель є помилковими? З чого саме тут починається нульова гіпотеза? χ 2 χ 2χ2χ2χ2
хлопець

У правильно вказаній нульовій гіпотезі обидві моделі є "істинними", але вкладені мають параметри, закріплені за справжніми значеннями. У неправильно визначеній нульовій гіпотезі обидві моделі є "помилковими", але вкладений має параметри, зафіксовані на значеннях псевдотруї. ("Псевдотрудне значення" - це асимптотичне значення параметра, що мінімізує відстань Куллбека-Ліблера між неправильною моделлю та справжньою моделлю). Отже, ваш приклад нецентрального F не має значення, оскільки це розподіл, коли нульова гіпотеза тут хибна. мmm
ratsalad

Вибачте, я мав би сказати, що вкладена гіпотеза має параметри зафіксовані на справжніх значеннях. hm
ratsalad

Наскільки я розумію, що неправильно уточнена нульова модель може бути помилкова уточнена багатьма способами. Наприклад: неправильний розподіл залишків, дані мають гетеросцедастичність, ефекти не є аддитивними і т. Д. Однак я згоден, що якщо хоча б один з "тестованих" параметрів фіксується на помилковому значенні (наприклад, псевдотрудне значення) , це один приклад неправильно вказаної нульової моделі. hm
rcorty

Відповіді:


19

Р. В. Футц і Р. С. Срівастава детально вивчили це питання. Їх документ 1977 року "Виконання тесту на коефіцієнт ймовірності, коли модель невірна", містить виклад результату розподілу у разі неправильної уточнення поряд із дуже коротким ескізом доказування, а їхній документ 1978 року - "Асимптотичний розподіл коефіцієнта ймовірності, коли модель неправильна " містить доказ - але останній набирається у старомодному машинописі (хоча обидва документи використовують одне і те ж позначення, тому ви можете комбінувати їх при читанні). Крім того, для деяких етапів доказування вони посилаються на документ К.П. Роя "Записка про асимптотичний розподіл коефіцієнта ймовірності" від 1957 року, який, здається, не доступний в режимі он-лайн, навіть закритий.

У випадку неправильної специфікації розподілу, якщо MLE все ще є послідовною і асимптотично нормальною (що не завжди буває), LR статистика слідує за асимптотикою лінійною комбінацією незалежних чі-квадратів (кожен з одного ступеня свободи)

2lnλdi=1rciχi2

де . Можна побачити "схожість": замість одного chi-квадрата з ступенями свободи ми маємо chi-квадрати з кожним ступенем свободи. Але "аналогія" зупиняється на цьому, оскільки лінійна комбінація хі-квадратів не має щільності закритої форми. Кожен масштабований квадрат-чі - це гамма, але з іншим параметром що призводить до іншого масштабного параметра для гами - і сума таких гам не є закритою формою, хоча його значення можна обчислити.h - m h - m c ir=hmhmhmci

Для констант маємо , і вони є власними значеннями матриці ... яка матриця? Добре, використовуючи позначення авторів, встановіть як гессея вірогідності журналу, а - зовнішнім добутком градієнта зручності ймовірності (в очікуванні). Отже є асимптотичною дисперсійно-коваріаційною матрицею MLE.c 1c 2. . . c r0 Λ C V = Λ - 1 C ( Λ ) - 1cic1c2...cr0ΛCV=Λ1C(Λ)1

Потім встановіть бути верхній діагональний блок . r × r VMr×rV

Також запишіть у вигляді блокуΛ

Λ=[Λr×rΛ2Λ2Λ3]

і встановимо ( - мінус доповнення Шура ). W ΛW=Λr×r+Λ2Λ31Λ2WΛ

Тоді - це власні значення матриці оцінені за справжніми значеннями параметрів. M WciMW

ДОПОЛНЕННЯ
Відповідаючи на дійсне зауваження ОП у коментарях (іноді, справді, питання стають плацдармом для спільного отримання більш загального результату, і самі можуть бути знехтувані в процесі), ось як відбувається доказ Вількса: Вілкс починає спільну роботу нормальний розподіл MLE і переходить до отримання функціонального вираження коефіцієнта ймовірності. До і включаючи його еквівалент. , доказ може рухатися вперед, навіть якщо припустити, що ми маємо неправильну специфікацію розподілу: як зазначає ОП, умови матриці коваріації дисперсії будуть різними в сценарії помилок, але все, що має Уілкс, - це брати похідні та ідентифікувати асимптотично незначні терміни. І так він прибуває на екв. де ми бачимо, що коефіцієнт ймовірності є статистичним,[ 9 ] год - м год - м[9][9]якщо специфікація правильна, - це лише сума квадраті стандартних звичайних випадкових величин, і тому вони розподіляються як один чі-квадрат зі ступенями свободи : (загальне позначення)hmhm

2lnλ=i=1hm(nθ^iθiσi)2dχhm2

Але якщо у нас є помилки специфікації, то терміни, які використовуються для того , щоб масштабувати центрированную і збільшене MLE більше не умови , які роблять відхилення кожного елемента дорівнює одиниці, і таким чином перетворіть кожен доданок у стандартний нормальний rv, а суму - в квадрат-chi. І це не так, оскільки ці терміни передбачають очікувані значення другої похідної вірогідності ймовірності ... але очікуване значення можна сприймати лише щодо справжнього розподілу, оскільки MLE - це функція даних і Дані слід за істинним розподілом, тоді як другі похідні log-ймовірності обчислюються виходячи з неправильного припущення про щільність. n(θ^θ)

Отже, під помилковим визначенням у нас є щось на зразок і найкраще, що ми можемо зробити, - це маніпулювати цим

-2lnλ=i=1год-м(нθ^i-θiаi)2

-2lnλ=i=1год-мσi2аi2(нθ^i-θiσi)2=i=1год-мσi2аi2χ12

що є сумою масштабованих чи-квадратних обертів, більше не розподілених як один чи-квадратний rv з ступенями свободи. Посилання, надане ОП, дійсно є дуже чітким описом цього більш загального випадку, що включає результат Вількса як особливий випадок.год-м


1
Отже, це лише перерахунок стандартного результату, коли модель неправильно визначена. Цей результат був отриманий і повторно отриманий багато разів. Найяскравіша і найяскравіша деривація, яку я бачив, - з Кенту 1982 р. " Міцні властивості тестів коефіцієнта ймовірності " (Біометріка 69:19). Однак ти не відповів на моє запитання. Моє запитання стосувалося конкретно доказів Wilks 1938 року, і чому він не вдається.
ratsalad

2

Доказ Вілкса 1938 року не працює, оскільки Вілкс використовував як асимптотичну матрицю коваріації у своєму доказуванні. - зворотне значення гессіана негативної вірогідності журналу, а не сендвіч-оцінювач . Вілкс посилається на й елемент як у своєму доказуванні. Роблячи припущення, що Wilks (1938) припускає, що виконується, що є рівністю інформаційної матриці Фішера. Якщо модель ймовірності вказана правильно, тоJ-1J-1J-1КJ-1ijJcijJ-1КJ-1=J-1К=JК=J. Отже, одна з інтерпретацій припущення Вількса полягає в тому, що він припускає більш сильне припущення, що модель ймовірності правильно задана.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.