Вплив меж відрізків на основі даних на тест на корисність чи-квадрата?


18

Залишаючи осторонь очевидну проблему низької потужності квадратика у таких обставинах, уявіть, що ви зробите тест корисності чі-квадрата на деяку щільність з невстановленими параметрами, порівнюючи дані.

Для конкретності, скажімо, експоненціальний розподіл з невідомим середнім і розміром вибірки, наприклад, 100.

Для отримання розумної кількості очікуваних спостережень за кошик потрібно брати до уваги дані (наприклад, якщо ми вирішили поставити 6 бункерів нижче середнього та 4 над ним, це все одно використовувало б межі відрізків на основі даних) .

Але таке використання бункерів на основі перегляду даних, ймовірно, вплине на розподіл тестової статистики під нулем.

Я бачив багато дискусій з приводу того, що - якщо параметри оцінюються за максимальною ймовірністю з бінізованих даних - ви втрачаєте 1 df за розрахунковий параметр (проблема, що відноситься до Фішера проти Карла Пірсона) - але я не пригадую читаючи що-небудь про пошук самих меж сміття на основі даних. (Якщо ви оцінюєте їх за небінованими даними, то при к bins розподіл тестової статистики лежить десь між χк2 і χк-p2 .)

Чи впливає цей вибір на основі даних бункерів суттєво на рівень значущості чи потужність? Чи є якісь підходи, які мають значення більше, ніж інші? Якщо ефекту багато, чи це щось, що проходить у великих зразках?

Якщо це має суттєвий вплив, це, мабуть, зробить тест хі-квадрата, коли параметри невідомі у багатьох випадках майже непридатні (незважаючи на те, що вони використовуються в досить багатьох текстах), якщо ви не мали хорошого -приорі оцінка параметра.

Обговорення питань чи покажчиків посилань (бажано, із зазначенням їх висновків) було б корисним.


Редагуйте, майже вбік головного питання:

Мені здається, що існують потенційні рішення для конкретного випадку експоненціалу * (і уніформа приходить до цього думати), але мене все ж цікавить більш загальне питання впливу вибору меж бін.

* Наприклад, для експоненціалу можна використовувати найменше спостереження (скажімо, воно дорівнює ), щоб отримати дуже приблизне уявлення про те, де розмістити бункери (оскільки найменше спостереження є експоненціальним із середнім μ / n ), а потім перевірити решта n - 1 відмінностей ( x i - m ) на експоненційність. Звичайно, це може дати дуже погану оцінку μммк/нн-1хi-ммкі, отже, поганий вибір бункера, хоча я гадаю, що можна використовувати аргумент рекурсивно, щоб взяти найнижчі два-три спостереження, з яких вибирати розумні бункери, а потім перевіряти відмінності решти спостережень над найбільшою з цих найменших статистичних даних для експоненціальність)


1
Цікаве запитання. Я не знаю відповіді, але думка про те, що деякі втрати свободи мають сенс. Якщо ви цього ще не бачили, ця відповідь від @whuber повинна викликати думки: як зрозуміти-градуси свободи . Мені здається, що деякі імітаційні дослідження повинні давати вам змогу отримати тут опору, принаймні для деяких конкретних випадків.
gung - Відновіть Моніку

1
Не впевнений, наскільки це корисно, але є аналогічна проблема в галузі надійної оцінки. Зокрема, метод надійної оцінки (наприклад, середня обрізка) часто вимагає параметризованого введення (наприклад, параметр, який визначає кількість обрізки). Цей параметр може бути обраний методом, керованим даними (наприклад, подивіться, наскільки жирні хвости перед вибором параметра обрізки). Але попередній вибір параметра обрізки впливає на розподіл обрізаної середньої величини порівняно, скажімо, з фіксованим параметром параметра. Звичайний спосіб, з яким воно розбирається в цій літературі, здійснюється через завантажувальну систему.
Colin T Bowers

@ColinTBowers - потенційно дещо корисна, дякую. Не думав про можливість завантаження.
Glen_b -Встановіть Моніку

1
Це може бути цікаво розбити проблему на найпростіший випадок. Уявіть щось на зразок лише 5 спостережень за вашим улюбленим розподілом, і покладіть один подільник у дані, щоб утворити всього два відри.
zkurtz

Відповіді:


15

Основні результати тестування на придатність чи-квадрата на придатність можна зрозуміти ієрархічно .

Рівень 0 . Класична тестова статистика Пірсона для тестування мультиноміального зразка на фіксований вектор вірогідності дорівнює X 2 ( p ) = k i = 1 ( X ( n ) i - n p i ) 2p де X ( n ) i позначає кількість результатів у i- й клітині із зразка розміром n . Це можна плідно розглядати як квадратну норму вектора Y n = ( Y ( n ) 1 , ... , Y ( n ) k ) де Y ( n ) i = ( X ( n ) i - n p i ) /

Х2(p)=i=1к(Хi(н)-нpi)2нpiгχк-12,
Хi(н)iнYн=(Y1(н),,Yк(н)) яка за багатоваріантною теоремою центрального межі сходиться в розподілі як Y n d N(0,I-Yi(н)=(Хi(н)-нpi)/нpi З цього ми бачимо, що X 2 = Y n 2χ 2 k - 1, оскільки I -
YнгN(0,Я-ppТ).
Х2=Yн2χк-12ідентичний потенціал рангуk-1.Я-ppТк-1

pмpi

Х12=i=1к(Хi(н)-нp^i)2нp^iгχк-м-12,

λк

мм=1

Х22=i=1к(Хi(н)-нp^i)2нp^iгχк-м-12,
p^i

Z1,,ZнЖλλχк-м-12χк-12

YнN(0,Я-pλpλТ-А(λ))

λА(λ)

YнБ(λ^)

YнТБТБYнгχк-12,
к

Прикладами є статистика Рао-Робсон-Нікулін та статистика Джапарідзе-Нікуліна .

к1/кЯ^j=мк^+σ^Я0,jЯ0,j=[Ж-1((j-1)/к),Ж-1(j/к))

Список літератури

  1. W. van der Vaart (1998), Асимптотична статистика , Cambridge University Press. Глава 17 : Тести на чи-квадрат .

  2. χ2

  3. FC Drost (1989), Узагальнені тести на придатність чи-квадрата для пристосованості для моделей на масштабах локації, коли кількість класів тяжіє до нескінченності , Енн. Стат , вип. 17, вип. 3, 1285–1300.

  4. М. С. Нікулін, М. С. (1973), тест Chi-квадрата для безперервного розподілу з параметрами зсуву та масштабу , Теорія ймовірності та його застосування , т. 19, ні. 3, 559–568.

  5. К. К. Дзапарідзе та М. С. Нікулін (1973), Про модифікацію стандартної статистики Пірсона , теорії ймовірності та її застосування , т. 19, ні. 4, 851–853.

  6. KC Rao та DS Robson (1974), статистика хі-квадрата на корисність тестів на придатність в експоненціальній сім'ї , Comm. Статист. , т. 3., вип. 12, 1139–1153.

  7. Н. Балакришнан, В. Войнов та М. С. Нікулін (2013), « Чи-квадрат корисності придатних тестів із додатками» , «Академічна преса».


5

Нижче я знайшов хоча б часткові відповіді на своє запитання. (Я все одно хотів би дати комусь такий бонус, тому будь-яка подальша інформація оцінена.)

χк-p-12p χ12кpχк-p2χк2p

Список літератури

Мур Д.С. (1971), статистика статистики квадратів з випадковими межами клітин , Енн. Математика. Стат. , Т. 42, № 1, 147–156.

χ2

χ2

χ2

χ2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.