Правила застосування моделювання Монте-Карло р-значень для тесту чи-квадрата


9

Я хотів би зрозуміти використання моделювання Монте-Карло у chisq.test()функції Р.

У мене є якісна змінна, яка має 128 рівнів / класи. Розмір моєї вибірки - 26 (я не зміг взяти вибірку більше "осіб"). Тож очевидно, у мене будуть деякі рівні з 0 "особами". Але факт полягає в тому, що я маю лише дуже малу кількість класів, представлених із 127 можливих. Оскільки я чув, що для того, щоб застосувати тест на чи-квадрат, у нас повинно бути не менше 5 осіб на кожному рівні (я не зовсім розумію причину цього), я подумав, що simulate.p.valueдля визначення оцінки розподілу я мав використовувати варіант використання моделювання Монте-Карло. і обчислити р-значення. Без моделювання Монте-Карло, R дає мені p-значення < 1e-16. Завдяки моделюванню в Монте-Карло це дає мені значення p 4e-5.

Я спробував обчислити р-значення з вектором 26 одиниць і 101 нуль, і за допомогою моделювання Монте-Карло я отримую p-значення у 1.

Чи правильно констатувати, що навіть якщо розмір моєї вибірки невеликий порівняно з кількістю можливих класів, спостережуване розподіл таке, що дуже малоймовірно, що всі можливі класи існують з однаковою ймовірністю (1/127) у реальній сукупності ?


3
Якщо ваші дані дійсно такі, що ви спостерігали 26 різних класів із вибірки 26, то у вас фактично немає доказів проти гіпотези, що всі 127 класи мають однакову ймовірність. Це можна оцінити за допомогою обчислення багаточленного розподілу.
whuber

1
" Як я чув, що для застосування тестування на квадратній основі потрібно мати щонайменше 5 осіб на кожному рівні (я не зовсім розумію причину цього) " - не зовсім. Первісна порада полягала в тому, що очікувана кількість, а не фактична кількість повинна бути не менше 5. Метою цього (зараз давно застарілого) правила було спробувати переконатися, що розподіл chi-квадрата є розумним наближенням до дискретного розподілу тестова статистика. Порада через цілу кількість паперів протягом останніх 4 десятиліть або близько того "це правило є занадто суворим".
Glen_b -Встановіть Моніку

Відповіді:


6

За допомогою пошуку, здається, що Модель моделювання Монте-Карло полягає у виробленні еталонного розподілу, заснованого на випадково генерованих зразках, які матимуть такий же розмір, як і тестований зразок, щоб обчислити р-значення, коли умови випробувань не задовольняються.

Це пояснено в надії А. Дж. Королівського статутного товариства серії B (1968), яку можна знайти на JSTOR .

Ось відповідна цитата з документа Надії:

Процедури тестування значимості в Монте-Карло складаються з порівняння спостережуваних даних із випадковими зразками, згенерованими відповідно до перевіреної гіпотези. ... Переважно використовувати відомий тест на хорошу ефективність замість процедури тесту Монте-Карло, припускаючи, що альтернативна статистична гіпотеза може бути повністю визначена. Однак використати такий тест не завжди можливо, оскільки необхідні умови для застосування тесту можуть не бути виконані, або базовий розподіл може бути невідомим або може бути важко визначитися з відповідним критерієм тесту.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.