Таблиці надзвичайних ситуацій: які тести робити і коли?


17

Я хотів би побачити розширення цієї дискусії про віковий хі-квадрат проти точної тестової дискусії Фішера, трохи розширивши сферу застосування. Існує багато тестів на взаємодію в таблиці надзвичайних ситуацій, достатньо, щоб моя голова крутилася. Я сподіваюся отримати пояснення того, який тест я повинен використовувати і коли, і, звичайно, пояснення, чому одному тесту слід віддати перевагу іншому.

Моя нинішня проблема - класичний випадок, але відповіді щодо більшої розмірності вітаються, як і поради щодо впровадження різних рішень в R, принаймні, у випадках, коли не очевидно, як діяти.n×m

Нижче я перерахував усі тести, про які я знаю; Сподіваюся, викривши мої помилки, їх можна виправити.

  • . Старий режим очікування. Тут є три основні варіанти:χ2

    • Поправка, вбудована в R для 2х2 таблиць: "половина віднімається від усіх відмінностей." Чи слід завжди це робити?|OE|
    • " " χ 2 Тест, не знаю, як це зробити в Р.N1χ2
    • Моделювання в Монте-Карло. Це завжди найкраще? Чому R не дає мені df, коли я це роблю?
  • Точний тест Фішера .

    • Традиційно рекомендується, коли в будь-якій клітині очікується <4, але, мабуть, деякі заперечують цю пораду.
    • Чи є (як правило, помилковим) припущення, що фіксовані маргінали справді найбільша проблема цього тесту?
  • Точний тест Барнара

    • Ще один точний тест, за винятком я ніколи про нього не чув.
  • Пуассонова регресія

    • Одна річ, яка мене завжди бентежить щодо glms, - це саме те, як робити ці тести на значущість, щоб допомогти в цьому було б вдячно. Чи найкраще робити порівняння вкладених моделей? Що з тестом Вальда для конкретного прогноктора?
    • Чи повинен я дійсно завжди завжди робити пуассонову регресію? Яка практична різниця між цим та тестом ?χ2

Відповіді:


13

Це хороше питання, але велике. Я не думаю, що можу дати повну відповідь, але я викину трохи їжі для роздумів.

По-перше, під вашою верхньою точкою кулі виправлення, про яке ви посилаєтесь, відоме як корекція Йейтса для безперервності . Проблема полягає в тому, що ми обчислюємо дискретну інфекційну статистику:
(Це дискретно, оскільки лише у кінцевій кількості екземплярів, представлених у таблиці непередбачених ситуацій, існує кінцева кількість можливих реалізованих значень, які може приймати ця статистика.) Незважаючи на цей факт, вона порівнюється зпостійнимрозподілом посилань (саме, тоχ2розподілз ступенями свободи(г-1)(з-1)). Це обов'язково призводить до невідповідності на якомусь рівні. З особливо малим набором даних, і якщо деякі клітинки мають очікувані значення менше 5, можливо, p-значення може бути занадто малим. Корекція Йейта коригує це.

χ2=(OE)2E

χ2 (r1)(c1)

За іронією долі, та сама основна проблема (дискретно-безперервна невідповідність) може призвести до занадто високих p-значень . Зокрема, p-значення умовно визначається як ймовірність отримання даних, які є настільки ж крайніми або більшиминіж спостережувані дані. Під постійними даними розуміється, що ймовірність отримати будь-яке точне значення зникає мало, і тому ми справді маємо ймовірність даних, які є більш екстремальними. Однак з дискретними даними існує кінцева ймовірність отримання даних так само, як і ваші. Тільки обчислення ймовірності отримання даних більш екстремальними, ніж ваші, дає занадто низькі номінальні значення p (що призводить до збільшення помилок типу I), але включаючи ймовірність отримання даних, таких як ваші, призводить до занадто високих номінальних p-значень (що призведе до збільшення помилок типу II). Ці факти спонукають думку про середнє значення p . При такому підході значення р - це ймовірність даних більш екстремальних, ніж ваша плюс половина ймовірність даних така сама, як і ваша.

Як ви зазначаєте, існує багато можливостей для тестування даних таблиці надзвичайних ситуацій. Найбільш повне лікування плюси і мінуси різних підходів тут . Цей папір характерний для таблиць 2x2, але ви все ще можете багато дізнатися про параметри даних таблиці непередбачених ситуацій, прочитавши їх.

Я також думаю, що варто серйозно ставитися до моделей. Старіші тести, такі як чі-квадрат, є багатьма людьми швидкими, простими та зрозумілими, але не залишають вас так само всебічно розуміти свої дані, як ви отримуєте від створення відповідної моделі. Якщо обґрунтовано розглядати рядки [стовпці] таблиці непередбачених ситуацій як змінну відповіді, а стовпці [рядки] як пояснювальні / прогнозні змінні, підхід до моделювання дотримується досить легко. Наприклад, якщо у вас було всього два ряди, ви можете побудувати логістичну регресійну модель; якщо є кілька стовпців, ви можете використовувати опорне кодування комірок (фіктивне кодування) для побудови моделі типу ANOVA. З іншого боку, якщо у вас більше двох рядів, багаточленна логістична регресіяможе використовуватися таким же чином. Якщо ваші рядки мають внутрішній порядок, порядкова логістична регресія дала б кращі показники багаточленним. Мовна лінійна модель (регресія Пуассона), ймовірно, менш актуальна, якщо ви не маєте таблиць на випадок надзвичайних ситуацій з більш ніж двома вимірами.

Для всебічного опрацювання таких тем найкращими джерелами є книги Агресті: або його повномасштабне звернення (більш суворе), його вступна книга (легше, але все-таки всеохоплююча і дуже хороша), або, можливо, також його порядкова книга .

Оновлення: Просто задля повноти списку можливих тестів, мені здається, що ми можемо додати цейG2-test

G2=Oln(OE)


1
Це було чудове пояснення основної проблеми, дякую! Також мені раніше говорили, що текст Агресті є чудовим ресурсом, тому я перевірю його.
JVMcDonnell

4

Я спробую вирішити деякі ваші запитання якнайкраще з моєї точки зору. По-перше, тест Фішера-Ірвіна - лише інша назва точного тесту Фішера. За винятком того, що це іноді обчислювально інтенсивно, я, як правило, вважаю за краще використовувати тест Фішера. Якщо з цим тестом є якісь проблеми, він обумовлює граничні підсумки. Краса тесту полягає в тому, що під нульовою гіпотезою набір таблиць на випадок надзвичайних ситуацій з тими ж граничними підсумками, що і спостережена таблиця, має гіпергеометричний розподіл. Деякі люди стверджують, що вони не бачать обґрунтування обмеження розгляду таблиць з однаковими граничними підсумками.

Тест-квадрат Пірсона дуже часто використовується для перевірки асоціації в таблицях на випадок надзвичайних ситуацій. Як і багато інших тестів, він приблизний, тому рівень значущості не завжди є точним. Кохран показав, що у малих зразках, коли деякі клітини дуже рідкі (наприклад, містять менше 5 випадків у деяких клітинах), наближення буде поганим.

Існує багато інших приблизних тестів. Як правило, застосовуючи тест Фішера за допомогою SAS, я отримую результати всіх цих тестів, і вони, як правило, дають майже однакові результати. Але тест Фішера завжди точно обумовлений граничними підсумками.

Що стосується регресії Пуассона, то це модель, яка пов'язує категоріальні змінні з підсумками комірок. Як і будь-яка модель, це залежить від набору припущень. Найважливіше те, що підрахунок комірок слідує за розподілом Пуассона, тобто середнє число підрахунків дорівнює його дисперсії. Зазвичай це не стосується розподілу кількості клітин. У випадку наддисперсії (дисперсія більша від середньої) негативна біноміальна модель може бути більш доречною.


"Тест Фішера-Ірвіна - лише інша назва точного тесту Фішера" ... ага, це робить цей коментар менш заплутаним для мене, дякую!
JVMcDonnell

3
Ваша відповідь насправді не зменшила мій розгубленість щодо того, коли робити ці речі. Я думаю, одна з речей, про які я сподівався почути, - це те, наскільки проблеми з чі ^ 2 вирішуються за допомогою моделювання або виправлень Монте Карло тощо; або ступінь, в якому він може бути витіснений glms. Тому я просто залишаю це відкритим на трохи, щоб побачити, чи зможу я отримати більше укусів. Але якщо після трохи ніхто не зважиться, я прийму вашу відповідь.
JVMcDonnell

Щодо Фішера та Ква-квадрату, я думаю, я сказав вам, коли ви можете використовувати квадрат чи. Якщо ви погоджуєтесь з ідеєю Фішера про те, що ви завжди повинні дотримуватися граничних підсумків, тест Фішера завжди застосовується. Але якщо ви цього не приймаєте, то, мабуть, вам доведеться вибрати безумовний тест. Щодо іншої наявної батареї тестів, я нічого не знаю про їх властивості, а отже, не можу реально порадити, коли ними користуватися. Досвід форми Я бачив випадки, коли це мало значення, оскільки результат зазвичай узгоджується.
Майкл Р. Черник

Чи правда, що Фішер вважав, що "ви завжди повинні дотримуватися граничних підсумків"? Це припущення справедливе лише тоді, коли граничні суми фіксовані. У пані, яка дегустує приклад чаю, дама знає, що 5 - молоко перше, а 5 - молоко. Але в експериментах частіше зустрічається те, що не існує сили, що примушує маргінали. Розглянемо випадок перегортання двох монет по 10 разів кожна. Коли 5 голів обертаються навколо монети, не починають давати хвости для збереження маргіналів. У таких випадках зафіксовано, що Фішер дуже консервативний. Ось чому мене цікавлять альтернативи.
JVMcDonnell

Так. Наскільки я розумію, Фішер вірив у вибір референтних дистрибутивів, які використовують інформацію з даних даних. Тож він би подумав, що незалежно від того, як складалися маргінальні підсумки ваших спостережуваних даних, слід порівнювати їх лише з даними, які сталися б під нульовою гіпотезою, що супроводжувалась обмеженнями щодо даних, а саме заданих граничних підсумків. Як і інші ідеї, що у Фішера це було, було суперечливим.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.