Враховуючи потужність комп’ютерів в наші дні, чи є коли-небудь причина зробити тест на квадрат чи, а не точний тест Фішера?


86

Зважаючи на те, що програмне забезпечення дозволяє зробити точний розрахунок Фішера настільки легко в даний час , чи є обставина, коли теоретично чи практично, тест з квадратом чи справді є кращим, ніж точний тест Фішера?

Переваги точного тесту Фішера включають:

  • масштабування до таблиць на випадок, більших за 2x2 (тобто будь-яку таблицю r x c )
  • дає точне p-значення
  • не потрібно мати мінімальний очікуваний кількість комірок, щоб бути дійсним

10
Тому що це добра стара класика. Незабаром він стане вишуканим урожаєм. Після цього, коли люди встануть проти комп'ютерів, він проживе свою другу юність.
ttnphns

7
Ви ніколи не намагалися обчислити точну статистичну перевірку Фішера на великій таблиці? (Це забирає занадто довго ...)
whuber

22
Окрім хороших коментарів та відповідей, які ви вже отримали, я вважаю, що краще питання - «Зважаючи на потужність комп’ютерів, чому б не робити тестування моделювання / перестановки весь час?».
Пітер Флом

1
@whuber Я зробив (власну) реалізацію без (великої кількості) таблиць, в C ++. Він виконує тисячі значень P для чисел до 8 цифр за секунди.
Мішель де Руйтер

1
@Michel Я мав на увазі загальну кількість комірок у таблиці. Розрахунок легко для 2х2 таблиць, але, коли таблиці зростають великими, обчислення стають обтяжливими.
whuber

Відповіді:


61

χ2

χ2PN1N


З R-help, 2009 :

Тести Кемпбелла, І. Чи-квадрата та Фішера-Ірвіна з двох-двох таблиць з невеликими рекомендаціями щодо вибірки. Статистика в медицині 2007; 26 : 3661-3675. ( реферат )

  • ... останнє видання книги Armitage рекомендує, щоб коригування безперервності ніколи не застосовувались для тестів хі-квадратних таблиць на випадок;

  • Модифікація Е. Пірсона тесту чи-квадрата Пірсона, що відрізняється від вихідної фактором (N-1) / N;

  • Кохран зазначив, що число 5 у "очікуваній частоті менше 5" було довільним;

  • результати опублікованих досліджень можуть бути узагальнені наступним чином для порівняльних випробувань:

    1. Хіте-тест у Yate має рівень помилок типу I менший від номінального, часто менше половини номінального;

    2. Тест Фішера-Ірвіна має коефіцієнти помилок типу I менші від номінальних;

    3. K-версія Пірсона у випробуванні хі-квадрата має коефіцієнти помилок типу I ближчі до номінальних, ніж тест хі-квадрата Яте та тест Фішера-Ірвіна, але в деяких ситуаціях дає помилки типу I помітно більше номінального значення;

    4. Хімічний тест «N-1» веде себе як версія «N» К. Пірсона, але тенденція до вищих, ніж номінальних значень знижується;

    5. Двосторонній критерій Фішера-Ірвін , використовуючи правило Ірвіна менш консервативні , ніж метод подвоєння односторонньої ймовірності;

    6. Середній P-тест Фішера-Ірвіна шляхом подвоєння однобічної ймовірності виконує кращі показники, ніж стандартні версії тесту Фішера-Ірвіна, а метод середини P за правилом Ірвіна виконує ще більшу ефективність, оскільки фактичні помилки I типу наближаються до номінальних рівнів. ";

  • сильна підтримка тесту "N-1" за умови, що очікувані частоти перевищують 1;

  • недолік тесту Фішера, який базувався на передумові Фішера, що граничні суми не містять корисної інформації;

  • демонстрація їх корисної інформації в дуже малих розмірах вибірки;

  • Коригування безперервності Yate N / 2 є великим над корекцією і є недоцільним;

  • існують протилежні аргументи щодо використання тестів рандомізації у рандомізованих випробуваннях;

  • розрахунки найгірших випадків;

  • загальна рекомендація : використовуйте тест-квадрат «N-1», коли всі очікувані частоти не менше 1, в іншому випадку використовуйте тест Фішера-Ірвіна, використовуючи правило Ірвіна для двосторонніх випробувань, беручи таблиці з будь-якого хвоста, як вірогідного, або менше, як це спостерігалося; див. лист до редактора Антоніо Андреса та відповідь автора у 27: 1791-1796; 2008 рік.


Crans GG, Shuster JJ. Наскільки консервативний точний тест Фішера? Кількісна оцінка двопробного порівняльного біноміального випробування. Статистика в медицині 2008 р .; 27 : 3598-3611. ( реферат )

  • ... перший документ, щоб справді кількісно оцінити консервативність випробування Фішера;

  • "розмір тесту на FET був менше 0,035 для майже всіх розмірів вибірки до 50 років і не наближався до 0,05 навіть для розмірів вибірки понад 100".

  • консервативність "точних" методів;

  • див. Stat in Med 28 : 173-179, 2009 щодо критики, яка не відповіла


2×2

  • P

  • значення безумовних тестів;

  • див. лист до редакції 30: 890-891; 2011


1
Чи можете ви запропонувати, як застосувати корекцію (N-1) / N? Чи є в Інтернеті калькулятори, які містять цю корекцію? Чи є простий спосіб вручну скорегувати результати тесту чи-квадрата, щоб зробити цю корекцію самостійно?
DW

Одне з наведених вище посилань - найкраща ставка.
Френк Харрелл

1
χ2 χ2

2
Позначення чогось "точним" не робить цього. Дивіться чудове пояснення @suncoolsu нижче, що ви, напевно, пропустили (ви також пропустили всі пояснення вище). Тест Пірсона навіть точніший, ніж вважав Пірсон. Наприклад див. Citeulike.org/user/harrelfe/article/13265687 та citeulike.org/user/harrelfe/article/13263676 . "Точний" тест Фішера є точним лише в тому сенсі, що справжня помилка типу I не більша, ніж заявлена. Але воно виявляється меншим, ніж заявлене, тому помилка II типу вища, тобто менша потужність.
Френк Харрелл

Я знаю значення точності. Точний момент, який мені не подобається при неточних тестах, - це можливість того, що похибка типу I перевищує номінальний рівень. Але ти маєш рацію, я неправильно прочитав твою відповідь та іншу (обидва чудові)
Stéphane Laurent

47

Це чудове питання.

Точний тест Фішера - один із чудових прикладів розумного використання експериментальної конструкції Фішера , а також обумовлення даних (в основному на таблицях із спостережуваним рядком та граничним підсумком) та його винахідливості у пошуку розподілу ймовірностей (хоча це не найкращий приклад , для кращого прикладу дивіться тут ). Використання комп'ютерів для обчислення "точних" p-значень, безумовно, допомогло отримати точні відповіді.

Однак важко виправдати припущення про точний тест Фішера на практиці. Оскільки так званий "точний" походить від того, що в "досвіді дегустації чаю" ​​або у випадку 2-х таблиць на випадок надзвичайних ситуацій загальна кількість рядків і загальна стовпець, тобто граничні підсумки фіксуються за проектом. Це припущення рідко обґрунтовується на практиці. Приємні довідки дивіться тут .

Назва "точне" призводить до того, що значення р, що даються цим тестом, є точними, що, зважаючи на ці причини, в більшості випадків, з цих причин, на жаль, не є правильним.

  1. Якщо маргінали не будуть зафіксовані конструкцією (що трапляється практично кожного разу на практиці), значення p буде консервативним.
  2. Оскільки в тесті використовується дискретний розподіл ймовірностей (конкретно, гіпергеометричний розподіл), для певних обрізів неможливо обчислити "точні нульові ймовірності", тобто p-значення.

У більшості практичних випадків використання тесту на співвідношення ймовірності або тестування Chi-квадрата не повинно давати зовсім інших відповідей (p-значення) від точного тесту Фішера. Так, коли маргінали визначені, точний тест Фішера - кращий вибір, але це трапляється рідко. Тому для перевірки консистенції завжди рекомендується використовувати тест Chi-квадрата тесту на співвідношення ймовірності.

Подібні ідеї застосовуються, коли точний тест Фішера узагальнений до будь-якої таблиці, яка в основному еквівалентна обчисленню багатоваріантних гіпергеометричних здібностей. Тому завжди потрібно намагатися обчислити розподіл Chi-квадрата та ймовірності на основі p-значень на додаток до "точних" p-значень.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.