Точний тест Фішера з вагами?


12

Хтось знає про варіацію точного тесту Фішера, яка враховує ваги? Наприклад, вибіркові ваги .
Таким чином, замість звичайної таблиці 2х2 у кожній точці даних є значення "маса" або "розмір", що зважує точку.

Приклад даних:

A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4

Точний тест Фішера використовує цей 2x2 перехресний стіл:

A\B  N  Y All
 N   2  2   4
 Y   2  4   6
All  4  6  10

Якщо ми б прийняли вагу як "фактичну" кількість точок даних, це призведе до:

A\B  N  Y All
 N   4 13  17
 Y   3 10  13
All  7 23  30

Але це призведе до занадто високої впевненості. Одна точка даних, що змінюється з N / Y на N / N, призведе до дуже великої різниці в статистиці.
Плюс, це не буде працювати, якби якась вага містила фракції.

Відповіді:


10

У мене є підозра, що "точні" випробування та вибіркові ваги є по суті несумісними поняттями. Я зареєструвався в Stata, в якому є хороші можливості для вибіркових обстежень та розумні для точних випробувань, і його 8 можливих статистичних даних тестування для перехресних таблиць із зразками ваг не містять жодних «точних» тестів, таких як Фішер.

Відповідний запис у ручній статистиці (для svy: скласти таблицю в дві частини ) радить використовувати тест за замовчуванням у всіх випадках. Цей метод за замовчуванням базується на звичайній статистиці Пірсона в хі-квадраті. Цитувати:

"Для врахування проекту опитування статистика перетворюється на статистику F з нецілісними ступенями свободи за допомогою корекції Рао та Скотта (1981, 1984) другого порядку".

Відгуки:

  • Рао, JNK та AJ Scott. 1981. Аналіз категоричних даних із складних вибіркових опитувань: Хі-квадратні тести на придатність та незалежність у двосторонніх таблицях. Журнал Американської статистичної асоціації 76: 221–230.
  • Рао, JNK та AJ Scott. 1984. На тестах чи-квадрата для багатосторонніх таблиць на випадок надзвичайних ситуацій з пропорціями комірок, оціненими за даними опитування. Аннали статистики 12: 46–60.

3

Цікаве запитання. Що ви маєте на увазі під вагою?

Я був би схильний зробити завантажувальний ... виберіть свою улюблену статистику (тобто точну Фішера) та обчислити її на своїх даних. Потім призначте нові комірки кожному екземпляру відповідно до вашої нульової гіпотези та повторіть процес 999 разів. Це повинно дати досить хороший емпіричний розподіл для вашої тестової статистики під нульовою гіпотезою та дозволити просте обчислення вашого p-значення!


Дякую! Але я сподівався на статистику, яка буде швидшою та стабільнішою для обчислення ...
Мішель де Руйтер

2

Одне швидке питання щодо вибіркової ваги - вони, як правило, є способом включити деяку інформацію про сукупність, з якої береться вибірка, - але зазвичай вони базуються на сценаріях типу "великий вибірки" (як правило, замасковані прогнози BLUP або BLUE). Тож я б міг уявити, що зразки ваг, ймовірно, не будуть краще, ніж ніякі ваги. Що було б краще, я думаю, це використовувати інформацію про населення, на основі якої ґрунтувалася вибіркова конструкція.

Наприклад, на якій основі були розраховані ймовірності відбору? Моя справа в тому, що ви знали загальну чисельність населення або якесь розбиття населення, яке не включає А чи В (скажімо, вік за статевими групами). Якщо це невірно, я збираюся витратити трохи місця, але якщо це правильно, і якщо ви вважаєте, що у вас є загальна кількість населення для груп (або верств) та в межах кожної групи у вас була таблиця "міні" 2 на 2 Отже, тепер ми можемо записати як "ціль" нашого висновку. Або, можливо, це сума яка є ціллю висновку (скільки в популяції дають відповідь N / N ??). Тоді ви намагаєтесь міркувати про k R 1 ; 11 , R 1 ; 12 , R 1 ; 21R1,,RkkR1;11,R1;12,R1;21,R1;22,l=1kRl;ijRl;ijвід вибіркових чисел урахуванням обмеження, що for . (максимум когось?)rl;iji,jRl;ij=Rl(l=1,,k)

Зауважте, що якщо ймовірність вибірки базувалася лише на тому, які дані ви, ймовірно, отримаєте, то вони не мають значення (і застосовується точний тест Фішера), оскільки після отримання даних ви знаєте, який зразок ви отримали. Отже, слід зробити ціле, щоб оновити ймовірність вибірки до якщо mth одиниця знаходиться у вибірці, а якщо вони не були у вибірці. Однак зазвичай проект базується на більшій кількості інформації, ніж просто на даних, які, ймовірно, будуть помічені. але зауважте, що важлива саме інформація, а не дизайн опитування. Висновок на основі дизайну - це лише досить ефективний спосіб включити всю цю інформацію у свій аналіз.P ( D m ) = 0P(Dm)=1P(Dm)=0

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.