Тест на незалежність проти тесту на однорідність


10

Я викладаю базовий курс статистики, і сьогодні я висвітлю тест незалежності для двох категорій та тест на однорідність. Ці два сценарії концептуально відрізняються, але можуть використовувати однакову тестову статистику та розподіл. При тесті на однорідність граничні підсумки для однієї з категорій вважаються частиною самої конструкції - вони представляють кількість досліджуваних, вибраних для кожної експериментальної групи. Але оскільки тест у квадраті обертається навколо кондиціонування на всіх граничних підсумках, математичних наслідків для розмежування тестів на однорідність та тестів на незалежність з категоричними даними немає, принаймні жодного, коли використовується цей тест.

Моє запитання таке: чи існує школа статистичної думки або статистичний підхід, яка б давала різні аналізи, залежно від того, чи ми тестуємо на незалежність (де всі маргінали є випадковими змінними) або тест на однорідність (де один набір маргіналів встановлений дизайном)?

У безперервному випадку, скажімо, де ми спостерігаємо за тією ж темою, і перевіряємо на незалежність, або спостерігаємо у різних популяціях і перевіряємо, якщо вони походять з одного розподілу, метод відрізняється (кореляція аналіз проти t-тесту). Що робити, якщо категоричні дані надходять із дискретних безперервних змінних? Чи повинні тести на незалежність та однорідність не відрізнятись?(X,Y)(X1,X2)


2
Чи можете ви надати джерело, яке розрізняє "тест на однорідність" та "тест на незалежність"? Раніше я думав, що це те саме (і Вікіпедія теж). Його також називають тестуванням квадратних чи-квадратних зв'язків для двосторонньої таблиці суміжності або тесту порівняння незалежних К- хі-квадратів . Слід не плутати з однієї вибірки критерію хі-квадрат також відомий як хі-квадрат тест угоди . У ній ми перевіряємо спостережувані частоти проти теоретичних очікуваних, які ми постачаємо.
ttnphns

2
@ttnphns Це здається ендемічним. Я використовую "Очікуйте несподіваного" Ралуки Балана та Жиля Ламоте. Минулого року я викладав зі статистики бізнесу Шарпа, Де Вео та ін. Обидва тексти є досить різною їжею. В обох випадках у нас є двостороння таблиця надзвичайних ситуацій. Потрібно сказати, що жоден підручник не вважає за потрібне викладати розмір ефекту для таблиці непередбачених ситуацій: ще один випадок, коли тонкість перемагає над корисністю в базових курсах статистики.
Placidia

2
Різниця повинна виявитись, якщо ви намагалися отримати довірчий інтервал для розміру ефекту.
Рей Коопман

2
Це звучить інтригуюче. Ви не проти додати певну специфіку і зробити це відповіддю?
Placidia

4
Це залежить від того, чи хочете ви мучити студентів різницею умовних / безумовних запасів. Якщо ні, то ви можете просто зосередитись на поясненні того, що "незалежність двох категоріальних змінних" еквівалентно "однорідності умовних розподілів", а потім представити єдиний -test. (Я зазвичай представляю це разом із нижчими межами довіри для справжнього Cramer's який вимірює силу асоціації.)χ2V
Michael M

Відповіді:


4

Ви просто повинні запитати себе: "Як мені написати нульову гіпотезу?". Розглянемо кратну таблицю на випадок частот деякої поведінки (у / п) серед ряду груп. Розглядаючи 1-ю групу як референт, у вас є коефіцієнти шансів ( ), які описують зв'язок між частотою та групою.2×kkk1θi,i=1,2,,k1

За незалежності, як і щодо однорідності, ви припускаєте, що всі коефіцієнти шансів дорівнюють 1. Тобто ймовірність відповісти «так» умові однаково вірогідна незалежно від розподілу групи. Якщо ці припущення провалюються, принаймні одна група відрізняється.

H0(homogeneity):i=1k1|θi|=0

H0(independence):i=1k1|θi|=0

І це випробування може бути проведено за допомогою тесту на квадрат Пірсона з використанням спостережуваних / очікуваних частот, що є тестовим балом для логістичної регресійної моделі, що коригує змінні показники для членства в групі. Тож структурно можна сказати, що ці тести однакові.k1

Однак відмінності виникають, коли ми розглядаємо характер фактору групування. У цьому сенсі важливим є контекстуальне застосування тесту, а точніше його назви. Група може бути безпосередньо причиною результату, як, наприклад, наявність або відсутність гена або алельних моделей ознаки, і тоді, коли ми відкидаємо нуль, ми робимо висновок, що результат залежить від фактора групування.

З іншого боку, коли ми перевіряємо однорідність, ми спонукаємо себе робити будь-які причинно-наслідкові припущення. Таким чином, коли "група" є складною конструкцією на зразок раси (яка викликає і викликана генетичними, поведінковими та соціально-економічними детермінантами), ми можемо робити висновки на кшталт "расово-етнічні меншини відчувають житлові розбіжності, про що свідчить неоднорідність індексу депривації сусідства" . Якщо хтось протиставив такий аргумент, сказавши: "ну це тому, що меншини досягають нижчої освіти, заробляють менший дохід і отримують менше зайнятості", ви могли б сказати: "Я не стверджував, що їхня раса викликала ці речі, просто просто, якщо ви подивитеся на перегонах ви можете робити прогнози щодо їхнього життєвого стану ".

Таким чином, тести на залежність - це окремий випадок тестів на однорідність, коли можливий вплив факторів, що криються, представляє інтерес, і їх слід вирішувати в стратифікованому аналізі. Використання багатоваріантного регулювання в аналогічній моделі логістичної регресії досягає такої дії, і ми все одно можемо сказати, що ми проводимо тест на залежність, але не обов'язково однорідність.


3

Існує чітка різниця між двома проблемами, якщо моделювати їх байєсівським способом. У деяких роботах перший випадок (однорідність) називається вибіркою з "одна межа фіксованою", а другий випадок (незалежність) як "загальна фіксована таблиця". Погляньте, наприклад, на Casella et al. (JASA 2009) .
Я працюю над цією темою, але моя робота - яка також описує цю відмінність - ще не вийшла :)


2
Існує також чітка відмінність від перспективістської точки зору - це просто асимптотично це не має значення, і аргументи часто висуваються за умову на одному або обох полях у будь-якому випадку.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.