Наскільки меншими можуть бути значення


13

Вступ: Зауваживши сьогодні увагу, приділене цим питанням: " Чи може ANOVA бути значущим, коли жоден з парних t-тестів не є? ", Я подумав, що мені вдасться переробити його цікавим способом, який заслуговує на власний набір відповідей .

Різноманітність невідповідних результатів (за номіналом) може виникнути, коли статистичну значимість розуміють як просту дихотомію та оцінюють за простою основою, яка вища, або . @ Відповідь Glen_b на вищезазначене питання є корисним прикладом випадку, коли:pα

  • ANOVA -test виробляє для однієї незалежної змінної (IV) з чотирма рівнями, алеFpF<.05
  • pt>.08 для всіх -тестів, що порівнюють відмінності в одній і тій же залежній змінній (DV) серед спостережень, що відповідають кожній парі чотирьох рівнів IV.t

Подібний випадок виник, незважаючи на виправлення Бонферроні для порівнюваних парних порівнянь через це питання: повторні заходи Anova важливі, але всі численні порівняння з корекцією Bonferroni не є? Раніше згадані випадки з дещо іншим тестом на множинну регресію також існують:

Б'юсь об заклад, що у подібних випадках деякі (але не всі) попарні зіставлення '(або коефіцієнти регресії коефіцієнтів значущості) значення повинні бути досить близькими до якщо відповідний тест омнібусів може досягтиpαp<α . Я бачу, що це стосується першого прикладу @ Glen_b, де , p F = .046 , а найбільша попарна різниця дає найменший p t = .054 . Чи повинно це бути взагалі? Більшконкретно:F(3,20)=3.19pF=.046pt=.054


Питання: Якщо ANOVA -test виробляє р F = 0,05 для ефекту одного політоміческіх IV на безперервному DV, як високо може найнижчий р значення буде серед усіх двох вибірок т - тестів , які порівнюють кожну пару рівнів в IV в? Чи може мінімальна парна значущість бути такою ж високою, як p t = .50 ?FpF=.05ptpt=.50


Я вітаю відповіді, які стосуються лише цього конкретного питання . Однак для подальшої мотивації цього питання я докладно деталізую і викладу деякі потенційно риторичні питання. Ви можете також вирішити ці проблеми і навіть проігнорувати конкретне питання, якщо вам це подобається, особливо якщо конкретне питання отримає остаточну відповідь.

Значення: Поміркуйте, наскільки менш важливою була б різниця між та p t = .06 , якщо статистичну значущість судитимуть у безперервному вираженні міцності доказів проти нульової гіпотези (я думаю, підхід Рона Фішера? ), а не в дихотомічному вираженні вище чи нижче порогу α = .05 для прийнятної ймовірності помилки у виборі того, чи потрібно відхиляти нульовий оптовий продаж. " р- хакерство " - відома проблема, яка частково зобов'язана своїм відомим непотрібною вразливістю, введеною інтерпретацією ppF=.04pt=.06α=.05ppзначення відповідно до загальної практики дихотомізації значущості в еквівалентах "досить хороший" і "недостатньо хороший". Якби було розпоряджатися цією практикою та зосереджуватись замість того, щоб інтерпретувати значення як міцність доказів проти нуля на безперервному інтервалі, може бути тестування універсалу дещо менш важливим, коли насправді дбає про кілька парних порівнянь? Це не обов'язково, оскільки, звичайно, бажано будь-яке досить ефективне поліпшення статистичної точності, але ... якщо, наприклад, найменше значення р у порівнянні в парному порівнянні обов'язково знаходиться в межах .10 від ANOVA (або іншого тесту омнібуса) ppp.10pЗначення, чи не робить це тест всебічної допомоги дещо тривіальнішим, менш примусовим та ще більш оманливим (у поєднанні з попередніми непорозуміннями), особливо якщо не особливо хочеться контролювати у кількох тестах?α

І навпаки, якщо дані можуть існувати такими, що омнібус , але все попарно p > .50 , чи не може це додатково мотивувати омнібус та контрастне тестування у всій практиці та педагогіці? Мені здається, що це питання також повинно інформувати про відносні достоїнства судження статистичної значущості відповідно до дихотомії та континууму, оскільки дихотомічна інтерпретаційна система повинна бути більш чутливою до невеликих коригувань, коли відмінності "незначно значущі", тоді як жодна система є безпечним від неспроможності виконати тест омнібусу або налаштувати для кількох порівнянь, якщо ця різниця / коригування може бути дуже великою (наприклад, p t - p F >p=.05p>.50 теоретично.ptpF>.40)

Інші необов'язкові складності, які слід враховувати або ігнорувати - все, що робить відповіді простішими та кориснішими :


1
Ви можете уточнити, чи повинні парні t-тести використовувати ту саму оцінку відхилення помилок, що і F-тест всеохоплювача (у прикладі Глена вони не мають).
Scortchi

1
Я мав у виду звичайну Т-тест для різниці середніх значень з використанням t=(y¯1y¯2)/(σ^1n1+1n2)σ^

1
MSE

1
pt>.05pF<0.002

1
Я промальовував відповідь на першу частину цього питання кілька хвилин тому в коментарі на сайті stats.stackexchange.com/questions/83030/… .
whuber

Відповіді:


8

ntpt2Φ(2).1573ΦN(0,1)pt0.5.1573pF=.05F

maxi,j|y¯iy¯j|=2aFy¯iF2a

y¯.=0y¯i=±aMSE=1kkF=ny¯2/(k1)MSE=kna2k1pF=αF=Fα=Fα,k1,k(n1)a=(k1)Fαkny¯i±aMSE=1tt=2a12/n=2(k1)FαktF=Fα

kntptkFαnn(k1)Fα,k1,k(n1)χα,k12ttmin=2χα,k12/kχ2/k=k1kχ2/(k1)k1kk1k2k1limktmin=2α

Rkα=.05

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

Кілька вільних кінців ...

  1. Fy¯i±a±a/kkFk1ktpt
  2. nFy¯i=±aFN=nitnipt
  3. tpttn=2,3,4,α=.05,k3ptndf=k(n1)k,2k,3k,kα=.25.1573k=3,n=2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.