Чи можемо ми прийняти нуль у тестах на непридатність?


11

У звичайному t-тесті засобів, використовуючи звичайні методи тестування гіпотез, ми або відхиляємо нуль, або не відхиляємо нуль, але ми ніколи не приймаємо нуль. Однією з причин цього є те, що якби ми отримали більше доказів, той самий розмір ефекту став би значним.

Але що відбувається в тесті на негідність?

Це є:

H0:μ1μ0x

vs.

H1:μ1μ0>x

де - деяка сума, яку ми вважаємо по суті однаковою. Отже, якщо ми відкидаємо нуль, ми говоримо, що більше ніж принаймні на . Ми не можемо відкинути нуль, якщо недостатньо доказів. xμ1μ0x

Якщо розмір ефекту дорівнює або більше, то це аналогічно звичайному t-тесту. Але що робити, якщо розмір ефекту менше, ніж у зразку, який ми маємо? Тоді, якщо ми збільшили розмір вибірки і зберегли той самий ефект, він не залишився б незначним. Чи можемо ми, таким чином, прийняти нуль у цьому випадку?xx


1
Чи змішані ваші гіпотези? Зазвичай для тесту на НІ нульовою гіпотезою є те, що різниця більша за x, тоді як альтернатива полягає в тому, що вона менша або дорівнює x. Я думаю, це залежить від порядку вашої шкали різниці.
Бьорн

Привіт @ Björn, це залежатиме від того, що вище, тим гірше чи вище, тим краще.
Пітер Флом

1
Це те саме, що запитати, чи можна прийняти нуль в однобічних тестах? Про це було певне обговорення у коментарях до stats.stackexchange.com/a/85914 .
амеба

2
@amoeba Я думаю, що Пітер представляє захоплюючий аргумент (+1), можливо, більше схожий на парадокс. Одне звичайне пояснення того, чому ми не «приймаємо H0», іноді чує, це «якби ми отримали більше доказів, той же розмір ефекту став би значним». Але, дотримуючись такої логіки, як це робить Пітер, ми або приходимо до висновку, що в деяких ситуаціях нам слід «прийняти H0», або якщо ми цього не зробимо, то «причина» насправді неправильна, а не чому ми це робимо взагалі. Я вважаю, що ви правильні - його аргумент застосовуватиметься і до односторонніх тестів, оскільки розмір негативного ефекту залишається незначним у міру збільшення n
Срібна рибка

1
Так, я згоден: відповідна відповідь не відповідає на ваше запитання. Я надав посилання лише тому, що в коментарях там була відповідна дискусія.
амеба

Відповіді:


7

Ваша логіка точно так само застосовується до старих хороших однобічних тестів (тобто з ), які можуть бути більш знайомими читачам. Для конкретності, уявіть, що ми перевіряємо нуль проти альтернативи, що є позитивною. Тоді, якщо true негативний, збільшення розміру вибірки не дасть суттєвого результату, тобто, використовуючи ваші слова, не вірно, що "якби ми отримали більше доказів, той же розмір ефекту став би значним".x=0H0:μ0μμ

Якщо ми перевіримо , ми можемо мати три можливі результати:H0:μ0

  1. По-перше, інтервал довіри може бути цілком вище нуля; тоді ми відкидаємо нуль і приймаємо альтернативу (що є позитивною).(1α)100%μ

  2. По-друге, довірчий інтервал може бути цілком нижче нуля. У цьому випадку ми не відхиляємо нуль. Однак я вважаю, що в цьому випадку чудово сказати, що ми “приймаємо нуль”, оскільки ми могли б розглядати як іншу нуль і відхилити цю.H1

  3. По-третє, довірчий інтервал може містити нуль. Тоді ми не можемо відхилити і не можемо також відхилити , тому нічого прийняти не можна.H0H1

Тому я б сказав, що в односторонніх ситуаціях можна прийняти нуль, так. Але ми не можемо прийняти її просто тому, що нам не вдалося її відкинути; є три можливості, а не дві.

(Точно те саме стосується і тестів на еквівалентність, які називаються "двосторонніми тестами" (TOST), тестів, які не є неповноцінними, і т. Д. Можна відхилити нуль, прийняти нуль або отримати непереконливий результат.)

На відміну від цього, коли - це крапка нуль, така як , ми ніколи не можемо її прийняти, оскільки не є дійсною гіпотезою нуля.H0H0:μ=0H1:μ0

(Якщо може мати тільки дискретні значення, наприклад, повинно бути ціле число; тоді, здається, ми могли б прийняти тому що тепер не є дійсним нулем гіпотеза. Це трохи особливий випадок.)μH0:μ=0H1:μZ,μ0


Це питання обговорювалося деякий час тому в коментарях під відповіддю @ gung тут: Чому статистики кажуть, що несуттєвий результат означає «ви не можете відхилити нуль» на відміну від прийняття нульової гіпотези?

Дивіться також цікавий (і недоголошений) потік Чи означає невдача відхилити нуль у підході Неймана-Пірсона, що треба "прийняти" це? , де @Scortchi пояснює, що в рамках Неймана-Пірсона деякі автори не мають проблем говорити про "прийняття нуля". Це також означає @Alexis в останньому пункті її відповіді тут.


Якщо довірчий інтервал повністю вище нуля, то відхиліть нуль, що : це тест з найгіршим розміром . Якщо довірчий інтервал повністю нижче нуля, то відхиліть нуль, що : це тест з найгіршим розміром . Комбінуючи два тести, ви можете зберегти найгірший розмір оскільки два нулі взаємно виключають. Таким чином, три результати можна описати з точки зору прийняття однієї альтернативи чи іншої альтернативи або відхилення жодного недійсного. (1α)μ0α2(1α)μ>0α2α2
Scortchi

Тест з двома хвостами можна думати аналогічно тому, що складається з двох однобічних тестів; але альтернативи не є взаємовиключними, а найгірший розмір - (коли ). αμ=0
Scortchi

Дякую @Scortchi. Якось я не зовсім впевнений, чи погоджуєтесь ви чи не згодні з моєю відповіддю.
амеба

Оскільки в одному тесті не прийнято qua null, але альтернатива qua в іншому, я вважаю, що "прийняття нуля" тут непотрібно плутати; тим не менш, ваша процедура повинна задовольнити тих, хто вимагає. Що, можливо, заслуговує на більший акцент у вашій відповіді, - це різниця між комбінуванням тестів на неповноцінність проти неповноцінності та навпаки , і тестів на перевагу проти непереваженості (або нульової нулі) та неповноцінності проти непіддатності (або нульової нулі) . μ0
Scortchi

@Scortchi Синтаксис останнього речення є досить складним: що саме можна (або не можна) поєднувати і в чому саме різниця? Я не впевнений, що тебе зрозумів правильно, вибач.
амеба

6

Ми ніколи не «приймаємо нульову гіпотезу» (не враховуючи також потужність та мінімальний розмір відповідного ефекту). За допомогою єдиного тестування гіпотез ми ставимо стан природи, , а потім відповідаємо на певну варіацію питання "наскільки малоймовірно, щоб ми спостерігали дані, що лежать в основі нашої статистики тесту, припускаючи (і наш розподіл припущення) правда? " Тоді ми відхилимо або не зможемо відхилити наш на основі бажаного коефіцієнта помилок типу I і зробимо висновок, який завжди стосується ... тобто ми знайшли докази для висновку , або ми зробили це не знайти доказів для висновку . Ми не приймаємоH0H0H0HAHAHAH0тому що ми не шукали доказів для цього. Відсутність доказів (наприклад, про різницю) - це не те саме, що свідчення про відсутність (наприклад, різниці). .

Це справедливо для односторонніх тестів, як і для двосторонніх тестів: ми шукаємо лише докази на користь і знаходимо його, або не знаходимо.HA

Якщо ми ставимо лише один (не надаючи серйозної уваги як мінімальному розміру відповідного ефекту, так і статистичній потужності), ми ефективно приймаємо апріорні зобов'язання щодо упередженості підтвердження , оскільки ми не шукали доказів , лише докази . Звичайно, ми можемо (і, смію сказати, повинні ) ставити нульові гіпотези за та проти позиції ( відповідні тести, що поєднують тести на різницю ( ) з тестами на еквівалентність ( ) зробіть саме це).H0H0HAH0+H0

Мені здається, немає жодної причини, по якій ви не можете поєднати умовивід з одностороннього тесту на неповноцінність з одностороннім тестом на неповноцінність, щоб забезпечити докази (або відсутність доказів) в обох напрямках одночасно.

Звичайно, якщо хтось розглядає потужність та розмір ефекту, а той не відхиляє , але знає, що є (a) деякий мінімальний відповідний розмір ефекту , і (b) що їх дані є достатньо потужними для виявлення це для даного тесту, то можна трактувати це як доказ .H0δH0


1
Питання Петра містило особливо цікавий момент, що ця відповідь, здається, розгортається: одне із загальноприйнятих пояснень, що даються стандартною термінологією «не вдасться відхилити H0», полягає в тому, що, наприклад, у t-тесті, якщо ми отримаємо більше доказів, той же ефект розмір став би значним. Але якби це була "справжня" причина, яку ми "не вдається відкинути", його аргумент про те, що ми можемо "прийняти H0" за обставин, які він окреслює, здається (мені щонайменше) сильним - хоча я не впевнений, що я Я бачив, що це було зроблено не випадково, як свого роду статистичний сленг, а не свідомо і свідомо.
Срібна рибка

1
Ця відповідь повторює загальноприйняту позицію щодо "прийняття H0" в приємний, чіткий, лаконічний спосіб, але, схоже, не безпосередньо стосується аргументу (чи, може, парадоксальності) в основі питання Петра. Як ви думаєте про "ми не можемо прийняти H0, тому що якби ми отримали більше доказів, той самий розмір ефекту став би значним" аргументом для звичайної термінології - чи є якийсь недолік у викладі чи розширенні Петра, чи була логіка оригінального аргументу в першу чергу недійсний?
Срібна рибка

1
@Silverfish перейдіть за посиланням у моїй відповіді на "тести на відповідність" для більшого посилення моєї критичної резолюції до питання "ми не можемо прийняти H0, тому що якби ми отримали більше доказів, той же розмір ефекту став би значним"
Алексіс

1
@Alexis Я повинен погодитися з Silverfish. Я вдячний за вашу відповідь, але вона не стосується мого центрального пункту з тієї причини, про яку промовила Срібна рибка. Якби у нас було N = 1 000 000, то майже будь-яка різниця була б суттєвою у стандартних умовах. Але у випадку непривабливості це не так. І навіть у TOST двосторонній, це не так. Якщо різниця менша за суму, яку ми вважаємо важливою, то жоден N не зробить це сиг.
Пітер Флом

1
Вибачення - мій перший коментар був задуманий лише як прелюдія до 2-го (а точніше, 2-го - переповнення 1-го!) І не мав на меті підняти самостійну точку. Посилання було корисним, дякую. Ваша центральна точка (яку ви дуже красиво висловлюєте, як у своїй відповіді, так і у своїй рецензії) чітко пояснює, чому ви не згодні з висновком Петра . Але мені було цікаво, де ти відчув, що в його логіці є недолік - чи, можливо, його передумова . Це той біт, який я відчував, що не був вирішений безпосередньо.
Срібна рибка
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.