Тести з двома хвостами ... Я просто не переконаний. В чому справа?


59

Наступний уривок із статті: Які відмінності між однохвостими та двохвостими тестами? , на довідковому сайті UCLA зі статистикою.

... розглянути наслідки відсутності ефекту в іншому напрямку. Уявіть, що ви розробили новий препарат, який, на вашу думку, є покращенням порівняно з існуючим препаратом. Ви хочете максимально покращити свою здатність виявляти поліпшення, тому ви вибрали тест з однохвостим покриттям. Роблячи це, ви не зможете перевірити можливість того, що новий препарат є менш ефективним, ніж існуючий препарат.

Після вивчення абсолютних основ тестування гіпотез і переходу до частини про один проти двох хвостих тестів ... Я розумію основну математику та підвищену здатність до виявлення одного хвостового тесту тощо ... Але я просто не можу обернутись навколо голови навколо одного ... Який сенс? Я дійсно не розумію, чому ви повинні розділити альфа між двома крайнощами, коли результат вибірки може бути лише в одній або іншій, або ні в одній.

Візьмемо приклад сценарію з цитованого тексту вище. Як ви могли, можливо, "не пройти перевірку" на результат у зворотному напрямку? Ви маєте середню вибірку. У вас середнє населення. Проста арифметика підказує, що вище. Що є для тестування чи не для тестування у зворотному напрямку? Що заважає тобі тільки починати з нуля з протилежною гіпотезою, якщо ти чітко бачиш, що середня вибірка відступає в іншому напрямку?

Ще одна цитата з тієї ж сторінки:

Вибір тесту з однохвостим після запуску тесту з двома хвостами, який не зміг відкинути нульову гіпотезу, не є доцільним, незалежно від того, наскільки "близьким" до значущого був тест з двома хвостами.

Я припускаю, що це стосується також перемикання полярності вашого односхилого тесту. Але наскільки цей "докторізований" результат менш достовірний, ніж якби ви в першу чергу просто обрали правильний односхилий тест?

Ясна річ я пропускаю тут велику частину картини. Все це здається занадто довільним. Що це, я думаю, в тому сенсі, що те, що позначає "статистично значиме" - 95%, 99%, 99,9% ... Почнемо з довільного.


18
Мені це здається ідеально хорошим питанням, +1.
gung - Відновіть Моніку

5
Хоча абсолютно ясно, що ви повинні розробити експеримент та свої тести, перш ніж збирати дані, я вважаю їхній приклад щодо наркотиків досить інтригуючим, враховуючи той факт, що нові препарати часто перевіряються за допомогою однобічного тестування без особливих результатів .
П-гн

3
@ user1735003 іронічна стаття, яка наштовхується на розгляд багатьох настроїв / поведінки, що регулюють фармацевтичні випробування, піддається все більшій увазі щодо упередженості спостерігачів. Тут цікавий Cochrane на Ritalin . «Претендентська перевага плацебо» - це те, що будь-який судовий діяч назвав би «шкодою», тому я не вважаю це немислимим. Але в цих випробуваннях, якщо дослідження припиняються на шкоду, сигнал надходить від несприятливих подій.
АдамО

10
"Ви маєте на увазі вибірку. Ви маєте на увазі кількість населення ... Що зупиняє вас тільки починати з нуля з протилежною гіпотезою, якщо ви чітко бачите, що середня вибірка відходить в інший бік?" . Ні, вся суть тестування гіпотез полягає в тому, що у вас немає середньої сукупності, і ви використовуєте зразок середнього, щоб перевірити припущення про середнє значення сукупності (нульова гіпотеза). Тож немає "чітко бачити, що середнє значення вибірки - це далеко" , адже саме те, що ви тестуєте, а не дане.
StAtS

1
біда в тому, що часто ви не знаєте полярності, тому вам доведеться запустити тест з двома хвостами. уявіть, що підключіть вольтметр до джерела живлення постійного струму, коли ви не знаєте, яка вилка позитивна
Аксакал

Відповіді:


46

Розгляньте ці дані як вершину айсберга - усе, що ви можете побачити над водою, є вершиною айсберга, але насправді вам цікаво дізнатись про весь айсберг.

Статистики, науковці даних та інші, що працюють з даними, обережні, щоб не допустити того, що вони бачать над водопроводом, і упереджують свою оцінку того, що приховано під водопроводом. З цієї причини в ситуації тестування гіпотез вони прагнуть сформулювати свої нульові та альтернативні гіпотези, перш ніж вони побачать вершину айсберга, виходячи зі своїх очікувань (або їх відсутності), що може статися, якщо вони зможуть переглянути айсберг у повному обсязі. .

Дивлячись на дані, щоб сформулювати свої гіпотези, є поганою практикою і цього слід уникати - це як ставити візок перед конем. Нагадаємо, що дані надходять із одного обраного зразка (сподіваємось, що використовується механізм випадкового відбору) з цільової сукупності / всесвіту, що цікавить. Вибірка має власні ідіосинкратії, які можуть відображати або не відображати основне населення. Чому ви хочете, щоб ваші гіпотези відображали вузький прошарок населення, а не все населення?

Інший спосіб задуматися над тим, що кожен раз, коли ви вибираєте вибірку з цільової сукупності (використовуючи механізм випадкового відбору), вибірка отримуватиме різні дані. Якщо ви використовуєте дані (яких ви не повинні !!!), щоб орієнтуватися на конкретизацію нульових та альтернативних гіпотез, ваші гіпотези будуть знаходитись по всій карті, по суті, керуючись ідіосинкратичними особливостями кожного зразка. Звичайно, на практиці ми малюємо лише один зразок, але було б дуже хвилююче думка знати, що якби хтось інший проводив те саме дослідження з іншим зразком однакового розміру, їм доведеться змінити свої гіпотези, щоб відобразити реалії їх зразок.

Один з моїх викладачів випускних шкіл мав дуже мудре висловлювання: "Нас не цікавить зразок, за винятком того, що він щось говорить про населення" . Ми хочемо сформулювати наші гіпотези, щоб дізнатися щось про цільову сукупність, а не про один зразок, який ми відібрали з цієї сукупності.


1
@ subhashc.davar: Тільки тому, що ви не бачите актуальності моєї відповіді, це не означає, що хтось інший цього не зробить. Зауважте, що відповіді є для всієї громади, а не лише для людини, яка поставила запитання. Я буду радий видалити свою відповідь, якщо ви сильно ставитеся до цього.
Ізабелла Гемен

7
@ subhashc.davar Приклад може допомогти: Скажіть, ви перевірите, чи перекуси впливають на продуктивність. Ви запускаєте експеримент і знаходите невеликий приріст балів у закусках. Чудово! Виконайте тест на один хвіст, щоб перевірити, чи є закуски> не закуски. Проблема: що б ви зробили, якби намалювали зразок, де закуски виходили гірше? Чи зробили б ви односхилий тест для закусок <не закусок? Якщо так, ви допускаєте помилку і дозволяєте зразкові ідіосинкратії керувати вашим тестуванням.
РМ

21
Анекдот мого професора: "Ми відвідали новонароджену дочку подруги в пологовому будинку. 20 дітей та 18 з 20 були в рожевих капелюхах. Тож я зробив те, що зробив би будь-який статистик: підрахував значення р для статі, фактично 50 / 50. Це було дуже статистично важливо. Тож хто хоче написати цей документ зі мною? Ніхто? Чому? Ви не можете використовувати дані, які породжували гіпотезу, для перевірки гіпотези ".
AdamO

4
@AdamO Я знайшов ваш коментар кращим поясненням, ніж сама відповідь. Я б перефразував останнє речення через "Ви не повинні використовувати ті самі дані, з якими ви створили свою гіпотезу, щоб також перевірити свою гіпотезу". Пов'язане із цим значення полягає в тому, що добре змінити свою гіпотезу на основі результату будь-якого тесту, який ви раніше обрали. Але вам слід перевірити свою нову гіпотезу новими даними.
Кенні Евітт

3
@KennyEvitt так точно. Випадкові результати є важливими і їх слід повідомляти, але вони не повинні продаватися як заздалегідь визначені гіпотези.
AdamO

18

Я думаю, що при розгляді вашого питання це допомагає, якщо ви намагаєтесь пам’ятати про мету / точки продажу тестування значущості гіпотези (NHST); це лише одна парадигма (хоч і дуже популярна) для статистичного висновку, а інші також мають свої сильні сторони (наприклад, дивіться тут для обговорення NHST щодо байєсівських висновків). Яка велика прихильність NHST ?: Довготривалий контроль помилок . Якщо ви дотримуєтесь правил NHST (а іноді це дуже важливо, якщо ви), то у вас має бути хороше розуміння того, наскільки вірогідними ви є помилки з зробленими висновками, з часом.

Одне з правил персоналу NHST полягає в тому, що без подальшої зміни вашої процедури тестування ви можете лише один раз переглянути свій тест, що цікавить. На практиці дослідники часто ігнорують (або не знають про це) (див. Simmons et al., 2012), проводячи кілька тестів після додавання хвиль даних, перевіряючи їхp-значення після додавання / вилучення змінних до своїх моделей тощо. Проблема в цьому полягає в тому, що дослідники рідко є нейтральними щодо результатів NHST; вони чудово усвідомлюють, що значні результати швидше будуть опубліковані, ніж несуттєві результати (з причин, які є помилковими і законними; Rosenthal, 1979). Тому дослідників часто вмотивовано додавати дані / змінювати моделі / вибирати інші групи та повторно перевіряти, поки вони не "виявлять" суттєвий ефект (див. Джон та ін., 2011, гарне вступ).

Протиінтуїтивну проблему створюють вищезазначені практики, добре описані в Dienes (2008): якщо дослідники будуть продовжувати коригувати свої зразки / дизайн / моделі, поки не буде досягнуто значущості, то їх бажані довгострокові помилки помилково-позитивних результатів (часто ) і хибнонегативні результати (часто ) будуть підходити відповідно 1,0 і 0,0 (тобто ви завжди будете відхиляти , як коли це неправда, так і коли це правда).α=.05β=.20H0

У контексті ваших конкретних питань дослідники використовують двосхилі тести за замовчуванням, коли вони не хочуть робити конкретних прогнозів щодо напрямку ефекту. Якщо вони помиляються у своїх здогадах та проводять односхилий тест у напрямку ефекту, їх довгострокова буде завищена. Якщо вони переглянуть описову статистику і проведуть односхилий тест, виходячи з їхнього очного яблука тенденції, їх довгострокова буде завищена. Ви можете подумати, що це не велика проблема на практиці, що -значення втрачають своє довгострокове значення, але якщо вони не зберігають свого значення, виникає питання, чому ви використовуєте підхід до висновку, що надає пріоритет довгостроковому контролю помилок.α pααp

Нарешті (і, як на особисті переваги), у мене виникло б менше проблем, якби ви спершу провели тест з двома хвостами, визнали його несуттєвим, потім зробили однохвостий тест у напрямку, який мав на увазі перший тест, і виявив, що це важливо, якщо (і лише у тому випадку) ви виконали сувору підтверджуючу реплікацію цього ефекту в іншому зразку та опублікували реплікацію в тому самому документі. Дослідницький аналіз даних - з надуванням гнучких методів аналізу швидкості помилок - це добре, якщо ви зможете повторити свій ефект у новому зразку без тієї ж аналітичної гнучкості.

Список літератури

Дієнес, З. (2008). Розуміння психології як науки: вступ до наукових та статистичних висновків . Палграйв Макмілан.

John, LK, Loewenstein, G., & Prelec, D. (2012). Вимірювання поширеності сумнівної дослідницької практики із заохоченням до правди. Психологічна наука , 23 (5), 524-532.

Розенталь, Р. (1979). Проблема з ящиком файлів та толерантність до нульових результатів. Психологічний вісник , 86 (3), 638.

Сіммонс, Дж. П., Нельсон, LD та Сімонсон, США. (2011). Хибнопозитивна психологія: нерозкрита гнучкість у збиранні та аналізі даних дозволяє представити що-небудь як важливе. Психологічна наука , 22 (11), 1359-1366.


Дуже приємна відповідь. Допоміг мені вирішити деякі проблеми, які виникли під час мого недавнього поглиблення в дослідницьких роботах (як мирянин), здавалося б, підтверджуючи думку про те, що однозначні р-значення можна "довіряти" лише тоді, коли у вас є підстави бути впевненими у "негативному" кореляція "хибність напрямку.
Венрікс

10

На жаль, мотивуючий приклад розробки наркотиків не є хорошим, оскільки це не те, що ми робимо для розробки наркотиків. Ми використовуємо різні, більш жорсткі правила, щоб зупинити дослідження, якщо тенденції на стороні шкоди. Це для безпеки пацієнтів, а також тому, що наркотик навряд чи магічно перекинеться у бік значущої користі.

То навіщо робити два тести ? (коли в більшості випадків ми маємо апріорне уявлення про можливий напрямок ефекту, який ми намагаємося моделювати)

Нульова гіпотеза повинна мати певну схожість з вірою в сенсі бути правдоподібною, поінформованою та виправданою. У більшості випадків люди погоджуються, що "нецікавий результат" є тоді, коли є 0 ефект, тоді як негативний чи позитивний ефект викликає рівний інтерес. Дуже важко сформулювати складену нульову гіпотезу, наприклад, випадок, коли ми знаємо, що статистика може бути дорівнює абоменше певної суми. Треба дуже чітко говорити про нульову гіпотезу, щоб мати сенс у своїх наукових висновках. Варто зазначити, що спосіб тестування складеної гіпотези полягає в тому, що статистика під нульовою гіпотезою приймає найбільш послідовне значення в межах діапазону спостережуваних даних. Отже, якщо ефект йде в позитивному напрямку, як очікувалося, нульове значення в будь-якому випадку вважається рівним 0, і ми маркотуємось.

Двохсхилий тест означає проведення двох односторонніх тестів з контролем для кількох порівнянь! Двохсхилий тест насправді частково цінується, оскільки в кінцевому рахунку він стає більш консервативним. Коли ми добре віримо про напрямок ефекту, два хвостові тести даватимуть помилкові позитиви вдвічі частіше з дуже невеликим загальним впливом на потужність.

У разі оцінювання лікування в рандомізованому контрольованому випробуванні, якщо ви намагалися продати мені однобічний тест, я зупиняю вас у питанні: "Ну чекайте, чому ми вважаємо, що лікування насправді шкідливо? Чи є насправді докази? Підтвердити це? Чи існує навіть еквіпоаза [здатність демонструвати сприятливий ефект]? " Логічна неузгодженість однобічного тесту ставить під сумнів все дослідження. Якщо по-справжньому нічого не відомо, будь-яке значення, окрім 0, вважається цікавим, і тест з двома хвостами - це не просто гарна ідея, а необхідна.


8

Один із способів наблизитись до цього - тимчасово забути про тестування гіпотез і замість цього подумати про довірчі інтервали. Односторонні випробування відповідають одностороннім довірчим інтервалам, а двосторонні випробування відповідають двостороннім довірчим інтервалам.

Припустимо, що ви хочете оцінити середню чисельність населення. Природно, ви берете вибірку і обчислюєте середню вибірку. Немає підстав брати бальну оцінку за номіналом, тому ви висловлюєте свою відповідь через інтервал, який, наскільки ви впевнені, містить справжнє значення. Який тип інтервалу ви обираєте? Двосторонній інтервал - це набагато природніший вибір. Односторонній інтервал має сенс лише тоді, коли ви просто не піклуєтеся про те, щоб знайти верхню або нижню межу вашої оцінки (адже ви вважаєте, що вже знаєте корисну межу в одному напрямку). Як часто ви справді впевнені в ситуації?

Можливо, перемикання питання на довірчі інтервали насправді не знищує його, але методологічно непослідовно віддавати перевагу односхилим тестам, а двостороннім довірчим інтервалам.


4

Після вивчення абсолютних основ тестування гіпотез і переходу до частини про один проти двох хвостих тестів ... Я розумію основну математику та підвищену здатність до виявлення одного хвостового тесту тощо ... Але я просто не можу обернутись навколо голови навколо одного ... Який сенс? Мені справді не вдається зрозуміти, чому ви повинні розділити альфа між двома крайнощами, коли результат вибірки може бути лише в одній або іншій, або ні в одній.

Проблема полягає в тому, що ви не знаєте середнього населення. Я ніколи не стикався з реальним світовим сценарієм, за яким я знаю, що означає справжнє населення.

Візьмемо приклад сценарію з цитованого тексту вище. Як ви могли, можливо, "не пройти перевірку" на результат у зворотному напрямку? Ви маєте середню вибірку. У вас середнє населення. Проста арифметика підказує, що вище. Що є для тестування чи невдачі для тестування у зворотному напрямку? Що заважає тобі тільки починати з нуля з протилежною гіпотезою, якщо ти чітко бачиш, що середня вибірка відступає в іншому напрямку?

Я кілька разів читав ваш абзац, але все ще не впевнений у ваших аргументах. Ви хочете перефразовувати це? Ви не зможете "перевірити", якщо ваші дані не потраплять у обрані вами критичні регіони.

Я припускаю, що це стосується також перемикання полярності вашого односхилого тесту. Але наскільки цей "докторізований" результат менш достовірний, ніж якби ви в першу чергу просто обрали правильний тест з однохвостим?

Цитата є правильною, оскільки злом p-значення недоцільно. Скільки ми знаємо про p-хакерство "в дикій природі"? має більше деталей.

Ясна річ я пропускаю тут велику частину картини. Все це здається занадто довільним. Який, мабуть, у тому сенсі, що те, що позначає "статистично значиме" - 95%, 99%, 99,9% ... Почнемо з довільного. Допомога?

Це довільно. Ось чому вчені, як правило, повідомляють про величину самого р-значення (не просто значного чи незначного), а також про розмір ефектів.


Щоб було зрозуміло, я не намагаюся оскаржувати самі основи статистичного висновку. Як я вже зазначив, я лише щойно засвоїв основи, і у мене виникають проблеми з розумінням того, як будь-які потенційні висновки можуть бути пропущені, якщо не використовувати правильний тест.
FromTheAshes

Скажіть, ваш приятель, Джо, винайшов новий продукт, який, на його думку, значно покращує ріст рослин. Заінтригуючи, ви створили ґрунтовне дослідження з контрольною групою та групою лікування. Ваш нульовий гіп. це те, що не буде змін у зростанні, ваша альтернативна хіп. полягає в тому, що чарівний спрей Джо значно збільшує ріст - так це односхилий тест. Через 2 тижні ви робите остаточні спостереження та аналізуєте результати. Середній приріст групи лікування виявляється понад 5 стандартних помилок нижче за контролем. Наскільки ця дуже значуща знахідка є менш очевидною чи достовірною через ваш вибір тесту?
FromTheAshes

2
Якщо я попрошу вас зателефонувати за голову чи хвостики для викидання монети, ймовірність прогнозування результату становить 50/50 (якщо припустити збалансовану монету та чесний фліппер). Однак якщо я спочатку монету переверну монету і дозволю вам поглянути на неї, а потім зробити свій прогноз, вона більше не буде 50/50. Якщо ви проводите односхилий тест з альфа-рівнем .01, але потім перегляньте напрямок тесту після того, як побачите результати, оскільки p <.01 в іншому напрямку, ризик помилки типу I не довгий .01 але набагато вище. Зауважте, що спостережуване p-значення та рівень помилок типу I - це не одне і те ж.
dbwilson

@FromTheAshes немає нічого поганого в спробі кинути виклик самим основам. Тестування статистичних гіпотез не є марним, але воно містить величезні логічні недоліки, і оскаржувати їх абсолютно розумно!
Флонджер

3

Ну, вся різниця покладається на питання, на яке ви хочете відповісти. Якщо питання: "Чи одна група цінностей більша за іншу?" ви можете використовувати тест з одним хвостом. Щоб відповісти на запитання: "Чи відрізняються ці групи значень?" ви використовуєте тест з двома хвостами. Враховуйте, що набір даних може бути статистично вищим, ніж інший, але статистично не відрізняється ... і це статистика.


1
Якщо питання: "Чи одна група цінностей більша за іншу?" ви можете використати тест на один хвіст. " Точніше, якщо питання "Чи * ця конкретна група більша, ніж інші", то вам слід скористатися двосхилим тестом.
Накопичення

Слід зазначити, що начебто мається на увазі, що якщо ви задаєте це питання, що "І до речі, якщо схоже, що інша група насправді більша, то мені все одно". Якщо ви побачили б протилежне тому, що ви очікували, а потім продовжуєте перевертати напрямок тесту гіпотези, тоді ви просто брехали собі весь час і для початку мали б зробити тест з двома хвостами.
Дейсон

2

Але наскільки цей "докторізований" результат менш достовірний, ніж якби ви в першу чергу просто обрали правильний тест з однохвостим?

Значення альфа - це ймовірність того, що ви відхилите нуль, враховуючи, що нуль є істинним. Припустимо, ваш нуль полягає в тому, що середнє значення вибірки зазвичай розподіляється із середнім нулем. Якщо P (середнє значення вибірки> 1 | H0) = .05, то правило "Зберіть вибірку та відхиліть нуль, якщо середнє значення вибірки перевищує 1" має ймовірність, враховуючи, що нуль є істинним, 5% від відхилення нуля. Правило "Зберіть вибірку, і якщо середнє значення вибірки є позитивним, відхиліть нуль, якщо середнє значення вибірки більше 1, а якщо середнє значення вибірки від'ємне, відхиліть нуль, якщо середнє значення вибірки менше 1" має ймовірність, враховуючи, що нуль відповідає дійсності, 10% відхилення нуля. Отже, перше правило має альфу 5%, а друге правило - альфу 10%. Якщо ви почнете з тесту з двома хвостами, а потім поміняйте його на односхилий тест на основі даних, тоді ви дотримуєтесь другого правила, тому було б неточним повідомити про свою альфа як 5%. Значення альфа залежить не лише від того, які дані є, але і яких правил ви дотримуєтесь, аналізуючи їх. Якщо ви запитуєте, навіщо використовувати показник, який має це властивість, а не те, що залежить лише від даних, це складніше питання.


2

Стосовно 2-го пункту

Вибір тесту з однохвостим після запуску тесту з двома хвостами, який не зміг відкинути нульову гіпотезу, не є доцільним, незалежно від того, наскільки "близьким" до значущого був тест з двома хвостами.

ми маємо те, що якщо нуль відповідає дійсності, перший, двохвостий, тест помилково відхиляє з ймовірністю , але односторонній також може відхилити на другому етапі.α

Таким чином, загальна ймовірність відхилення перевищить , і ви вже не тестуєтеся на рівні, на який, на вашу думку, вже тестуєтесь - ви частіше отримуєте помилкові відхилення, ніж у випадків, у яких стратегія застосовується справжні нульові гіпотези.αα100%

В цілому ми шукаємо які ми можемо виразити як Дві події в об'єднанні неперервні, так що ми після Для другого доданку існує величина ймовірності маси між верхніми та (тобто точки відхилення односторонні та двосторонні тести), що є спільною ймовірністю того, що двосторонній тест не відкидає, а робить його односторонній. Отже,

P(two-sided rejects or one-sided does, but two sided doesn't)
P(two-sided rejects(one-sided doestwo sided doesn't))
P(two-sided rejects)+P(one-sided doestwo sided doesn't)
α/21α1α/2
P(one-sided doestwo sided doesn't)=α/2
так що загальна ймовірність відхилення цієї стратегії становить Ефективно, ми просто складаємо ймовірності того, що тестова статистика розташовується зліва від квантиля, між верхніми кванталами та або праворуч від -кількість.α/21-α1-α/21-α/2
α+α2>α
α/21α1α/21α/2

Ось невелика цифрова ілюстрація:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

1

Це лише один довільний спосіб поглянути на це: для чого використовується статистичний тест? Напевно, найчастіша причина для проведення тесту полягає в тому, що ви хочете переконати людей (наприклад, редакторів, рецензентів, читачів, аудиторію), що ваші результати "досить далеко випадкові", щоб бути помітними. І ми якось дійшли висновку, що - це довільна, але універсальна істина.p<α=0.05

Для будь-якої іншої розумної причини для проведення випробувань, ви б ніколи не погоджуйтеся на фіксованому від , але ви б урізноманітнити від випадку до випадку, в залежності від того, наскільки важливими були наслідки, що ви малюєте з тіста.0,05 αα0.05α

Повернувшись до переконання людей, що щось "досить далеко від просто випадкового", щоб відповідати універсальному критерію достовірності. Ми маємо нечутливий, але загальновизнаний критерій, який, на нашу думку, вважає "невипадковим" при для двостороннього тестуванняα=0.05 . Еквівалентним критерієм було б переглянути дані, вирішити, який спосіб тестувати та намалювати лінію в . Друга рівнозначна першій, але це не те, що ми історично влаштували.α=0.025

Після того, як ви почнете робити односторонні тести з ви ставитесь до підозри щодо неправомірної поведінки, риболовлі за значущістю. Не робіть цього, якщо хочете переконати людей!α=0.05


Тоді, звичайно, є така річ, яку дослідники називають ступенем свободи . Ви можете знайти важливість у будь-яких видах даних, якщо у вас є достатня кількість даних і ви можете перевірити їх якомога більше способів. Ось чому ви повинні вирішити тест, який ви проводите, перш ніж переглянути дані. Все інше призводить до невідтворюваних результатів тесту. Раджу зайти на youtube і подивитися на розмови Ендрю Гелманса "Злочини за даними, щоб дізнатися більше про це.


1
Гм, нульова гіпотеза полягає не в тому, що результати є випадковими. Це буде бентежно для клініцистів та вчених, які дуже сприймають результати своєї роботи як досягнення фіксованого результату.
АдамО

1
Ваша точка "Після того, як ви почнете робити однобічні тести з ...", важливо. Причина настільки поширена в тому, що практичний досвід Р. Фішера в Rothamsted полягав у тому, що, як правило , більше стандартних відхилень від очікуваної величини, як правило, варто додатково дослідити, і з цього при цьому він обрав двосхилий тест на як своє велике правило , а не навпаки. Таким чином, однохвостий еквівалент становив биα=0.050.0525%2.5%
Генрі

1

На перший погляд, жодне з цих тверджень не стверджує, що двосторонній тест є «кращим» для однобічного дослідження. Потрібно просто встановити логічний зв'язок з досліджуваної гіпотези, пов'язаної зі статистичним висновком, який випробовується.

Наприклад:

... розглянути наслідки відсутності ефекту в іншому напрямку. Уявіть, що ви розробили новий препарат, який, на вашу думку, є покращенням порівняно з існуючим препаратом. Ви хочете максимально покращити здатність виявляти поліпшення, тому ви вибрали тест з однохвостим покриттям. Роблячи це, ви не зможете перевірити можливість того, що новий препарат є менш ефективним, ніж існуючий препарат.

По-перше, це дослідження наркотиків. Тож неправильність у зворотному напрямку має соціальне значення поза рамками статистики. Так, як багато хто говорив, здоров'я не найкраще робити узагальнення.

У цитаті вище, здається, йдеться про тестування наркотику, коли інший вже існує. Отже, для мене це означає, що ваш препарат вважається вже ефективним. Це твердження стосується порівняння наступних двох ефективних препаратів. Якщо порівнювати ці розподіли, якщо ви нехтуєте однією стороною населення задля покращення її порівняльних результатів? Це не лише упереджений висновок, але порівняння вже не є достовірним для виправдання: ви порівнюєте яблука з апельсинами.

Так само можуть бути точні оцінки, які заради статистичного висновку не вплинули на висновок, але мають дуже велике суспільне значення. Це тому, що наш зразок репрезентує життя людей: те, що не може "повторитися" і є безцінним.

Крім того, із твердження випливає, що дослідник має стимул: "Ви хочете максимально покращити свою здатність виявити поліпшення ..." Це поняття нетривіально, якщо випадок виділяється як поганий протокол.

Вибір тесту з однохвостим після запуску тесту з двома хвостами, який не зміг відкинути нульову гіпотезу, не є доцільним, незалежно від того, наскільки "близьким" до значущого був тест з двома хвостами.

Знову ж таки, це означає, що дослідник "перемикає" свій тест: з двостороннього на однобічний. Це ніколи не підходить. Перед проведенням тестування обов'язково має бути мета дослідження. Завжди дефолтуючи до зручності двостороннього підходу, дослідникам зручно не вдається більш чітко зрозуміти явище.

Ось документ на цю саму тему, насправді робить випадок, що двосторонні тести були надмірно використані.

Він звинувачує в надмірному використанні двостороннього тесту на відсутність:

чітке розмежування та логічний зв'язок між гіпотезою дослідження та його статистичною гіпотезою

Це займає позицію та позицію, що дослідники:

може не усвідомлювати різницю між двома експресивними режимами або усвідомлювати логічний потік, у якому дослідницьку гіпотезу слід перевести у статистичну гіпотезу. Зручне орієнтування змісту дослідницьких та статистичних гіпотез може бути причиною надмірного використання двоступеневого тестування навіть у ситуаціях, коли використання тестування з двома хвостами є недоцільним.

необхідно зрозуміти точну статистику при інтерпретації результатів статистичних випробувань. Бути неточним під ім'ям консервативності не рекомендується. У цьому сенсі автори вважають, що лише звітування про результати тестування, наприклад, «було виявлено статистично значущим на рівні значущості 0,05 (тобто, p <0,05)».

Незважаючи на те, що двоступеневе тестування є більш консервативним в теорії, воно розв'язує зв'язок між гіпотезою спрямованого дослідження та його статистичною гіпотезою, можливо, приводячи до подвоєних значень р.

Автори також показали, що аргумент для значущого результату у зворотному напрямку має значення лише в контексті виявлення, а не в контексті
обґрунтування . У разі перевірки гіпотези дослідження та її основної теорії дослідники не повинні одночасно звертатися до контексту відкриття та обґрунтування.

https://www.sciencedirect.com/science/article/pii/S0148296312000550


1

Часто тест на значимість проводиться для нульової гіпотези проти альтернативної гіпотези . Це коли один хвостик проти двохвостих має значення.


  • Для p-значень це (дво- або однобічне) значення не має! Справа в тому, що ви вибираєте критерій, у якому виникає лише частка часу, коли нульова гіпотеза є істинною. Це або два маленькі шматочки обох хвостів, або один великий шматок одного хвоста, або щось інше.α

    Коефіцієнт помилок типу I не відрізняється для одного або двосторонніх тестів.

  • З іншого боку, для влади це важливо .

    Якщо ваша альтернативна гіпотеза несиметрична, ви хочете зосередити критерій на відхиленні нульової гіпотези лише на цьому кінці / кінці; такий, що коли альтернативна гіпотеза є істинною, тоді ви менше шансів не відкинути ("прийняти") нульову гіпотезу.

    Якщо ваша альтернативна гіпотеза симетрична (вам не байдуже розміщувати більшу чи меншу потужність на одній конкретній стороні), і відхилення / ефект з обох сторін очікується однаково (або просто невідомо / неінформовано), тоді більш потужним є використання двосторонній тест (ви не втрачаєте 50% потужності для хвоста, який ви не тестуєте, і де ви зробите багато помилок типу II).

    Частота помилок типу II відрізняється для одно- та двосторонніх тестів, а також залежно від альтернативної гіпотези.

Це стає дещо схожим на байєсівську концепцію зараз, коли ми починаємо використовувати попередні уявлення про те, чи ми очікуємо, що ефект впаде з одного боку або з обох боків, і коли ми хочемо використовувати тест (щоб побачити, чи можемо ми підробити нульова гіпотеза) "підтвердити" або зробити більш імовірним щось на зразок ефекту.


0

Отже, ще одна спроба відповіді:

Я здогадуюсь, чи приймати однохвостий чи двохвостий залежить повністю від альтернативної гіпотези.

Розглянемо наступний приклад середнього тестування в t-тесті:

H0:μ=0

Ha:μ0

Тепер, якщо ви спостерігаєте дуже негативну середню вибірку або дуже позитивну середню вибірку, ваша гіпотеза навряд чи буде правдою.

З іншого боку, ви будете готові прийняти вашу гіпотезу, якщо середнє значення вибірки буде близьким до будь то негативне чи позитивне . Тепер вам потрібно вибрати інтервал, через який, якщо середнє значення вибірки впаде, ви не відкинете свою нульову гіпотезу. Очевидно, ви б обрали інтервал, який має і негативні, і позитивні сторони навколо . Тож ви обираєте два побічні тести.0 00

Але що робити, якщо ви не хочете тестувати , а скоріше . Тепер інтуїтивно, що ми хочемо тут зробити, це те, що якщо значення середньої вибірки стає дуже негативним, то ми можемо напевно відхилити свою нуль. Таким чином, ми хотіли б відхилити нульове значення лише для далеко негативних значень середньої вибірки.μ=0μ0

Але зачекайте! Якщо це моя нульова гіпотеза, як би я встановив нульовий розподіл. Нульовий розподіл середньої вибірки відомий для деякого передбачуваного значення параметра параметра (тут ). Але при поточному нульовому значенні він може приймати багато значень.0

Скажімо, ми можемо робити нескінченні нульові гіпотези. Кожен для прийняття позитивного значення . Але подумайте про це: У нашій першій гіпотезі , якщо ми лише відкидаємо нуль, спостерігаючи дуже далеко негативну середню вибірку, то кожна наступна гіпотеза з також її відкидає. Тому що для них середнє значення вибірки ще більше від параметра популяції. Таким чином, насправді все, що нам потрібно зробити, - це лише зробити одну гіпотезу, але однобічну .μH0:μ=0H0:μ>0

Тож ваше рішення стає:

H0:μ=0

Ha:μ<0

Найкращий приклад - тест Дікі-Фуллера на стаціонарність.

Сподіваюся, це допомагає. (Хотілося включити діаграми, але відповісти з мобільного).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.