Чи неправильно називати результати "високими значеннями"?


18

Чому статистики не заважають нам називати результати « високо значущими», коли -значення значно нижче звичайного рівня ?α 0,05pα0.05

Чи справді неправильно довіряти результату, який має 99,9% шансу не помилки типу I ( ) більше, ніж результату, який дає лише такий шанс на 99% ( )?p = 0,01p=0.001p=0.01


16
Можливо, варто прочитати відповідь @ gung тут . Коротко: для рішення "значне проти несуттєве" або "відхилити нульову гіпотезу проти не відхиляти нульову гіпотезу" важливо лише те, чи значення значення нижче вашої яке ви встановили перед дослідженням (Нейман і Пірсон ). З іншого боку, ви можете розцінювати -значення як суцільну міру доказів проти нульової гіпотези, яка не має "відсікання" (Фішер). αpαp
COOLSerdash

10
У вас, здається, є серйозна помилка щодо p-значень (p-значення не є ймовірністю помилок), які, якщо їх виправити, можуть допомогти вам зрозуміти, чому ви можете почути певні речі від статистиків.
хлопець

10
Зізнаюся, інколи вживаю фрази на кшталт "високозначущі". В іншому випадку у звітах багато початкових результатів, можливо, доведеться скорегувати для багаторазового тестування, де "високозначний" набуває більш технічного значення "залишається значущим навіть після відповідного коригування для декількох порівнянь". Навіть тоді, коли всі читачі погоджуються щодо відповідного використання « (що є рідкісним для аналізів, які використовуються багатьма зацікавленими сторонами), те, що є «значущим» чи ні, залежить від набору гіпотез, які кожен читач мав на увазі, перш ніж переглянути звіт. α
whuber

7
Не всі статистики кажуть, що це неправильно. Я використовую сам термін з (правда, рідкісного) випадку - наприклад, щоб означати, що за цими даними нуль були б відкинуті людьми, які працюють на значно нижчому рівні значущості, ніж той, який я використовував, але важливо не надавати йому більше значення ніж є. Я просто сказав би, що треба проявляти обережність - іноді досить багато - при тлумаченні значення такої фрази, а не в тому, що це конкретно неправильно . Деякі моменти тут були б актуальними.
Glen_b -Встановіть Моніку

7
(ctd) ... для порівняння, я думаю, що більша стурбованість викликає людей, які використовують тести на гіпотези, які просто не відповідають на їх питання, що цікавлять (що, на мою думку, трапляється дуже часто). Краще зосередитись на цьому кричущому та важливому питанні, ніж надмірно догматично ставитись до незначної недоброзичливості у тому, як вони виражають дуже малу p-величину.
Glen_b -Встановіть Моніку

Відповіді:


17

Я думаю, що не так вже й неправильно сказати, що результати "дуже вагомі" (хоча так, це трохи неохайно).

Це означає, що якби ви встановили значно менший рівень значущості , ви б все-таки оцінили результати як значущі. Або, що рівно, якщо деякі з ваших читачів мають на увазі набагато меншу , вони все одно можуть оцінити ваші результати як значущі.ααα

Зауважте, що рівень значущості знаходиться в оці очі, тоді як значення значення (з деякими застереженнями) є властивістю даних.pαp

Спостереження - це не те саме, що спостерігати за , навіть якщо обидва можуть бути названі "значущими" за стандартними умовами вашого поля ( ). Крихітний -значення означає більш сильні докази проти нуля (для тих, хто любить тестування гіпотез Фішера); це означає, що довірчий інтервал навколо розміру ефекту виключатиме нульове значення з більшою маржею (для тих, хто віддає перевагу CIs -значень); це означає, що задня ймовірність нуля буде меншою (для байесів з деяким попереднім); все це рівнозначно і просто означає, що результати є більш переконливими . Див. Чи менші р-значення більш переконливі? p = 0,04 α = 0,05 p pp=1010p=0.04α=0.05pp для більшого обговорення.

Термін "високозначущий" не є точним і його не потрібно. Це суб'єктивне експертне судження, подібне до того, щоб спостерігати напрочуд великий розмір ефекту і називати його "величезним" (або, можливо, просто "дуже великим"). Немає нічого поганого в тому, щоб використовувати якісні, суб’єктивні описи своїх даних, навіть у науковому письмі; звичайно, якщо представлений і об'єктивний кількісний аналіз.


Дивіться також кілька чудових коментарів вище, +1 до @whuber, @Glen_b та @COOLSerdash.


2
Домовились. -значення є кількісним показником; отже, такі розмови, хоча неточні за межами якогось контексту, не є ipso facto недійсними, більше ніж говорити "Білл високий" і "Фред справді високий" - це недійсне використання англійської мови. Ми повинні хотіти , щоб побачити номери теж і їх контекст і т.д. і т.п. Все це не зупиняє тих , хто хоче або необхідність приймати різкі рішення при або що - то робити саме так , як вони хочуть, але їх переваги не виключають на це. P < 0,05PP<0.05
Нік Кокс

Це зовсім не неохайно. Це добре підтверджено як формальне визначення.
Сова

3

Це поширене питання.

Подібне запитання може бути "Чому р <= 0,05 вважається значущим?" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Майкл-Майєр дав одну частину відповіді: значення - це лише одна частина відповіді. Маючи достатньо даних, зазвичай деякі параметри виявляться "значущими" (шукайте корекцію Бонферроні). Багаторазове тестування є специфічною проблемою в генетиці, коли великі дослідження, які шукають значення, є загальними, і часто потрібні р-значення <10 -8 ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

Крім того, одне питання з багатьма аналізами полягає в тому, що вони були опортуністичними і не заздалегідь запланованими (тобто "Якщо ви досить мучите дані, природа завжди зізнається". - Рональд Коуз).

Як правило, якщо аналіз заздалегідь планується (з корекцією повторного аналізу на статистичну потужність), він може вважатися значним. Часто повторне тестування декількома особами чи групами - найкращий спосіб підтвердити, що щось працює (чи ні). І повторення результатів найчастіше є правильним тестом на значимість.


2

Тест - це інструмент для чорно-білого рішення, тобто він намагається відповісти на питання "так / ні" на кшталт "чи справжній ефект від лікування?". Часто, особливо якщо набір даних великий, таке питання є досить марною витратою ресурсів. Навіщо задавати двійкове запитання, чи можна отримати відповідь на кількісне запитання типу "наскільки великий справжній ефект лікування?" що неявно відповідає також на питання "так / ні"? Тож замість відповіді на неінформативне питання "так / ні" з високою визначеністю ми часто рекомендуємо використовувати довірчі інтервали, що містять набагато більше інформації.


2
+1 Хоча ви можете бути більш чіткими в тому, як це відповідає на питання ОП (це не так очевидно).

@Matthew: Я повністю згоден.
Майкл М

Дякую Майклу. Але я думаю, що довірчі інтервали (які дають відповідь на "безперервну шкалу") стосувалися б розміру ефекту, правда? Тим не менш, чи немає необхідності в двійковій відповіді також доповнювати безперервну відповідь, тобто чи відповідає цей ефект (чий розмір описаний КІ) відповідає узгодженому рівню α? А може, ви навіть можете дати CI для p-значення?
z8080

(A) "Розмір ефекту" зазвичай посилається на стандартизовану версію ефекту лікування і, таким чином, менш легко інтерпретувати, ніж сам ефект. (B) ІН для значень р інколи додаються для модельованих значень р для вираження невизначеності імітації. (C) Якщо ваш рівень дорівнює 0,05, то майже в кожній тестовій ситуації рішення чорно-білого тесту можна отримати, переглянувши відповідні 95% ci.
Майкл М

(продовження) Ваше питання якимось чином пов’язане з наступним: Чи корисніше констатувати, що навіть 99,9999% ci несумісні з нулем або що навіть нижня межа 95% ci для справжнього ефекту є дуже перспективною?
Майкл М
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.