Чи неправильно називати результати "майже" чи "дещо" значущими?


13

Загальний консенсус щодо аналогічного питання: Чи неправильно називати результати "високо значимими"? полягає в тому, що "високозначущий" є дійсним, хоча і неспецифічним способом опису міцності асоціації, яка має р-значення набагато нижче встановленого вами порогу значущості. Однак як щодо опису р-значень, які трохи перевищують ваш поріг? Я бачив, як деякі статті використовують такі терміни, як "дещо значне", "майже значне", "наближається до значущості" тощо. Я вважаю, що ці терміни є дещо жадібними, у деяких випадках - прикордонним неохайним способом витягти змістовний результат із дослідження з негативними результатами. Чи прийнятні ці терміни для опису результатів, які "просто пропускають" ваше обмеження p-значення?


3
Я не вірю, що хтось запропонував кваліфікувати "значимість", щоб описати "силу асоціації"; останні звучать більше як міра ефекту. У будь-якому випадку, дивіться тут більш повний список.
Scortchi

1
@Scortchi - Наскільки я розумію, дуже невелике значення p є дуже значущим, що означає сильну зв'язок між змінною, про яку йдеться, і ціллю. Це результат великого ефекту, великої кількості даних або обох. Для великих p-значень дані, що підтверджують зв'язок між змінною та цільовою, слабкі. Крім того, сподобається цей список у вашому посиланні.
Ядерна Ванга

9
Отримання дуже невеликого p значення для невеликого розміру ефекту навряд чи можна назвати "сильною асоціацією". Це було б лише виявлення асоціації.
whuber

2
Я бачив, як люди багато використовують ці фрази в галузі, але не в наукових роботах.
Аксакал

1
Можливо, ваш дискомфорт пов’язаний з думкою, що p-значення (або будь-яке інше число, отримане з вибірки) - це гострі заходи чогось.
Ерік Тауерс

Відповіді:


14

Якщо ви хочете дозволити "значущості" визнавати ступінь, тоді досить справедливо ("дещо суттєво", "досить вагомо"), але уникайте фраз, які підказують, що ви все ще знаходяться з ідеєю порогу, наприклад "майже значного" , "наближається до значущості" або "на суті значущості" (мій фаворит із "Все ще не суттєвий" в блозі " Ймовірна помилка" ), якщо ви не хочете здаватися відчайдушними.


9
(+1) для посилання. Але я вважаю, що родзинкою поетичної творчості є «балакання на межі значущості (p = 0,06)» .
Алекос Пападопулос

1
@AlecosPapadopoulos: Ти маєш рацію, хоча "загравання зі звичайними рівнями значущості" та "наближення до статистичної значущості" заслуговують на почесні згадки. "Квазізначущий" - це, мабуть, переможець у іншій категорії.
Scortchi

4
Дійсно, перші два мають справжній кінематографічний дух, перший із фільму "Статистичний жиголо" (хто б ще загравав із загальноприйнятим рівнем ?), А другий із фільму "Вмираєш на хвості", де ми бачимо грізний гриф (p-значення), що нависає над вмираючим героєм (статистична значимість).
Алекос Пападопулос

1
Особисто я б відмовився від слова «вагомий» у своїй фразуванні і назвав p = 0,06 «досить цікавим». Правильно чи неправильно, коли я вперше зіткнувся з р-значеннями в ході курсу «Шість знаків», інструктор запропонував, що для 0,05 <= 0,1 правильна мітка - «більше необхідних даних» (заснована на промислових умовах, коли додаткові точки даних важко отримати , що абсолютно відрізняється від будь-якого сценарію "Big Data"
Роберт де Грааф

6

З моєї точки зору, питання зводиться до того, що насправді означає провести перевірку значимості. Перевірка значущості була розроблена як засіб прийняття рішення про відхилення нульової гіпотези або про неприйняття її. Сам Фішер ввів сумнозвісне правило 0,05 для прийняття цього (довільного) рішення.

В основному, логіка тестування значущості полягає в тому, що користувач повинен вказати альфа-рівень для відхилення нульової гіпотези (умовно 0,05) перед збором даних . Після завершення тесту на значущість користувач відхиляє нуль, якщо значення p менше, ніж рівень альфа (або не відхиляє його в іншому випадку).

Причина, чому ви не можете визначити ефект надзвичайно значущим (скажімо, на рівні 0,001), полягає в тому, що ви не можете знайти більш вагомих доказів, ніж ви вирішили знайти. Отже, якщо перед тестом встановити рівень альфа на 0,05, ви можете знайти свідчення лише на рівні 0,05, незалежно від того, наскільки малі ваші значення p. Таким же чином, говорити про ефекти, які є "дещо значущими" або "наближаються до значущості" також не має особливого сенсу, оскільки ви вибрали цей довільний критерій 0,05. Якщо ви інтерпретуєте логіку перевірки значимості дуже буквально, нічого більшого за 0,05 не має значення.

Я погоджуюся, що такі терміни, як "наближається до значущості", часто використовуються для підвищення перспектив публікації. Однак я не думаю, що в цьому можна звинувачувати авторів, оскільки нинішня культура публікації в деяких науках все ще сильно покладається на "святий грааль" 0,05.

Деякі з цих питань обговорюються в:

Гігеренцер, Г. (2004). Бездумна статистика. Журнал Socio-Economics, 33 (5), 587-606.

Royall, R. (1997). Статистичні дані: парадигма вірогідності (т. 71). Преса CRC.


1
Ви змішуєте філософську філософію науки з підходом Неймана / Пірсона, якщо додаєте альфа-рівень до тестування значущості Фішера.
RBirkelbach

5

Цей слизький схил повертається до рамки Фішера проти Неймана / Пірсона для перевірки значущості гіпотез (NHST). З одного боку, хочеться зробити кількісну оцінку того, наскільки малоймовірний результат під нульовою гіпотезою (наприклад, розміри ефекту). З іншого боку, наприкінці дня ви хочете дискретно вирішити питання про те, чи є ваші результати, чи ні, були наслідком лише випадкових випадків. Що ми закінчили - це такий собі гібридний підхід, який не дуже задовольняє.

У більшості дисциплін умовний p за значущістю встановлюється на 0,05, але насправді немає підстав для того, чому це повинно бути так. Переглядаючи статтю, у мене абсолютно немає проблем з автором, який називає 0,06 значущими, а то й 0,07, за умови, що методологія є надійною, і вся картина, включаючи всі аналізи, цифри тощо, розповідає послідовну та правдоподібну історію. Там, де у вас виникають проблеми, це коли автори намагаються зробити історію з тривіальних даних з невеликими розмірами ефекту. І навпаки, я не можу повністю «повірити» тест практично має сенс, навіть коли він досягає звичайного значення p <0,05. Колись мій колега сказав: "Ваша статистика повинна просто створити резервну копію того, що вже видно у ваших цифрах".

Що все сказане, я вважаю, що Василев правильно. Враховуючи порушену систему публікації, вам потрібно ввімкнути значення p, а отже, вам доводиться вживати слово "вагомий", щоб сприймати його серйозно, навіть якщо для нього потрібні прикметники типу "незначно" (що я вважаю за краще). Ви завжди можете боротися з цим під час експертної оцінки, але ви повинні дістатися першими.


5

Сама різниця між двома p-значеннями не є істотною. Отже, не має значення, чи ваше р-значення 0,05, 0,049, 0,051 ...

Що стосується р-значень як міри сили асоціації: Р-значення не є безпосередньо показником сили асоціації. Значення р - це ймовірність виявити такі екстремальні чи більш екстремальні дані, як і дані, які ви спостерігали, якщо параметр вважається рівним 0 (якщо хтось зацікавлений у нульовій гіпотезі - див. Коментар Ніка Кокса). Однак, це часто не є тією кількістю, яку цікавить дослідник. Багатьом дослідникам цікаво відповідати на запитання типу "яка ймовірність того, що параметр буде більшим, ніж якесь вибране значення відсікання?" Якщо це те, що вас цікавить, вам потрібно включити додаткову попередню інформацію у свою модель.


6
Я погоджуюся з духом цього, але дрібний друк, як завжди, потребує повної пильності. "Даний параметр вважається рівним 0": часто, але не завжди. Значення P можуть бути обчислені і для інших гіпотез. Також для "припущених" читайте "гіпотезовані".
Нік Кокс

Ви абсолютно праві - я редагую свою відповідь!
RBirkelbach

3

p<αp>α(звичайно, не сила ефекту). Для такого «континуаліста» розумний спосіб описати результат із помірним р-значенням є «майже значущим». Проблема виникає, коли люди змішують ці дві філософії - або ще гірше, не усвідомлюють, що обидві існують. (До речі - люди часто припускають ці карти чисто до Неймана / Пірсона та Фішера, але вони не роблять цього, звідси мої, мабуть, незграбні умови для них). Детальніше про це у публікації в блозі з цього приводу тут: https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/


1

Я схильний вважати, що говорити, що з технічної точки зору щось майже є статистично значущим, це невірно. Після встановлення рівня толерантності встановлюється статистичний тест значущості. Ви повинні повернутися до ідеї вибіркового розподілу. Якщо ваш рівень допуску дорівнює 0,05, і ви отримаєте р-значення 0,053, то випадково використаний зразок дав цю статистику. Ви можете дуже добре отримати інший зразок, який може не дати однакових результатів. Я вважаю, що ймовірність того, що це відбувається, базується на встановленому рівні допуску, а не на статистичній вибірці. Пам’ятайте, що ви тестуєте зразки на параметр популяції, а вибірки мають власне розподіл вибірки. Тож, на мою думку, або щось є статистично значущим, або це не так.


0

[0,1]H0p>α

H1

Дивіться, наприклад, Вікіпедію .


Я не дуже стежу за тобою. Так, при будь-якому безперервному розподілі ймовірність отримати результат рівно 0,051 дорівнює ймовірності отримати результат рівно 1 - це нуль. Але тестування гіпотез вивчає ймовірність побачити значення як мінімум настільки ж екстремальне, як і спостережуване. Ви завжди знайдете р-значення принаймні настільки ж екстремальним, як 1, але набагато менше шансів побачити p-значення настільки ж екстремальним, як 0,051. Що робить цю різницю "безглуздою"?
Ядерна Ванга

Під нулем так само ймовірно спостерігати р-значення в інтервалі [0,05,0.051], як і спостерігати р-значення в інтервалі [0,999,1]. Спостереження за значенням р ближче до порогу не є більше свідченням проти 0, як спостереження за будь-яким іншим значенням p поза зоною відхилення.
snaut

Деякі називають значення ap 0,05 значущим, інші використовують 0,01 або 0,1 як поріг. Так, серед 3 дослідників, які роблять один і той же аналіз і знаходять р-значення 0,03, двоє можуть назвати це значущим, а одного - ні. Якщо всі вони знайдуть p-значення 0,91, жоден не назве це значущим. Значення р ближче до порогового значення означає, що більше людей вважають, що є достатньо доказів для відхилення нуля. Я не бачу, чому p = 0.051 і p = 1 мають бути невідрізними за рівнем підтримки H1 - деякі люди з працею підтримуватимуть H1 з p = 0,051; ніхто не зробить цього з p = 1.
Ядерна Ванга
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.