Чи є значення p по суті марним і небезпечним у використанні?


36

Ця стаття " Коефіцієнти, які постійно оновлюються" від NY Times, привернула мою увагу. Коротше кажучи, це стверджує, що

[Байєсівська статистика] виявляється особливо корисною у вирішенні складних проблем, включаючи пошуки на зразок того, який берегова охорона використовувала у 2013 році для пошуку зниклого рибалки Джона Олдріджа (хоча ні, поки що під час полювання на рейс 370 Malaysia Airlines). ......, байесівська статистика пронизує все - від фізики до дослідження раку, екології до психології ...

У статті також є деякі закиди щодо p-значення частоліста, наприклад:

Результати зазвичай вважаються "статистично значущими", якщо значення р менше 5 відсотків. Але в цій традиції є небезпека, сказав Ендрю Гелман, професор статистики Колумбії. Навіть якщо вчені завжди робили обчислення правильно - а вони ні, - стверджує він, - прийняття всього з р-значенням 5 відсотків означає, що кожен із 20 “статистично значущих” результатів - це не що інше, як випадковий шум.

Окрім вищезгаданого, можливо, найвідоміша стаття, що критикує значення p, саме ця - «Науковий метод: Статистичні помилки» Реґіни Нуццо з Nature , в якому обговорювалося багато наукових питань, піднятих підходом p-значення, як, наприклад, питання відновлення, хакерське значення і т.п.

Значення P, "золотий стандарт" статистичної валідності, не такі надійні, як вважають багато вчених. ...... Мабуть, найгірша помилка - це тип самообману, для якого психолог Урі Сімонсон з Університету Пенсільванії та його колеги популяризували термін P-хакерство; він також відомий як днопоглинання даних, носіння, риболовля, переслідування значущості та подвійне занурення. «Р-хакерство, - каже Сімонсон, - намагається зробити кілька речей, поки не отримаєте бажаного результату» - навіть несвідомо. ...... "Здається, що ця знахідка була отримана за допомогою p-хакерства, автори відмовилися від однієї з умов, щоб загальна р-величина була меншою за 0,05", і "Вона - хакер, вона завжди відстежує дані під час її збору ».

Інша справа, цікавий сюжет , як випливає з тут , з коментарем про сюжет:

Яким би малим не був ваш ефект, ви завжди можете зробити важку роботу зі збору даних, щоб перейти поріг р <0,05. Поки ефект, який ви вивчаєте, не існує, p-значення просто вимірюють, скільки зусиль ви доклали до збору даних.

введіть тут опис зображення

З усього вищезазначеного мої запитання:

  1. Що точно означає аргумент Ендрю Гельмана у другому блоці? Чому він інтерпретував 5-відсоткове значення p як "один із 20 статистично значущих результатів, але не випадковий шум"? Я не переконаний, оскільки мені значення p використовується для того, щоб робити висновки в одному дослідженні. Його погляд, здається, пов'язаний з багаторазовим тестуванням.

    Оновлення: Перевірте блог Ендрю Гелмана про це: Ні, я цього не говорив! (Кредити @Scortchi, @whuber).

  2. З урахуванням критичних зауважень по приводу значення р, а також з огляду на Є багато інформаційних критерії, як AIC, BIC, мальви в для оцінки значущості моделі (отже , змінних), ми не повинні використовувати р-значення для змінного вибору на все але використовуєте ці критерії вибору моделі?Сp

  3. Чи є якісь практичні вказівки щодо використання p-значення для статистичного аналізу, які могли б призвести до більш надійних результатів досліджень?
  4. Чи може байєсівський моделюючий підґрунтя кращим способом дотримуватися, як вважає деякий статистик? Зокрема, чи може бути байєсівський підхід вирішити помилковий пошук або маніпулювати питаннями даних? Я не переконаний і тут, оскільки пріоритет є дуже суб'єктивним у байєсівському підході. Чи є якісь практичні та відомі дослідження, які показують, що байєсівський підхід кращий, ніж р-значення частолістських, або принаймні в деяких конкретних випадках?

    Оновлення: Мені б особливо цікаво, чи є випадки, що баєсовський підхід є більш надійним, ніж підхід частотистського p-значення. Під "надійним", я маю на увазі байєсівський підхід, мабуть, маніпулює даними для отримання бажаних результатів. Будь-які пропозиції?


Оновлення 9.06.2015

Щойно помітив новину і подумав, що було б добре винести її сюди для обговорення.

Журнал психології забороняє значення P

Суперечливий статистичний тест нарешті домігся свого кінця, принаймні в одному журналі. На початку цього місяця редактори фундаментальної та прикладної соціальної психології (BASP) оголосили, що журнал більше не публікуватиме статті, що містять значення P, оскільки статистика занадто часто використовується для підтримки досліджень низької якості.

Поряд з недавньою роботою, "Нестабільне значення Р генерує невідтворювані результати" від Nature , про значення Р.

Оновлення 8.5.2016

Ще в березні Американська статистична асоціація (ASA) оприлюднила твердження про статистичну значущість та p-значеннях, ".... Заява ASA призначена для керування дослідженнями на" пост p <0,05 епохи "."

Ця заява містить 6 принципів, які стосуються неправильного використання значення p:

  1. P-значення можуть вказувати, наскільки несумісні дані з визначеною статистичною моделлю.
  2. Р-значення не вимірюють ймовірність того, що вивчена гіпотеза є правдивою, або ймовірність того, що дані були створені лише випадковим випадком.
  3. Наукові висновки та ділові чи політичні рішення не повинні базуватися лише на тому, чи значення p переходить певний поріг.
  4. Для правильного висновку необхідна повна звітність та прозорість.
  5. Значення р або статистична значимість не вимірює розмір ефекту чи важливість результату.
  6. Сама по собі p-величина не дає хорошої міри доказів щодо моделі чи гіпотези.

Деталі: "Заява ASA про p-значеннях: контекст, процес та мета" .


11
Re 1: Я підозрюю, що блок Гельмана може бути неправильним цитуванням, тому що для його правильності потрібні сильні (контрфактичні) припущення. Якщо все, що коли-небудь вивчалося у світі, дотримувалося їхніх нульових гіпотез, а всі нульові гіпотези були простими (а не складовими), то при побудові 5% усіх p-значень менше відбулося б випадково - бути «випадковим шумом». Однак, якби люди завжди проводили детальні, обширні експерименти, де альтернативна гіпотеза вірна (як і в останній цитаті), то по суті 100% усіх p-значень було б менше і жоден з них не був би «шумом». 0,050,050,05
whuber

10
@whuber: Ти маєш рацію: Ні, я цього не говорив! .
Scortchi

4
Гарна знахідка, @Scortchi! Для запису - якщо посилання колись погана - Гельман рішуче відкидає характеристику NY Times (хоч і дуже тактовно) і пише: "Прийняття всього з р-значенням 5 відсотків може призвести до помилкових висновків - випадків, коли спостерігається" статистично значуща "закономірність даних не відображає відповідну закономірність у сукупності - набагато більше 5 відсотків часу".
whuber

3
Посилаючись на ваш коментар "Поки ефект, який ви вивчаєте, не існує", це сенс досліджень, пов’язаних із значеннями p, - щоб визначити, чи є ефект, який ви вивчаєте, справді присутній чи чи є особливості в зібрані вами дані є лише випадковим випадком. Зниження значення p із збільшенням розміру вибірки є абсолютно математично обґрунтованим і, власне, єдиним варіантом. Ви жодним чином не "зламаєте" значення p. З точки зору інтуїтивної точки зору, є сенс, що більше зусиль для збору даних означатиме більшу впевненість у висновках, які ви робите з них.
Девід Вебб

1
@DavidWebb Погодився. Якщо розмір ефекту невеликий, це нормально, і буде легше сказати, наскільки великий чи малий ефект має більше даних. Якщо ви можете отримати більше даних, вам слід.
Десті

Відповіді:


25

Ось кілька думок:

  1. 80%100/118,7584%
  2. p
  3. p
  4. Я не догматично проти використання байєсівських методів, але не вірю, що вони вирішили б цю проблему. Наприклад, ви можете просто тримати збір даних, поки достовірний інтервал більше не включить значення, яке ви хочете відхилити. Таким чином, у вас є "достовірний інтервал". Як я бачу, проблема полягає в тому, що багато практикуючих не зацікавлені в статистичному аналізі, який вони використовують, тому вони будуть використовувати той метод, який вимагається для них недумним і механічним способом. Детальніше про мою точку зору тут може допомогти прочитати мою відповідь на тему : Розмір ефекту як гіпотеза для перевірки значимості .

10
(+1) Найпростіший спосіб зламати достовірний інтервал - це прийняти правильний поперед :-). Звичайно, жоден компетентний практик цього не зробив би - Гельман наголошує на використанні оцінок чутливості, неінформативних гіперпріорів тощо. - Але знову ж таки жоден грамотний користувач тестів гіпотез не зробив би зловживання p-значення, чи не так? З іншого боку, в байєсівському аналізі може бути складніше приховати те, що роблять - припускаючи, що попередній явно розкрито - порівняно з усіма недокументованими аналізами, які можуть бути причетні до злому p-значення.
whuber

1
@whuber, це правда, але я думаю, що ми можемо відмінити будь-які питання, невідповідність чи суб'єктивність попереднього. Якщо справжній ефект не точно 0, w / достатньо даних, достовірний інтервал з часом не буде включати 0, так само як p буде <0,05 (cf, остання цитата), тож ви можете просто продовжувати збирати дані, поки не отримаєте результат, який ви хочете, незалежно від попереднього.
gung - Відновіть Моніку

4
Хороші бали. Мені нагадує недавнє запитання щодо прогнозування збоїв у 10000 продуктах після відсутності збоїв у 100 000 з них. Відповідь досить чутлива до попереднього, оскільки збої трапляються так рідко. Це може бути така виняткова ситуація, яка "доводить правило"; це показує, що насправді зібрати достатню кількість даних для отримання бажаного результату неможливо. Саме так, коли деякі клієнти починають доручати статистику «робити свою магію», щоб досягти бажаного результату! Напевно, багато читачів відчували цей тиск і раніше ....
whuber

1
@gung, у практичних клінічних випробуваннях завжди є критерії зупинки на різних фазах для набору більшої кількості суб'єктів для експериментів. У цьому сенсі, чи не може Баєсівський підхід маніпулювати достовірним інтервалом, таким чином, висновками досліджень?
Аарон Дзенг

2
@AaronZeng, мені здається, явні критерії зупинки однаковою мірою стосуються перспектив частоти і байесів. Я не бачу тут жодної чистої переваги / недоліку.
gung - Відновіть Моніку

8

Для мене однією з найцікавіших речей щодо суперечки p-hacking є те, що вся історія p <= 0,05 як стандарт "колись у синьому місяці" для статистичної значущості, як зазначив Джозеф Калдейн у статті JASA про криміналістичну статистику ще в 90-х роках не спирається на абсолютно ніяку статистичну теорію. Це конвенція, проста евристика і правило, яке розпочалося з Р. А. Фішера і з тих пір було перероблене або освячене в його теперішній "беззаперечний" статус. Байєсів чи ні, давно настає час, коли можна оскаржити цей метричний стандарт або принаймні дати йому скептицизм, якого він заслуговує.

Зважаючи на це, моя інтерпретація точки Гельмана полягає в тому, що, як відомо, процес експертного огляду приносить позитивну статистичну значимість і карає незначні результати, не публікуючи ці документи. Це не залежно від того, чи може опублікувати незначний висновок потенційно великий вплив на мислення та теоретизацію для даної галузі. Гельман, Сімоншон та інші неодноразово вказували на зловживання рівнем значущості 0,05 у рецензованих та опублікованих дослідженнях, використовуючи приклади смішних, але статистично значущих висновків у паранормальних, соціальних та психологічних дослідженнях. Одним з найбільш кричущих був статистично значущий висновок про те, що вагітні жінки частіше носять червоні сукні. Гельман стверджує, що за відсутності логічних викликів статистичним результатам,потенційно безглузде пояснення. Тут він посилається на виробничу небезпеку в галузі з надмірно технічними та необґрунтованими аргументами, які роблять мало чи нічого для просування дебатів серед широкої аудиторії.

Це пункт, який Гарі Кінг ставить з нетерпінням, коли він практично просить кількісних політологів (і, зрештою, всіх квінтів) припинити механістичні, технічні репортажі, такі як "цей результат був значущим на рівні ap <= 0,05" і рухаючись до більш предметних інтерпретацій . Ось цитата з його статті,

(1) передають чисельно точні оцінки величин, що представляють найбільший істотний інтерес, (2) включають обґрунтовані міри невизначеності щодо цих оцінок, та (3) вимагають мало спеціалізованих знань для розуміння. Наступне просте твердження відповідає нашим критеріям: "За інших рівних умов, додатковий рік навчання збільшить ваш щорічний дохід на 1500 доларів в середньому плюс-мінус приблизно 500 доларів". Будь-який розумний гімназист зрозумів би це речення, незалежно від того, наскільки складна статистична модель та потужні комп’ютери, які використовуються для її виготовлення.

Точка Кінга дуже добре сприйнята і відображає напрямок, в якому потрібно взяти дискусію.

Здійснення найбільшої кількості статистичних аналізів: вдосконалення інтерпретації та викладу, Кінг, Томз і Віттенберг, 2002, Am Jour of Poli Sci .


2
+1 Дякую за цей читабельний, інформативний та продуманий внесок у нитку.
whuber

@whuber Дякую за добрі слова. Час покаже, чи згодні з цим інші учасники чи ні.
Майк Хантер

2
Я можу бути в омані, але мені подобається думати, що деякі (якщо не більшість) наших активних виборців голосують не на основі домовленості чи незгоди, а на те, чи відповідає відповідь на оригінальне запитання ясним та авторитетним питанням . Зрештою, наведення курсору над піктограмою оновлення означає: "Ця відповідь корисна", а не "Я згоден з цим хлопцем". (Це не слід плутати з голосування на нашому сайті мета, який робить означають ступінь згоди.) Деякі докази цього враження дозволяє багатьом спортивного майстерності значки нагороджених.
whuber

@Whuber Нюанс, який ви вказуєте, належним чином зазначається.
Майк Хантер

@whuber ця тема стала джерелом мого вживання слова, яке заблукало в нашому чаті днями.
Майк Хантер

5

Ось кілька моїх думок щодо питання 3 після прочитання всіх проникливих коментарів та відповідей.

Можливо, одне практичне керівництво в статистичному аналізі, щоб уникнути злому p-вартості, - це замість того, щоб дослідити науковий (або, біологічно, клінічно тощо) значний / змістовний розмір ефекту.

θ

Н0:θ=0vс.На:θ0,
Н0:θ<δvс.На:θδ,
δ

Крім того, щоб уникнути використання занадто великого розміру вибірки для виявлення ефекту, слід також враховувати необхідний розмір вибірки. Тобто слід поставити обмеження щодо максимального розміру вибірки, що використовується для експерименту.

Підсумовуючи,

  1. Нам потрібен заздалегідь визначений поріг для значущого розміру ефекту для оголошення значущості;
  2. Нам потрібно заздалегідь визначити поріг для розміру вибірки, який використовується в експерименті, щоб визначити, наскільки значущим є розмір значущого ефекту;

Зверху вище, можливо, ми можемо уникнути незначного "значного" ефекту, який вимагає величезний розмір вибірки.


[Оновлення 9.06.2015]

Щодо питання 3, ось декілька пропозицій, що базуються на нещодавно отриманому матеріалі від природи: "Нестабільне значення P генерує невідтворювані результати", як я згадував у частині запитання.

  1. Повідомте про оцінку розміру ефекту та їх точність, тобто 95% довірчий інтервал, оскільки ця більш інформативна інформація відповідає саме на такі питання, як, наскільки велика різниця або наскільки сильні стосунки чи асоціації;
  2. Поставити оцінки розміру ефекту та 95% ІС у контекст конкретних наукових досліджень / питань та зосередитись на їх актуальності відповіді на ці запитання та знизити непостійне значення Р;
  3. Замініть аналіз потужності на " планування на точність ", щоб визначити розмір вибірки, необхідний для оцінки розміру ефекту, щоб досягти визначеного ступеня точності.

[Кінцеве оновлення 9.06.2015]


4
Якщо ви переписуєте то ви сперечаєтесь на тестування на еквівалентність , що, на мою думку, це чудово робити у багатьох ситуаціях. (Зазвичай тести гіпотез не подаються, як друга ситуація, оскільки можливі результати не є нульовими або альтернативними.)Н0:θ=δ
Енді У.

@AndyW, Дякую за коментарі. Я відповідно змінив свою відповідь. Це може здатися кращим варіантом?
Аарон Дзенг

2
+1 для посилання на цю статтю про природу. Однак вона містить деяку дивовижну дезінформацію, таку як, наприклад, (неоголошена) байєсівська інтерпретація p-значень: "Наприклад, якщо дослідження отримує P = 0,03, існує 90% шанс, що повторне дослідження десь поверне значення P між широким діапазоном 0–0,6 (90% інтервалів прогнозування), тоді як шанси P <0,05 - це лише 56% ». Цікаво, який попередній розподіл припускають автори - і чому це навіть актуально?
качан

@AndyW та Aaron Zeng, ще краще - поєднувати результати як тестів на різницю, так і тестів на еквівалентність. Таким чином, можна чітко розмістити відповідні розміри ефекту та статистичну потужність у висновках, які можна зробити (див. Розділ про тести на відповідність).
Олексій

3

П(D|Н0)αН0Н0

  1. Це означає, що 1/20 результатів можуть відхилити нуль, коли вони не повинні мати. Якщо наука базується на висновку на окремих експериментах, то це твердження можна було б захистити. Інакше, якби експерименти були повторюваними, це означало б, що 19/20 не буде відхилено. Мораль історії полягає в тому, що експерименти повинні бути повторюваними.

  2. Наука - це традиція, заснована на "об'єктивності", тому "об'єктивна ймовірність" природно закликає. Нагадаємо, що експерименти передбачають високий ступінь контролю, що часто використовує блокову конструкцію та рандомізацію для контролю факторів, що не входять у дослідження. Таким чином, порівняння з випадковим має сенс, оскільки всі інші фактори повинні контролюватися, крім тих, що вивчаються. Ці методи були дуже успішними в сільському господарстві та промисловості до того, як їх перенесли в науку.

  3. Я не впевнений, чи нестача інформації коли-небудь була справді проблемою. Примітно, що для багатьох нематематичних наук статистика - це лише поле для позначки.

  4. Я пропоную загальне ознайомлення з теорією рішень, яка об'єднує дві рамки. Просто зводиться до використання стільки інформації, скільки у вас є. Статистика статистики припускає, що параметри в моделях мають невідомі значення фіксованих розподілів. Байєси припускають, що параметри в моделях походять від розподілів, обумовлених тим, що ми знаємо. Якщо є достатньо інформації для формування попередньої та достатньої інформації, щоб оновити її до точної задньої частини, то це чудово. Якщо цього немає, то, можливо, ви отримаєте гірші результати.


1

Відтворюваність результатів статистичних випробувань

Це короткий простий вправа для оцінки відтворюваності рішень на основі статистичного тестування.

Розглянемо нульову гіпотезу H0 з набором альтернативних гіпотез, що містять H1 і H2. Встановіть процедуру тестування статистичної гіпотези на рівні значущості 0,05, щоб мати потужність 0,8, якщо H1 є правдою. Далі припустимо, що потужність для H2 дорівнює 0,5. Для оцінки відтворюваності результату тестування експеримент вважається виконанням процедури тестування два рази. Починаючи з ситуації, коли H0 відповідає дійсності, ймовірність результатів спільного експерименту відображена в таблиці 1. Імовірність неможливості відтворення рішень становить 0,095.

Таблиця 1. Частоти, якщо H0 вірно

Жrеqуенcу.оf.геciсiонRеjеcт.Н0Rетаiн.Н0Rеjеcт.Н00,00250,0475Rетаiн.Н00,04750,9025

Частоти змінюються у міру зміни справжнього стану природи. Якщо припустимо, що H1 відповідає дійсності, H0 може бути відхилено, як було розроблено, потужністю 0,8. Отримані частоти для різних результатів спільного експерименту відображені в таблиці 2. Імовірність неможливості відтворення рішень становить 0,32.

Таблиця 2. Частоти, якщо H1 вірно

Жrеqуенcу.оf.геciсiонRеjеcт.Н0Rетаiн.Н0Rеjеcт.Н00,640,16Rетаiн.Н00,160,04

Якщо припустимо, що H2 відповідає дійсності, H0 буде відхилено з вірогідністю 0,5. Отримані частоти для різних результатів спільного експерименту відображені в таблиці 3. Імовірність неможливості відтворення рішень становить 0,5.

Таблиця 3. Частоти, якщо H2 вірно

Жrеqуенcу.оf.геciсiонRеjеcт.Н0Rетаiн.Н0Rеjеcт.Н00,250,25Rетаiн.Н00,250,25

Процедура тестування була розроблена для управління помилками I типу (відмова нульової гіпотези, хоча це правда) з вірогідністю 0,05 та обмеження помилок типу II (відхилення нульової гіпотези відсутнє, навіть якщо вона неправильна і H1 є правдивим) до 0,2. В обох випадках, якщо H0 або H1 вважають істинними, це призводить до несуттєвих частот, 0,095 та 0,32, відповідно, "невідтворюваних", "суперечливих" рішень, якщо той же експеримент повторюється двічі. Ситуація погіршується з частотою до 0,5 для "невідтворюваних", "суперечливих" рішень, якщо справжній стан природи знаходиться між нульовою і альтернативною гіпотезою, що використовується для проектування експерименту.

Ситуація також може покращитися - якщо помилки типу 1 контролюються більш суворо, або якщо справжній стан природи знаходиться далеко від нуля, що призводить до можливості відхилити нуль, близький до 1.

Таким чином, якщо ви хочете більш відтворюваних рішень, підвищуйте рівень значущості та потужність ваших тестів. Не дуже дивно ...


(+1) Але ви не можете встановити значення р до 5% перед експериментом - подумайте, ви маєте на увазі "рівень значущості".
Scortchi

Дякую. Те саме в останньому реченні: "знизити рівень значущості та збільшити потужність"
Scortchi - Reinstate Monica

Я думаю, що найбільша проблема з p значеннями полягає в тому, що люди плутають їх із суттєвим значенням. Отже, якщо р <0,05, це означає, що розмір виявленого ефекту є досить великим, щоб мати значення. На роботі мене запитують генерувати [по суті] суттєві ефекти, генеруючи значення p.
користувач54285
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.