Велика кількість значень P за відсутності гіпотези


28

Я в епідеміології. Я не статистик, але намагаюся виконувати аналізи самостійно, хоча часто стикаюся з труднощами. Я зробив свій перший аналіз десь 2 роки тому. Значення Р були включені скрізь у мої аналізи (я просто робив те, що робили інші дослідники) від описових таблиць до регресійних аналізів. Потроху статистики, які працюють у моїй квартирі, переконували мене пропустити всі (!) Значення P, за винятком того, де я справді маю гіпотезу.

Проблема полягає в тому, що значення p в рядах медичних досліджень. Це звичайно включати значення p на занадто багато рядків; описові дані про засоби, медіани чи що завгодно, як правило, йдуть разом із значеннями p (студенти t-тест, Chi-квадрат тощо)

Нещодавно я подав документ у журнал, і я відмовився (ввічливо) додавати значення p до моєї описової таблиці "базового рівня". Папір був остаточно відхилений.

Для прикладу див. Малюнок нижче; це описова таблиця з останньої опублікованої статті у шанованому журналі внутрішньої медицини .: введіть тут опис зображення

Статистики в основному (якщо не завжди) беруть участь у перегляді цих рукописів. Тож миряни, як я, розраховують не знайти жодних значень p там, де немає гіпотези. Але їх вдосталь, але причина цього залишається мені невловимою. Мені важко повірити, що це незнання.

Я розумію, що це прикордонне статистичне питання. Але я шукаю обґрунтування цього явища.


12
Значення р без гіпотези по суті є хибним. Що означає значення р навіть тоді, коли у вас немає гіпотези?
jameselmore

3
Чи можете ви навести кілька прикладів людей, які використовують значення p без будь-якої гіпотези? Це не ясно.
Амеба каже: Відновити Моніку

4
@amoeba "" Проблема в тому, що значення p є скрізь у кожному медичному журналі. У кожному рядку, де є описані засоби, медіани або пропорції, звичайно включати значення p. "" Вони, як правило, є простими точними тестами Фішера або тестами-квадратів для відмінностей, запитуючи, чи має будь-який рядок зведеної таблиці суттєву різницю . Мається на увазі гіпотеза, що кожен рядок має значення.
Карл

2
Я підозрюю, що головною силою є те, що значення p створюють оманливе враження остаточності даної претензії. Видавці цих журналів повинні любити це, оскільки це означає, що вони володіють інформацією, яка буде цінна в осяжному майбутньому. Паралельна культура нефінансування чи пропонування реплікаційних досліджень також допомагає мінімізувати наявність суперечливих суперечливих результатів. Цікаво, що буде, якщо люди врешті-решт усвідомить інформацію, яку вони володіють, складається здебільшого з "безглуздої діяльності" (термін @ glen_b). Навіть якщо є корисні речі, змішані в… евристика говорить вам уникати.
Ливид

1
[at] jameselmore: я задаю те саме питання; це не має сенсу, але застосовується щодня. [at] amoeba: Я випадковим чином вибираю один із прочитаних журналів, потрапляю на останню опубліковану статтю і знайду це: onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl: точно, дякую. @Momo: Я доклав зусиль, щоб покращити формулювання питання. Я вважаю, що це важливе питання, і я ціную вашу пропозицію. [at] Livid: дякую за цей коментар. Дійсно, багато дослідників могли неправильно зрозуміти всю точку р-значень.
Адам Робінссон

Відповіді:


29

Зрозуміло, мені не потрібно розповідати, що таке p-значення, або чому надмірна залежність від них є проблемою; ти, мабуть, уже ці речі досить добре розумієш.

З публікацією у вас є два конкуруючих тиску.

Перше - і до того, до чого слід домагатися при кожній розумній нагоді, - це робити те, що має сенс.

Другим, зрештою, є необхідність фактично публікувати. Немало користі, якщо ніхто не побачить ваших зусиль щодо реформування жахливої ​​практики.

Тож замість цього взагалі уникати:

  • зробіть це якнайменше такої безглуздої діяльності, як ви можете піти від того, що все-таки стає опублікованим

  • можливо, включіть згадку про цю недавню статтю про методи природи [1], якщо ви думаєте, що це допоможе, або, можливо, краще одне чи більше інших посилань. Принаймні, це повинно допомогти встановити, що існує певна протидія першості p-значень.

  • розглянути інші журнали, якщо інший був би підходящим

Це те саме в інших дисциплінах?

Проблема надмірного використання p-значень виникає в ряді дисциплін (це навіть може бути проблемою, коли є певна гіпотеза), але набагато рідше зустрічається в деяких, ніж в інших. Деякі дисципліни мають проблеми з p-value-itis, і проблеми, які викликають, можуть врешті-решт призвести до дещо перекритих реакцій [2] (і в меншій мірі [1], і, принаймні, в деяких місцях, декілька інших також).

Я думаю, що для цього є різноманітні причини, але надмірна залежність p-значень, здається, набирає власний імпульс - є щось про те, щоб сказати "значущим" та відкинути нуль, який здається людям дуже привабливим; різні дисципліни (наприклад, див. [3] [4] [5] [6] [7] [8] [9] [10] [11]) (з різним ступенем успіху) боролися з проблемою перевищення опори на p-значення (особливо = 0,05) протягом багатьох років, і було зроблено багато різних пропозицій - не з усіма з якими я згоден, але я включаю різноманітні погляди, щоб дати певне розуміння різних речей, які люди мали сказати .α

Деякі з них виступають за орієнтацію на довірчі інтервали, деякі виступають за розмір ефекту, деякі виступають за байєсівські методи, деякі менші p-значення, деякі просто уникають використання p-значень певними способами тощо. Існує багато різних поглядів на те, що робити замість цього, але між ними є багато матеріалу про проблеми з покладанням на p-значення, принаймні так, як це зазвичай робиться.

Дивіться ці посилання для багатьох подальших посилань по черзі. Це просто вибірка - можна знайти ще багато десятків посилань. Кілька авторів наводять причини, чому вони вважають, що р-значення переважають.

Деякі з цих посилань можуть бути корисними, якщо ви хочете сперечатися з редактором.

[1] Halsey LG, Curran-Everett D., Vowler SL & Drummond GB (2015),
"Нестабільне значення P генерує невідтворювані результати",
Nature Methods 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / journal / v12 / n3 / abs / nmeth.3288.html

[2] Девід Трафімов, Д. та Маркс, М. (2015),
Редакційна,
основна та прикладна соціальна психологія , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] Коен, Дж. (1990),
Що я навчився (поки що),
Американський психолог , 45 (12), 1304–1312.

[4] Коен, Дж. (1994),
Земля кругла (р <.05),
американський психолог , 49 (12), 997–1003.

[5] Вален Е. Джонсон (2013),
Переглянуті стандарти статистичних даних PNAS , т. 110, ні. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Крушке Ж.К. (2010),
у що вірити: Байєсові методи аналізу даних,
Тенденції когнітивних наук 14 (7), 293-300

[7] Ioannidis, J. (2005)
Чому більшість опублікованих досліджень є помилковими,
PLoS Med. Серпня; 2 (8): e124.
doi: 10.1371 / journal.pmed.0020124

[8] Гельман, А. (2013), P Значення та статистична практика,
Епідеміологія, Vol. 24 , № 1, січень, 69–72

[9] Гельман, А. (2013),
"Проблема з p-значеннями полягає в тому, як вони використовуються",
(Обговорення "На захист P-значень", Пол Мерта, Екологія ), неопублікований
http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublisher/murtaugh2.pdf

[10] Нуццо Р. (2014),
Статистичні помилки: значення P, «золотий стандарт» статистичної валідності, не такі надійні, як вважають багато вчених,
News and Comment,
Nature , Vol. 506 (13), 150-152

[11] Wagenmakers E, (2007)
Практичне рішення поширених проблем p значень,
Психономічний вісник та огляд 14 (5), 779-804


7
+1. Я читав цю статтю «Методи природи» [1] ще тиждень, і не впевнений, що мені це дуже подобається. Вони по суті стверджують, що значення p можуть бути дуже змінними в тестах з низькою потужністю (див. Також "танець p-значень" на youtube) - те, що, звичайно, є правдою і на цьому потрібно наголосити. Вони роблять висновок, що значення p є "поганим" (назва звучить досить суворо) і що люди повинні використовувати інтервали довіри, які є "хорошими". Але, звичайно, довірчі інтервали також дуже мінливі при низькій потужності! Ситуація на малюнку 6 (ліворуч) не виглядає для мене набагато кращою, ніж на малюнку 2.
Амеба каже: Відновити Моніку

2
@amoeba Я не скажу, що я з вами не згоден - там я дуже не згоден; проте є деякі моменти, які можуть бути корисними ОП. Власне, ти нагадав мені про зміну, яку я мав намір внести, але забув про неї.
Glen_b -Встановіть Моніку

3
Так, я все ж погоджуюся з потенційною корисністю - тим більше, що «Природоохоронні методи» є досить поважними, щоб люди могли бути переконані в її «авторитеті». Я прислухався до того, щоб хотіти застерегти ОП проти того, щоб все там було сприйнято як належне (їх математика в порядку, я говорю тут про висновки / тлумачення).
амеба каже, що поверніть Моніку

1
Також цікавим у цьому контексті є Вілкінсон та Спеціальна група зі статистичних виводів, Статистичні методи у журналах психології, Американський психолог , Вип. 54, № 8, 594-604, 1999.
А. Донді

Glen_b, я розмістив запитання про одну з незнайомих претензій у папері "Fickle P": stats.stackexchange.com/questions/250269 - дуже вдячний за ваше розуміння.
амеба каже, що відбудеться Моніка

10

Значення р, або, загалом, тестування значимості з нульовою гіпотезою (NHST), повільно тримає все менше і менше значення. Настільки, що його почали забороняти в журналах.

Більшість людей не розуміють, що насправді говорить нам p-значення і чому воно нам це говорить, хоча воно використовується скрізь.

П(Дані|Н0)П(Н0|Дані)

Н0Н0


1
Я додам, що P (H0 | дані) має значення лише тоді, коли H0 має сенс. Дослідження повинні бути розроблені та повідомлені таким чином, щоб виключити інші нецікаві пояснення результатів (упередженість, випади, базові відмінності) поза випадковістю. Крім того, навіть ідеально засліплений RCT із значним розміром ефекту говорить лише про те, що було помічено щось цікаве. Визначити, чи ви оцінювали те, що вас насправді хвилює, - це ще одна проблематика, яка часто зустрічається разом із одержимістю p-значення.
Ливид

8

Це те саме в інших дисциплінах? У чому причина одержимості p значеннями?

Грінвальд та ін. (1996) спроба вирішити це питання щодо психології. Що стосується також застосування NHST до базових відмінностей, то, мабуть, редактори вирішать (правильно чи неправильно) вирішити, що "несуттєві" базові відмінності не можуть пояснити результати, тоді як "значні" можуть пояснити результати. Це схоже на "Причину 1", запропоновану Greenwald та ін. :

Чому NHT залишається популярним?

"Чому НХТ не піддається критиці? За відсутності кращої відповіді, це спокуса приписувати наполегливість НХТ відсутності характеру вчених-поведінкових. Бажання поведінкових вчених відмовлятися від винного задоволення в отриманні можливо неправдивих відмови від гіпотези бути схожим на небажання пияка відмовлятися від звички коктейлю перед вечерею ... "

Причина I: HT забезпечує дихотомічний результат

"Через поширене прийняття конвенції, що p <0,05 означає" статистично значущим ", NHT може бути використаний для отримання дихотомічної відповіді (відхилити чи не відхиляти) на питання про нульову гіпотезу. Це часто можна вважати як корисна відповідь на теоретичні питання, які викладені з точки зору напряму прогнозування, а не з точки зору очікуваного значення параметра ... "

Причина 2: p Значення як змістовний загальномовний переклад для статистики тестів

"На відміну від усього, що можна сприймати так безпосередньо із значень t, F або r (із пов'язаним із ними df), міра здивування значення ap просто фіксується кількістю послідовних нулів праворуч від його десяткової крапки ..."

Причина 3: p Значення забезпечує міру впевненості "у застосуванні відхилень нульової гіпотези

"[U] не схожий на розмір ефекту (або довірчий інтервал), значення ap, що виникає в результаті NHT, монотонно пов'язане з оцінкою повторюваності ненульового знаходження. У цьому твердженні призначена копіюваність (яка формальніше визначена трохи нижче). лише в його НТТ-сенсі повторення висновку відхилення-неприйняття, а не в його оціночному сенсі близькості між точковими або інтервальними оцінками ".

Розміри ефектів та значення p: Що слід повідомити, а що слід повторити? ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS, AND DONALD GUTHRIE. Психофізіологія, 33 (1996). 175-183. Cambridge University Press. Друкується в США. Copyright O 1996 Товариство психофізіологічних досліджень


дякую за ці важливі коментарі, які я обов'язково використаю, щоб посперечатися з рецензентами наступного разу.
Адам Робінссон

6

Р-значення дають інформацію про відмінності між двома групами результатів ("лікування" проти "контролю", "А" проти "В" та ін.), Що вибірки з двох груп. Характер різниці формалізується у викладі гіпотез - наприклад, "середнє значення A більше, ніж середнє значення B". Низькі значення p свідчать про те, що відмінності не обумовлені випадковими варіаціями, тоді як високі значення p дозволяють розрізнити відмінності в двох вибірках від відмінностей, які можуть виникнути просто від випадкових змін. Те, що є "низьким" або "високим" для p-значення, історично було скоріше питанням конвенції та смаку, а не встановленим суворою логікою чи аналізом доказів.

Необхідною умовою використання p-значень є те, що дві групи результатів дійсно порівнянні, а саме, що єдине джерело різниці між ними пов'язане зі змінною, яку ви оцінюєте. Як перебільшений приклад, уявіть, що у вас є статистика щодо двох захворювань за два періоди часу: A: смертність від холери серед чоловіків у британських в'язницях 1920-1930 років та B: зараження малярією в Нігерії 1960-1970 років. Обчислити значення p з цих двох наборів даних було б досить абсурдно. Тепер, якщо А: смертність від холери серед чоловіків у британських в'язницях, які не лікуються проти В: смертність від холери серед чоловіків у британських в'язницях, які отримували повторну гідратацію, ви маєте підставу для ґрунтовної статистичної гіпотези.

Найчастіше це досягається за допомогою ретельного проекту експерименту, або ретельного проектування опитувань, або ретельного збору історичних даних тощо. Також відмінності між двома результатами повинні бути формалізовані в твердження гіпотез, що включають вибіркові статистичні дані - часто це вибіркові засоби, але також бути вибірковими відхиленнями або іншою вибірковою статистикою. Також можна створити твердження гіпотез, порівнюючи два вибіркові розподіли в цілому, використовуючи стохастичне домінування. Вони рідкісні.

Суперечка щодо р-значень зосереджується на тому, "що насправді важливо" для дослідження? Тут розміщуються ефекти розмірів. В основному розмір ефекту - це величина різниці між двома групами. Можливо мати високу статистичну значущість (низьке р-значення -> не через випадкові зміни), але і низький розмір ефекту (дуже невелика різниця у величині). Коли розміри ефектів дуже великі, то дозволяючи дещо високі значення p можуть бути в порядку.

Більшість дисциплін зараз дуже сильно рухається у напрямку донесення розмірів ефекту та зменшення або мінімізації ролі p-значень. Вони також заохочують більш описову статистику щодо вибіркових розподілів. Деякі підходи, включаючи Байєсівську статистику, разом усувають значення p.


Моя відповідь стисла і спрощена. Є багато статей на цю тему, з якими можна ознайомитися, щоб отримати детальнішу інформацію, виправдання та особливості, зокрема такі:


@MerMeritology дякую за надання цих важливих посилань. Я прочитаю їх якнайшвидше!
Адам Робінссон

6

"Тож миряни, як я, розраховують не знайти жодних значень p там, де немає гіпотези".

Очевидно, ОП говорить, що в конкретній таблиці, яку він подає, немає гіпотез, які супроводжують повідомлені р-значення. Тільки для усунення цієї невеликої плутанини, безумовно, є нульові гіпотези, але вони досить ... опосередковано згадуються (я вважаю, що стосується економії простору).

"Р-значення" - це умовна ймовірність, скажімо, для тесту "правого хвоста",

п-валП(Тт(S)Н0)=1-ЖТ|Н0(т(S)Н0)

ТЖТ|Н0(тН0)ТН0т(S)ТТН0ТН0Н0

Отже, p-значення навіть не може бути обчислене, якщо немає нульової гіпотези , і коли ми бачимо, що р-значення повідомляється, десь стоїть нульова гіпотеза.

У таблиці, представленій у прочитаному нами питанні

"Усі тести на відмінності в третілах WHR ..."

Нульова гіпотеза є "прихованою" у цій фразі: це "Немає різниці між третілами WHR", (як би не було "WΗR тертіл"), виражене в його математичній формі, яка тут, схоже, є різницею двох величин, встановлених рівними нуль.


Я згоден, за цим аналізом можуть стояти гіпотези. Однак ті, хто розробляє вказівки для науково-дослідних робіт (наприклад, заява STROBE), повинні звернути увагу на величину p значень. Я думаю, що значення ap має бути зарезервоване для основної гіпотези статті (яка рідко є однією). Але все-таки я не можу сказати, що я з вами не згоден =)
Адам Робінссон

1
@AdamRobinsson Хммм ... я не такий впевнений. Такий «зарезервований» підхід надував би (ще більше) те значення, яке має насправді тест p-значення для досягнення висновку. Для мене це лише ще один результат, який потрібно поєднувати з багатьма іншими аспектами, результатами, позабіржовою інформацією, логікою тощо. З іншого боку, якщо значення p розкидані всюди, це простіше зрозуміти, що вони не є певним критерієм для висновку.
Алекос Пападопулос

Алекос Я читав щось інше в таблиці, де йдеться про тертили WHR (тобто співвідношення талії та стегна), а не WRT, тоді як третілі - це значення, які ділять розподіл на 3 частини в тому ж сенсі, що квартілі - це значення, які діляться на 4 частини і децилів - на десять частин.
Glen_b -Встановіть Моніку

@Glen_b Дякую, це був просто друкарський помилок з мого боку. Виправлено це.
Алекос Пападопулос

2
Дивіться, наприклад, тут . Але, мабуть, не тут .
Glen_b -Встановіть Моніку

2

Мені стало цікаво і прочитав статтю, яку наводив ОП як приклад: ожиріння живота збільшує ризик перелому стегна . Я не є медичним дослідником і, як правило, не читаю лікарських робіт.

p

pp -значень, тому документ може містити десятки і десятки з них у головному тексті. Часом це насправді виглядає як "достаток". Цей підхід часто (іноді правильно, а іноді неправильно) критикується з різних причин, див. Відповідь від @Glen_b (+1) та подальші посилання.

ppp -значеннями.

p в цій роботі значень, мене дещо бентежить питання.

Здається, що питання конкретно стосується таких описових таблиць. Якщо так, то це якась дивна (але здебільшого нешкідлива?) Практика в медичних журналах, витримана завдяки традиції.


pн=43000


@amoeba Я вибрав статтю на rando; це була остання опублікована стаття з епідеміології в цьому журналі. Я впевнений, що якби я ще трохи шукав, я міг би надати статтю з набагато більш безглуздими значеннями p. Як ви вже помітили, існує p-valueitis, але з ваших, та інших відповідей вище та знизу, схоже, що дослідницьке співтовариство вирішує це.
Адам Робінссон

@Adam, мені подобається ваше запитання (+1) та відповідь Glen_b (+1), але якщо цей "випадково вибраний" папір є репрезентативним, то більшість пунктів, які Glen_b зробив, і більшість паперів, до яких він посилався, не застосовуються і не посилаються на ситуація в медичних дослідженнях, про які ви питали. Якщо вона не є репрезентативною, то я, звичайно, не можу судити.
Амеба каже: Відновити Моніку

Я справді неодноразово користувався вашими відповідями. Я робив судження, грунтуючись на розумінні цієї проблеми. Я вважаю, що всі надані відповіді корисні, і вони колективно відповідають на питання.
Адам Робінссон

1

Рівень статистичної рецензії не такий високий, як можна було б вважати з мого досвіду. Для всіх прикладних робіт, над якими я працював, всі статистичні коментарі надходили від експертів у прикладній галузі, а не від статистиків. Для «верхніх» журналів, хоча вони є більш уважними, вони не рідко бачать результати, які мають серйозні помилки. Я думаю, що це частково тому, що поле статистики може бути важким (як це видно з розбіжностей багатьох його великих розумів).

По-друге, читачі на місцях розраховують побачити речі певним чином. В одному з останніх досвіду я побудував ймовірності з моделі, але це було знято, тому що мій колега правильно здогадався, що його читачам буде зручніше, якщо ви знайдете невідкладні дані. Підсумовуючи, багато читачів очікують побачити р-значення поряд із таблицею базових характеристик.

Не пов'язане з вашим прямим запитанням, але, можливо, актуальним: значення p використовуються майже в кожному тексті, використовуючи часті методи чи ймовірність. Автори часто робили величезний внесок і глибоко замислювалися над статистикою. Хоча їх зловживають експерименталісти, вони, безумовно, мають місце в статистиці.


дякую за цей коментар Я міг би взяти вашу заяву ще далі; Я думаю, що неймовірно велика частка опублікованих висновків містить статистичні вади з різних причин. Мій керівник часто каже, що "процес перегляду ґрунтується на слові джентльменів" Я думаю, що це досить смішно.
Адам Робінссон

1

Мені доводиться часто читати медичні статті, і я відчуваю, що маятник, здається, хитається з однієї крайності в іншу, а не залишається в центральній збалансованій зоні.

Наступний підхід, здається, працює добре. Якщо значення Р невелике, спостережувана різниця навряд чи буде випадковою. Отже, ми повинні подивитися на величину різниці і вирішити, чи вона має будь-яке практичне значення. Дуже малі значення Р мають місце при великих розмірах вибірки, навіть при дуже малих відмінностях, які можуть не мати практичного значення.

Якщо не включити значення P у таблицю базових даних, це може бути невигідним. Тож якщо у дослідженні є дві групи із середнім віком - 54 та 59 років, я хочу знати, чи може ця різниця бути випадковою. Якщо Р невеликий, то я думаю, чи може ця 5-річна різниця у двох групах вплинути на результати дослідження. Якщо Р не малий, мені не доведеться вирішувати це питання.

Проблема виникає, якщо людина покладається виключно на значення P, а не перевіряє величину різниці (наприклад, проста зміна відсотків). Деякі вважають, що значення P слід повністю опустити, щоб залишалася і бачилася лише різниця. Врівноваженим рішенням було б наголосити на оцінці обох, а не просто викидати значення Р, яке має обмежене, але "значуще" значення. Розмір ефекту також, можливо, тісно співвідноситься зі значенням P (як і довірчі інтервали), і навряд чи повністю витіснить значення P із статистичного ландшафту. Як уже згадувалося в наступній статті, існує багато достоїнств тестування гіпотез, з-за яких вона залишається популярною:

ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS, AND DONALD GUTHRIE Розміри ефектів та значення p: Що слід повідомити, а що слід повторити? Психофізіологія, 33 (1996). 175-183.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.