Чи точне значення 'p-значення' безглуздо?


31

Я мав дискусію зі статистиком ще в 2009 році, де він заявив, що точне значення р-значення не має значення: важливо лише те, чи є воно важливим чи ні. Тобто один результат не може бути більш значущим, ніж інший; наприклад, ваші зразки походять або з однієї популяції, або ні.

У мене є деякі труднощі з цим, але, можливо, я можу зрозуміти ідеологію:

  1. Поріг 5% є довільним, тобто p = 0,051 не є значущим і p = 0,049 є, не повинен насправді змінювати висновок вашого спостереження чи експерименту, незважаючи на те, що один результат є значущим, а інший - незначним.

    Причиною цього я зараз є те, що я навчаюсь на магістр біоінформатики, і після розмови з людьми в цій галузі, здається, є рішучий потяг отримати точне значення p для кожного набору статистичних даних, які вони роблять. Наприклад, якщо вони 'досягають' р-значення p <1,9 × 10 -12 , вони хочуть продемонструвати, ЯКІ ВІДПОВІДНІ їх результати, і що цей результат є СУПЕР інформативним. Це питання на прикладі таких питань, як: Чому я не можу отримати значення p менше 2,2e-16? , завдяки чому вони хочуть записати значення, яке вказує на те, що лише випадково це було б набагато менше 1 на трильйон. Але я бачу невелику різницю в тому, щоб продемонструвати, що цей результат відбудеться менше 1 на трильйон, а не 1 на мільярд.

  2. Тоді я можу оцінити, що р <0,01 показує, що існує менше 1% шансів на те, що це відбудеться, тоді як р <0,001 вказує на те, що такий результат є навіть більш неправдоподібним, ніж згадане вище значення p, але якщо ваші висновки мають бути повністю інший? Адже вони обидва значущих p-значень. Єдиний спосіб я можу побажати записати точне р-значення - це під час корекції Бонферроні, внаслідок чого поріг змінюється через кількість проведених порівнянь, тим самим зменшуючи помилку I типу. Але навіть все-таки, чому ви хочете показати значення р, яке на 12 порядків менше, ніж ваша порогова значущість?

  3. І чи не застосовується корекція Бонферроні сама по собі трохи довільно? У тому сенсі, що спочатку виправлення вважається дуже консервативним, і тому є інші виправлення, які можна вибрати для доступу до рівня значущості, який спостерігач міг би використати для своїх численних порівнянь. Але через це не той момент, коли щось стає суттєво змінним залежно від того, яку статистику дослідник хоче використовувати. Чи повинна статистика така відкрита для тлумачення?

На закінчення, чи не повинна стати статистика менш суб’єктивною (хоча, мабуть, необхідність її суб'єктивності є наслідком багатоваріантної системи), але, врешті-решт, я хочу уточнити: чи може щось бути більш значущим, ніж щось інше? І чи буде p <0,001 достатньо стосовно спроби записати точне p-значення?


6
Це досить цікаво: stat.washington.edu/peter/342/nuzzo.pdf
Dan

4
Мало пов'язане: У своїй відповіді на питання, коли використовувати рамку Фішера та Неймана-Пірсона , я стверджую, що для кожної структури є роль. Дотримуючись там мою позицію, я б сказав, що точні значення p не матимуть значення в рамках NP, але вони можуть мати фішерський каркас (наскільки ця цифра, про яку повідомляється, насправді є надійною).
gung - Відновіть Моніку

Дивовижно, наскільки деякі статистики хочуть дотримуватися концепції p-значення, коли це, як правило, правильна відповідь на неправильне запитання. Припустимо, p-значення не були реалізовані в жодному пакеті програм статистики. Сумніваюся, що люди писали б свій власний код, щоб отримати його.
ймовірність

3
@probabilityislogic - вирізавши свої статистичні зуби на тестах на перестановку, p-значення - це дуже природний спосіб думати в такому випадку, тому я можу просто написати власний код, щоб отримати їх, якби вони не були ... а насправді на дуже рідкісні випадки, коли я взагалі роблю тести, вони, як правило, для якоїсь нетипової ситуації, що вимагає моделювання або певної форми переутворення, я виявив, що насправді це так роблять. Я схиляюся натомість сказати, що тести гіпотез зазвичай відповідають неправильним запитанням. У рідкісних випадках, які вони роблять, я думаю, що вони мають цінність (щонайменше, інші люди не пов'язані моїм рівнем значимості).
Glen_b -Встановіть Моніку

@glen_b - моя проблема із значеннями p полягає в тому, що вони не дають "відповіді" на тест гіпотези самостійно, оскільки вони ігнорують альтернативи. Якщо ви обмежені лише одним числом, то значення ймовірності даних є набагато кращою статистикою, ніж значення p (а також мати ті ж проблеми, що і p). Таким чином, людей не обмежує ваш вибір тестової статистики (крім того, що вони не обмежуються вашим порогом значущості).
ймовірністьіслогічного

Відповіді:


24
  1. Швидкість помилки відхилення типу 1 / помилкового відхилення не є абсолютно довільною, але так, вона близька. Це дещо краще, ніж α = .051, оскільки він менш когнітивно складний ( людям подобаються круглі числа і кратні п'ять ). Це гідний компроміс між скептицизмом та практичністю, хоча, можливо, трохи застарілим - сучасні методи та ресурси дослідження можуть зробити більш високими стандарти (тобто нижчі значення p ), якщо стандарти повинні бути ( Johnson, 2013 ) .α=.05α=.051p

    ІМО, більша проблема, ніж вибір порогу, - це часто не вивчений вибір використання порогу, коли це не потрібно чи корисно. У ситуаціях, коли потрібно зробити практичний вибір, я бачу цінність, але багато основних досліджень не потребують рішення про відхилення доказів і відмову від можливості відхилити нуль лише тому, що докази даного зразка проти нього не вистачають. майже будь-якого розумного порогу. І все-таки значна частина авторів цього дослідження відчуває зобов'язання зробити це умовно і протистояти цьому незручно, придумуючи такі терміни, як "граничне" значення, щоб просити уваги, коли вони можуть відчути, що воно вислизає, оскільки їх аудиторії часто не піклуються про s . 05 .p.05pінтерпретація значень, ви побачите безліч розбіжностей щодо інтерпретації значень бінарними / рішеннями щодо нуля.pfail toreject

  2. Зовсім інше - ні. Значно інше - можливо. Однією з причин показувати смішно мале значення є вказівка ​​інформації про розмір ефекту. Звичайно, просто розмір ефекту звітності буде набагато кращим з кількох технічних причин, але автори часто не розглядають цю альтернативу, і аудиторії, можливо, менш знайомі з нею. У нульово-гіпотетичному світі, де ніхто не знає, як повідомляти про розміри ефекту, найчастіше можна мати рацію, здогадуючись, що менший p означає більший ефект. Якою б мірою цей нульово-гіпотетичний світ був ближчий до реальності, ніж протилежний, можливо, є якась цінність у повідомленні точних p s цієї причини. Будь ласка, зрозумійте, що ця суть є чистою пропагандою диявола ...ppp

    Ще одне застосування точних з , що я дізнався, беручи участь в дуже схожому дискусії тут як індекси функцій правдоподібності. Дивіться коментарі та статтю Майкла Лева ( Lew, 2013 ), пов’язані у моїй відповіді на " Приміщення закріплених поглядів p-значень ".p

  3. Я не думаю, що корекція Бонферроні насправді є таким самим видом. Він виправляє поріг, який, на мою думку, ми погоджуємось, принаймні близький до цілком довільного, тому він не втрачає жодної з цієї основної довільності, але я не думаю, що це додає до рівняння нічого довільного. Виправлення визначено логічним, прагматичним способом, і для незначних змін до більших чи менших виправлень, здається, потрібні досить складні аргументи, щоб виправдати їх як більше, ніж довільні, тоді як я думаю, було б легше аргументувати коригування не маючи подолати будь-яку глибоко привабливу, але просту логіку в ній.α

    Якщо що, я думаю, що значення повинні бути більш відкритими для тлумачення! Тобто, чи дійсно нуль корисніший за альтернативу, має залежати більше, ніж просто докази проти нього, включаючи витрати на отримання більшої інформації та додаткову додаткову цінність більш точних знань, отриманих таким чином. Це, по суті, фішарська ідея без порогових даних, яка, як почалося, AFAIK. Див. " Щодо p-значень, чому 1% та 5%? Чому б не 6% чи 10%? "p

fail torejectp-цінні звіти? (а чому R ставить мінімум на 2.22e-16?) "- це набагато краще, ніж відповіді на версію цього питання, яку ви пов’язали на Stack Overflow!

Список літератури
- Johnson, VE (2013). Переглянуті стандарти статистичних даних. Праці Національної академії наук, 110 (48), 19313–19317. Отримано з http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). До P чи ні до P: Про доказовий характер P-значень та їх місце в науковому висновку. arXiv: 1311.0081 [стат.МЕ]. Отримано з http://arxiv.org/abs/1311.0081 .


3
+1, тут багато хороших думок. 1 quibble, проте, №1, я б сказав, що нам часто слід мати нижчі стандарти (тобто, більші p-значення) як кращі. Часто важко отримати достатньо даних, щоб мати гарну силу, щоб щось вивчити. Я провів ряд аналізів потужності для лікарів, які хочуть вивчити рідкісний стан. Вони кажуть: "це справді недостатньо вивчено. У мене є ідея щодо нового підходу; ми, мабуть, можемо отримати 50 пацієнтів з / за цього протягом наступних двох років", і я кажу "ваша потужність буде 45%", і проект: занедбаний. Рідкісні захворювання залишатимуться недостатньо вивченими, якщо p має бути 0,05 або менше.
gung - Відновіть Моніку

2
@gung: Я повністю згоден. Я цитував Джонсона (2013) лише тому, що я знав його аргумент, а не тому, що я з цим погоджуюся :) IMO, маючи один звичайний стандарт, який є негнучким і нечутливим до питань, які ви описуєте (що повторюється моєю точкою у другому абзаці мого відповідь на №3) є однією з основних проблем, і коригування її вгору або вниз не вирішить. Коли немає реальної потреби у жорсткому fail to/ швидкому / rejectрішенні, я думаю, що набагато краще зробити судження про те, наскільки цінні докази ґрунтуються на набагато більше, ніж на ймовірності вибірки з урахуванням нуля.
Нік Стаунер

4
Відмінна дискусія. Цікавою статтею, яка має певну актуальність, є Гельман та Стерн . Різниця між "значущим" та "несуттєвим" сама по собі не є статистично значимою (пізніше опублікована в American Statistician, 2006), яка, я б не сказав, характеризує значення p як обов'язково безглуздо, але все-таки слід викликати сильну ноту обережності щодо того, щоб робити великий акцент на порівнянні p-значень (а не оцінок ефекту, скажімо). Гельман часто обговорював питання, пов'язані з цим, у своєму блозі.
Glen_b -Встановіть Моніку

2
Для 2 я думаю, що слід підкреслити це p values should NOT be used as measures of association or effect. A desirable property of an inferential test is consistency, that is as sample size goes to infinity, the power of the test goes to 1, or p values go to 0. So p values should not be used to describe the effect/association.
bdeonovic

2
It seems Gelman provides a link to the pdf of the published paper on his site also.
Glen_b -Reinstate Monica

13

It seems to me that, if a value is meaningful, its exact value is meaningful.

The p value answers this question:

Якщо в популяції, з якої цей зразок був виведений випадковим чином, нульова гіпотеза була вірною, яка ймовірність отримати тестову статистику принаймні такою ж крайньою, як та, яку ми отримали у вибірці?

Що з цього визначення робить безглузде точне значення?

Це інше питання, ніж питання про екстремальні значення p. Проблема з твердженнями, що включають p з багатьма 0, полягає в тому, наскільки добре ми можемо оцінити p в крайностях. Оскільки ми не можемо зробити це дуже добре, немає сенсу використовувати такі точні оцінки p. Це та сама причина, по якій ми не говоримо, що p = 0,0319281010012981. Ми не знаємо цих останніх цифр з упевненістю.

Чи повинні наші висновки відрізнятися, якщо p <0,001, а не p <0,05? Або, якщо використовувати точні числа, чи повинні наші висновки відрізнятися, якщо p = 0,00023, а не p = 0,035?

I think the problem is with how we typically conclude things about p. We say "significant" or "not significant" based on some arbitrary level. If we use these arbitrary levels, then, yes, our conclusions will be different. But this is not how we should be thinking about these things. We should be looking at the weight of evidence and statistical tests are only part of that evidence. I will (once again) plug Robert Abelson's "MAGIC criteria":

Magnitude - how big is the effect?

Articulation - how precisely is it stated? Are there lots of exceptions?

Generality - to what group does it apply?

Interestingness - will people care?

Credibility - does it make sense?

It is the combination of all of these that matters. Note that Abelson doesn't mention p values at all, although they do come in as a sort of hybrid of magnitude and articulation.


5
We don't often say it, but technically the p-value is only reflecting something about the "probability of getting a test statistic at least as extreme as the one we got in the sample" if the null hypothesis is true, our sample estimate of the population variance is perfectly accurate, and we meet all of the other assumptions of our test. Throw some confidence intervals around some p-values via bootstrapping and I think you'll see that frequently we aren't all that confident about the hundredths place either.
russellpierce

2
In short, it is such a convoluted counter-factual that attempting to quantify a p-value is counter productive when we really should (as you imply) get back to the MAGIC.
russellpierce

I have to admit, I hadn't thought of putting confidence intervals (or credibility intervals) around p values. I wonder how much has been done in this area?
Peter Flom - Reinstate Monica

2
I don't have a citation handy, but I know there is work along those lines - regardless, it is an academic thing to do because you can make confidence intervals of your confidence intervals of your confidence intervals nearly ad infinitum (there is a maximum variance that is reasonably estimated from any set of data). I had a rather long and detailed conversation along these lines with @Nick Stauner once upon a time. He may still have some the articles he dug up during that conversation to bring to the table.
russellpierce

1
Nothing on confidence intervals for p values that I recall, but I might've skimmed over those sections. I wasn't interested in making confidence intervals for p values either ;)
Nick Stauner
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.