Чому результати 0,05 <p <0,95 називають помилковими позитивами?

Редагувати: Основа мого запитання недосконала, і мені потрібно витратити деякий час на з'ясування того, чи це навіть може мати сенс.

Редагування 2: Уточнення того, що я визнаю, що значення p не є прямим показником ймовірності нульової гіпотези, але я вважаю, що чим ближче значення p до 1, тим більше шансів на те, що гіпотеза має було обрано для експериментального тестування, відповідна нульова гіпотеза якого відповідає дійсності, хоча чим ближче значення р до 0, тим більше ймовірність, що для експериментального тестування була обрана гіпотеза, відповідна нульова гіпотеза якої помилкова. Я не бачу, як це помилково, якщо сукупність усіх гіпотез (або всіх гіпотез, підібраних для експериментів) є якимось патологічним.

Редагувати 3: Я думаю, що я все ще не використовую чітку термінологію для того, щоб поставити своє запитання. Коли номери лотереї зачитуються, і ви порівнюєте їх з вашим квитком по одному, щось змінюється. Імовірність того, що ви виграли, не змінюється, але ймовірність того, що ви можете вимкнути радіо, все ж таки є. Існує аналогічна зміна, яка відбувається, коли проводяться експерименти, але у мене є відчуття, що термінологія, яку я використовую - "значення p змінюють ймовірність того, що була обрана справжня гіпотеза" - не є правильною термінологією.

Редагувати 4: Я отримав дві надзвичайно детальні та інформативні відповіді, які містять безліч інформації, яку я можу опрацювати. Я проголосую за них обидва зараз, а потім повернусь, щоб прийняти один, коли я дізнався достатньо з обох відповідей, щоб знати, що вони відповіли або визнали недійсним моє питання. Це питання відкрило набагато більшу банку глистів, ніж ту, яку я очікував їсти.

У прочитаних статтях я бачив результати з p> 0,05 після перевірки під назвою "помилкові позитиви". Однак чи не все-таки більш імовірно, що я вибрав гіпотезу для тестування з хибною відповідною нульовою гіпотезою, коли експериментальні дані мають ap ~~<0,50,~~ що є низьким, але> 0,05, і не є одночасно нульовою гіпотезою та гіпотеза дослідження статистично невизначена / незначна (з огляду на загальноприйняте обмеження статистичної значущості) десь між 0,05 <p < ~~0,95,~~ незалежно від інверсії p <0,05, враховуючи асиметрію, вказану у посиланні @ NickStauner ?

Давайте назвемо це число А та визначимо його як значення р, яке говорить те саме про ймовірність того, що ви вибрали справжню нульову гіпотезу для свого експерименту / аналізу, що р-значення 0,05 говорить про ймовірність того, що ви ' Ви вибрали справжню ненульову гіпотезу для свого експерименту / аналізу. Не 0,05 <p <Просто скажіть: "Ваш розмір вибірки не був достатньо великим, щоб відповісти на питання, і ви не зможете судити про застосування / реальне значення, поки ви не отримаєте більшу вибірку та отримаєте статистичну інформацію значення розібрали "?

Іншими словами, чи не слід правильно називати результат неправдивим (а не просто непідтримуваним) тоді і лише тоді, коли p> A?

Мені це здається просто, але таке поширене використання говорить про те, що я можу помилитися. Я:

а) неправильно тлумачити математику;
б) скаржитися на нешкідливу, якщо не зовсім правильну конвенцію;
в) повністю правильну чи
г) іншу?

Я усвідомлюю, що це звучить як заклик до думок, але це здається питанням із певною математично правильною відповіддю (як тільки буде встановлено значне відключення), що або я, або (майже) всі інші помиляються.

hypothesis-testing p-value

— Ендрю Клаассен
джерело

Привіт, Девіде. Ось папір, який змусив мене задуматися: посилання

— Ендрю Клаассен

Чи не ви маєте на увазі першого рядка писати "... результати спочатку з але згодом з після перевірки ..."? Результат з більший за поріг інакше називається негативним результатом. Навіть після редагування ваша характеристика інтерпретації невірна, тому я хочу запропонувати вам кілька моментів переглянути деякі наші повідомлення про інтерпретацію p-значень та переглянути, що ви хочете запитати.

p < 0.05

$p\lt 0.05$

p \geq 0.05

$p\ge 0.05$

p

$p$

α

$\alpha$

p

$p$

— whuber

Ви можете видалити своє запитання, якщо ви хочете, але оскільки ви отримали два оновлення (о чорт, давайте зробимо це 3), обґрунтовану відповідь, і ось-ось отримаєте ще одну відповідь від "ваша справді", я прошу вас залишити її активний і працюй над ним так, як вважаєш за потрібне, хоча я з повагою відстоюю твоє право робити так, як ти хочеш. Ура!

— Нік Стаунер

Я погоджуюся з @Nick, Ендрю: у вас тут є зухвалий і провокаційний питання, який привернув певну думку та увагу, тому ми будемо вам дуже вдячні, якщо ви продовжите це публікувати, і, якщо зможете, трохи уточнити його, щоб зосередитись на ключове питання щодо інтерпретації p-значень. Нове, з чого я можу сказати, - це припущення, що критерій відхилення повинен базуватися на великій p-величині. Повторіть свій коментар: хибний позитив виникає, коли тест є вагомим, але відомо, що нульова гіпотеза є вірною.

— whuber

@whuber: Більш переконливий фоновий фокус для мене полягає в тому, який результат може припустити, що подальший експеримент з більшим розміром вибірки, ймовірно, буде результативним. З огляду на поки що відповіді, мабуть, мені потрібно запитати, чи можуть р-значення навіть бути пов’язані з цим питанням. Знаючи, що нульова гіпотеза є істинною як міра хибного додатного: Коли можна сказати, що нульова гіпотеза є істинною поза ситуацією p> (1 - α)?

— Ендрю Клаассен

Відповіді:

Ваше запитання ґрунтується на помилковій передумові:

не є нульовою гіпотезою все ж більш імовірно, ніж не помилятися, коли р <0,50

Значення р не є ймовірністю того, що нульова гіпотеза відповідає дійсності. Наприклад, якщо ви взяли тисячу випадків, коли нульова гіпотеза правдива, половина з них буде p < .5. Ті , половина все буде нульовим.

Дійсно, ідея, що p > .95означає, що нульова гіпотеза є "ймовірно, правдою", є однаковою оманливою. Якщо нульова гіпотеза вірна, то ймовірність p > .95точно така ж, як імовірність цього p < .05.

ETA: З вашого редагування стає зрозумілішим, у чому полягає проблема: у вас все ще є проблема вище (що ви розглядаєте p-значення як задню ймовірність, коли його немає). Важливо зазначити, що це не тонка філософська відмінність (як я вважаю, ви маєте на увазі під час обговорення лотерейних квитків): це має величезні практичні наслідки для будь-якої інтерпретації p-цінностей.

Але є трансформація, яку ви можете виконати на p-значеннях, які приведуть вас до того, що ви шукаєте, і це називається локальною швидкістю виявлення помилок. (Як описано в цій хорошій роботі , це частофілістський еквівалент "задньої помилки ймовірності", тому подумайте про це так, якщо вам подобається).

Давайте попрацюємо з конкретним прикладом. Скажімо, ви проводите t-тест, щоб визначити, чи має вибірка з 10 чисел (від звичайного розподілу) середнє значення 0 (одновибірна, двостороння t-проба). Спочатку давайте подивимося, як виглядає розподіл p-значень, коли середнє фактично дорівнює нулю, з коротким моделюванням R:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

введіть тут опис зображення

Як ми бачимо, нульові p-значення мають рівномірний розподіл (однаково вірогідний у всіх точках між 0 і 1). Це необхідна умова p-значень: дійсно, саме те, що означає p-значення! (Враховуючи, що нуль відповідає дійсності, існує 5% шансів, що він менший, ніж .05, 10% шансів, що він менший, ніж .1 ...)

Тепер розглянемо альтернативні гіпотези - випадки, коли нуль помилковий. Тепер це трохи складніше: коли нуль помилковий, "наскільки хибний"? Середнє значення для вибірки не дорівнює 0, але це .5? 1? 10? Чи змінюється вона випадковим чином, іноді невелика, а іноді велика? Для простоти скажімо, що він завжди дорівнює .5 (але пам’ятайте, що це ускладнення, це буде важливо пізніше):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

введіть тут опис зображення

Зауважте, що зараз розподіл не є рівномірним: він зміщений до 0! У своєму коментарі ви згадуєте про "асиметрію", яка дає інформацію: це та сама асиметрія.

Тож уявіть, що ви знали обидва ці дистрибуції, але ви працюєте з новим експериментом, і ви також маєте попереднє, що існує 50% шансів, що це недійсне, а 50% - що це альтернатива. Ви отримуєте р-значення .7. Як можна отримати від цього і р-значення ймовірність?

Що вам слід зробити, це порівняти щільність :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

І подивіться на ваше p-значення:

abline(v=.7, col="red", lty=2)

введіть тут опис зображення

Це співвідношення між нульовою щільністю та альтернативною щільністю може бути використане для обчислення локальної швидкості виявлення помилок : чим вище нуль відносно альтернативи, тим вище локальний FDR. Це ймовірність того, що гіпотеза є недійсною (технічно вона має суворішу частофілістську інтерпретацію, але ми будемо тут простою). Якщо це значення дуже високе, то можна зробити інтерпретацію "нульова гіпотеза майже напевно вірна". Дійсно, ви можете встановити порог .05 та .95 для місцевого FDR: це буде властивості, які ви шукаєте. (Оскільки локальний FDR монотонно зростає з р-значенням, принаймні, якщо ви робите це правильно, вони переведуть на деякі пороги A і B, де ви можете сказати "

Тепер я вже чую, як ви запитуєте "тоді чому б ми не використали це замість p-значень?" Дві причини:

Потрібно визначитися з попередньою ймовірністю того, що тест є нульовим
Потрібно знати щільність за альтернативою. Це дуже важко здогадатися, адже вам потрібно визначити, наскільки великі можуть бути розміри та відхилення ефекту , і наскільки вони часто такі!

Для тесту р-значення вам не потрібен жоден із них, а тест р-значення все ще дозволяє уникнути помилкових позитивних результатів (що є його основною метою). Тепер, це можна оцінити як з цих значень в декількох тестах гіпотези, коли у вас є тисячі р-значення (наприклад, один тест для кожного з тисяч генів: см цього документа або цей документ , наприклад), але не тоді , коли ти робимо єдиний тест.

Нарешті, ви можете сказати: "Чи не все-таки в документі неправильно сказати реплікацію, яка призводить до значення р вище .05 - це обов'язково хибний позитив?" Хоча це правда, що отримання одного p-значення .04 та іншого p-значення .06 насправді не означає, що початковий результат був неправильним, на практиці це розумна метрика. Але в будь-якому випадку, ви можете бути раді дізнатися, що інші сумніваються в цьому! Документ, на який ви посилаєтесь, є статистично дещо суперечливим: цей документ використовує інший метод і приходить до зовсім іншого висновку щодо p-значень медичних досліджень, а потім це дослідження піддавали критиці деякими видатними байєсами (і все навколо ...). Отже, хоча ваше запитання базується на дефектних припущеннях щодо p-значень, я думаю, що він вивчає цікаве припущення з тієї статті, яку ви цитуєте.

— Девід Робінсон
джерело

Привіт, Девіде. Справедлива точка. Я буду працювати над переформулюванням свого питання, щоб не зрозуміти цю частину неправильно, і перевірте, чи я все-таки бачу проблему.

— Ендрю Клаассен

@David_Robinson: Чи було б правильним використовувати значення p як показник помилкової тривоги в правилі Байєса і чи зможеш зробити висновки про ймовірність дослідження та / або нульових гіпотез із цього? Встановити до 50% і грати швидко і вільно звідти? :-)

— Ендрю Клаассен

Так, захоплююче! Чи можете ви це зробити у своїй відповіді? Але є асиметрія між тим, як р поводиться, коли нуль є істинним, проти, коли це неправда, що ~ повинен дати деяку інформацію про ймовірність того, що нульова гіпотеза відповідає дійсності на основі р-значення, вилученого з даних. Якщо справжня нульова гіпотеза створює рівномірно розподілені p-значення, а справжня ненулева гіпотеза виробляє p-значення, котрі перекошені до 0, витягуючи ap = 0,01 мармур ~ повинен ~ підказувати, що ви, швидше за все, вибрали не -незначна банка експериментів, навіть якщо ймовірність не змінюється, виконуючи експеримент.

— Ендрю Клаассен

@AndrewKlaassen: Можливо, вас зацікавить концепція "локальної швидкості виявлення помилок". Це частістський еквівалент байєсівської задньої ймовірності того, що нуль відповідає дійсності. Це вимагає двох речей: а) попередня ймовірність того, що нуль є істинним (іноді його називають pi0), і b) оцінка щільності альтернативної гіпотези. Під час тестування декількох гіпотез (якщо у вас було тисячі p-значень) можна оцінити обидва ці дані, поглянувши на щільність. Якщо у мене є трохи більше часу, я можу створити більш глибоке пояснення своєї відповіді.

— Девід Робінсон

@AndrewKlaassen: Дивіться мою редагування, де я детально пояснюю локальний FDR, чому це спосіб обчислити значення "A" (хоча ви можете змінити .05 під час обчислення A), а також чому воно рідко використовується . У будь-якому випадку, щоб уточнити один момент, який насправді не відповідає відповіді: ваш приклад з лотерейним квитком неправильно розуміє те, що я та інші домовились. Ми не зациклювалися на ідеї "змінити ймовірності новою інформацією" (і байєси, і лікарі часто трактують це): справа лише в тому, що ти не змінив їх правильним шляхом!

— Девід Робінсон

^{Наведіть курсор миші на будь-який тег( - це підроблений тег), що відображається нижче, щоб побачити короткий уривок його вікі. Пробачте, будь ласка, порушення міжрядкових інтервалів. Мені здається, що уривки з тегів можуть допомогти читачам перевірити розуміння жаргону під час читання. Деякі з цих уривків також можуть заслуговувати редагування, тому вони також заслуговують на публіцист, ІМХО. $\leftarrow$}

$p>.05$ зазвичай означає, що не слід відкидатинульова гіпотеза. І навпаки,type-i-помилкиабо помилкові позитиви виникають, коли відхилити нуль черезвідбір проб помилка чи інший незвичайний випадок, який спричиняє зразокщо в іншому випадку малоймовірно (як правило, з ), було відібрано випадково з а $p<.05$ населенняв якому нуль істинний. Результат з який називається помилковим додатним, здається, відображає нерозуміння нульової гіпотези $p>.05$ тест на значимістьing (NHST). Нерозуміння не є рідкістю у опублікованій дослідницькій літературі, оскільки NHST є, як відомо, протиінтуїтивно зрозумілим. Це один із гучних вигуківбайєсівськийвторгнення (яке я підтримую, але не слідую… поки). Я працював із помилковими враженнями, такими як ці, до недавнього часу, тому симпатизую найщиріше.

@DavidRobinson є правильним, зауважуючи, що - не ймовірність того, що нуль виявиться помилковим $p$ частолістNHST. Це (принаймні) один з Гудмана ⁽²⁰⁰⁸⁾ «Брудна Дюжина» неправильні уявлення про значень $p$ ^{(також див Hurlbert & Lombardi 2009 )} . У NHST - це $p$ ймовірність що можна було б намалювати будь-які майбутні випадкові вибірки тими самими засобами, які виявляли б співвідношення чи різницю (чи будь-яку іншу) ефект-розміртестується на нульове значення, якщо існують інші різновиди ефекту розміру ...?) принаймні настільки ж відмінний від нульової гіпотези, як вибірки (ів) з тієї ж популяції (груп), яку випробував, щоб досягти заданого значення , якщо нуль вірно. Тобто - ймовірність отримання вибірки, такої як ваша, з урахуванням нуля ; це не відображає ймовірності нуля - принаймні, не безпосередньо. І навпаки, байєсівські методи пишаються тим, що вони формулюють статистичні аналізи, орієнтовані на оцінку доказів за чи проти $p$ $p$ доТеорія ефекту з урахуванням даних , які, як вони стверджують, є більш інтуїтивно привабливим підходом ^{( Wagenmakers, 2007 )} , серед інших переваг, і ^{усунення} дискусійних недоліків. (Справедливо кажучи, див. " Які мінуси байєсівського аналізу? " Ви також прокоментували цитування статей, які можуть запропонувати там гарні відповіді: ^{Moyé, 2008; Hurlbert & Lombardi, 2009. )}

Можна стверджувати, що нульова гіпотеза, як це було дослівно викладено, часто швидше, ніж не помиляється, оскільки нульові гіпотези - це найчастіше, буквально гіпотези нульового ефекту. (Деякі зручні зустрічні приклади див. Відповіді на тему : " Чи великі набори даних не підходять для тестування гіпотез? ") Філософські питання, такі як ефект метелика, загрожують буквальномутермін діїбудь-якої такої гіпотези; отже, нуль корисний як правило як основа порівняння для альтернативної гіпотези деякого ненульового ефекту. Така альтернативна гіпотеза може залишатися більш правдоподібною, ніж нульова після збирання даних, які були б малоймовірними, якби нуль був правдивим . Отже, дослідники зазвичай знаходять підтримку альтернативної гіпотези із доказів проти нуля, але це не те, щор-значеннякількісно визначити безпосередньо ^{( Wagenmakers, 2007 )} .

Як ви підозрюєте, статистичне значення є функцією обсяг вибірки, а також розмір ефекту та консистенцію. (Див @ відповідь Гун на недавній питання, « Як може т-тест статистично значущими , якщо середня різниця майже 0? ») Питання , які ми часто маємо намір просити наших даних є: «Що таке ефект xна y? " З різних причин (включаючи ІМО, помилкові уявлення та інакше дефіцитні освітні програми в статистиці, особливо як викладають нестатисти), ми часто опиняємось замість того, щоб буквально задати невірно пов'язане питання: "Яка ймовірність вибірки даних, таких як моя, випадково від населення, на яке xце не впливає y? " Це суттєва різниця між оцінкою розміру ефекту та тестуванням значимості відповідно. А $p$ Значення відповідає лише на останнє питання безпосередньо, але декілька професіоналів (@rpierce, певно, можуть дати вам кращий список, ніж я; вибачте, я затягнув вас у це!) стверджували, що дослідники неправильно читали як відповідь на колишнє питання про розмір ефекту всіх надто часто; Боюся, що я повинен погодитися. $p$

Для більш прямого відповіді щодо значення , це ймовірність вибірки даних випадковим чином із популяції, нуль якої є правдою, але це виявляє співвідношення чи різницю, що відрізняється від того, яке описує нуль буквально принаймні настільки ж широкий і послідовний запас, як це роблять ваші дані ... <вдих> ... становить від 5 до 95%. Можна, звичайно, стверджувати, що це є наслідком розміру вибірки, оскільки збільшення розміру вибірки покращує здатність виявляти невеликі та непослідовні розміри ефектів та відрізняти їх від нульового, скажімо, нульового ефекту з достовірністю понад 5%. Однак малі та непослідовні розміри ефектів можуть бути або не бути значними прагматично ( статистично значущими) $.05<p<.95$ $\ne$ - ще один брудний десяток Гудмена (2008); це значно більше залежить від значення даних, статистичне значення яких стосується лише обмеженої міри. Дивіться мою відповідь на вищесказане .

Чи не слід правильно називати результат безумовно помилковим (а не просто непідтримуваним), якщо ... p> 0,95?

Оскільки дані зазвичай мають представляти емпірично фактичні спостереження, вони не повинні бути помилковими; тільки умовиводи щодо них повинні стикатися з цим ризиком в ідеалі. (Помилка вимірювання теж трапляється, звичайно, але це питання дещо виходить за рамки цієї відповіді, тому окрім згадки про це тут, я залишу це в спокої.) ніж альтернативна гіпотеза, принаймні, якщо підсудний не знає, що нуль є істинним. Тільки за досить важкої для розуміння обставини знання того, що нульове значення є буквально правдивим, висновок на користь альтернативної гіпотези був би безумовно хибним ... принаймні, наскільки я можу собі уявити на даний момент.

Очевидно, що широкомасштабне використання або конвенція не є найкращим авторитетом щодо епістемічної чи інфекційної чинності. Навіть опубліковані ресурси є помилковими; див., наприклад, помилковість у визначенні p-значення . Ваша довідка ^{( Hurlbert & Lombardi, 2009 )} пропонує також цікаве викладення цього принципу ^{(стор. 322):}

StatSoft (2007) на своєму веб-сайті може похвалитися, що їхній онлайн-посібник "є єдиним Інтернет-ресурсом зі статистичних даних, рекомендованим Енциклопедією Бретаніка". Ніколи це не було настільки важливим для "Авторитету недовіри", як говорить наклейка на бампері. [Комічно зламана URL-адреса, перетворена на гіперпосилання.]

Ще один випадок: ця фраза у нещодавній статті Nature News ^{( Nuzzo, 2014 )} : "Значення P, загальний індекс міцності доказів ..." Див. Wagenmakers ' ^{(2007, стор. 787)} "Проблема 3: Цінності не оцінюють статистичні дані "... Однак @MichaelLew ⁽^{Lew, 2013}⁾ не погоджується з тим, що вам може бути корисним: він використовує $p$ $p$ значення для індексації ймовірності функцій. Однак, наскільки ці опубліковані джерела суперечать одне одному, принаймні одне повинно бути помилковим! (На якомусь рівні, я думаю ...) Звичайно, це не так вже й погано, як "ненадійне" саме по собі. _{Я сподіваюсь, що я можу примусити Майкла сюди присказати, позначивши його так, як у мене є (але я не впевнений, що теги користувачів надсилають повідомлення під час редагування - я не думаю, що ваші в ОП зробили). Він може бути єдиним, хто може врятувати Нуццо - навіть саму Природу ! Допоможіть нам Оби-Ван! (І вибачте мені, якщо моя відповідь тут свідчить про те, що я все-таки не зрозумів наслідків вашої роботи, які, напевне, маю в будь-якому випадку ...)} BTW, Nuzzo також пропонує інтригуючу самозахист та спростування "Проблема 3" Вагенмейкера: див. "Можливу причину" Нуццо^{( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner, & Greenberg, 2007 )} . Вони просто можуть містити відповідь, яку ви справді шукаєте, але я сумніваюся, що я міг би сказати.

Re: Ваше запитання з декількома варіантами, я вибираю d. Можливо, ви неправильно трактували тут деякі поняття, але ви, звичайно, не самотні, якщо так, і я залишу це рішення вам, як тільки ви знаєте, у що ви дійсно вірите. Помилкове тлумачення передбачає певну певність, тоді як задавати питання означає протилежне, і цей порив до питання, коли непевне, є досить похвальним і далеко не повсюдним, на жаль. Це питання людської природи робить некоректність наших конвенцій, на жаль, нешкідливою і заслуговує на такі скарги, на які йдеться тут. (Частково дякую вам!) Однак ваша пропозиція теж не зовсім коректна.

Кілька цікавих обговорень проблем, пов’язаних із $p$ Значення, в яких я брав участь, відображається в цьому запитанні: Встановлення закріплених поглядів p-значень . У моїй відповіді перераховано декілька посилань, які можуть бути корисними для ознайомлення з подальшими тлумаченнями проблем та альтернатив $p$ значення. Будьте попереджені: я все ще сам не потрапив на дно цієї конкретної кролячої нори , але можу принаймні сказати вам, що вона дуже глибока . Я все ще дізнаюся про це сам (інакше я підозрюю, що буду писати з більш байєсівської точки зору [редагувати]: а може, перспектива ^NFSA ! ^{Hurlbert & Lombardi, 2009}⁾ , я в кращому випадку слабкий авторитет, і я вітаю будь-які виправлення чи уточнення, які інші можуть запропонувати до того, що я тут говорив. Я можу зробити висновок лише про те, що, мабуть, є математично правильна відповідь, і, можливо, більшість людей помиляються. Правильна відповідь, безумовно, не приходить легко, як свідчать наступні посилання ...

PS За запитом (начебто ... я визнаю, я дійсно просто вирішую це питання, а не працюю над цим), це питання є кращою орієнтацією на іноді рівномірний розподіл $p$ з урахуванням нуля: " Чому р-значення розподіляються рівномірно під нульовою гіпотезою? " Особливий інтерес викликають коментарі @ whuber, які викликають клас винятків. Як це дещо вірно з дискусією в цілому, я не дотримуюся 100% аргументів, не кажучи вже про їх наслідки, тому я не впевнений, що ці проблеми з $p$ рівномірність розподілу насправді є винятковою. Боюсь, ще одна причина глибокої статистичної плутанини ...

Список літератури

_{- Гудман, С.Н. (1992). Коментар щодо тиражування, P- значень та доказів. Статистика в медицині, 11 (7), 875–879.

- Гудман, С.Н. (2001). З P -значень та Байєса: скромна пропозиція. Епідеміологія, 12 (3), 295–297. Отримано з http://swfsc.noaa.gov/uploadedFiles/Division/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposed.6.pdf .

- Гудман, С. (2008). Брудний десяток: Дванадцять Р -значні помилки. Семінари з гематології, 45 (3), 135–140. Отримано з http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .

- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M., & Greenberg, DA (2007). Нерепликація досліджень асоціацій: «псевдовідмови» для копіювання? Генетика в медицині, 9 (6), 325–331. Отримано з http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .

- Hurlbert, SH, & Lombardi, CM (2009). Остаточний крах теоретичної бази рішень Неймана-Пірсона та підйом неофішерського народу. Annales Zoologici Fennici, 46 (5), 311–349. Отримано з http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .

- Lew, MJ (2013). До P чи ні до P: Про доказовий характер P-значень та їх місце в науковому висновку. arXiv: 1311.0081 [стат.МЕ]. Отримано зhttp://arxiv.org/abs/1311.0081 .

- Moyé, LA (2008). Байєси в клінічних випробуваннях: сплять при перемиканні. Статистика в медицині, 27 (4), 469–482.

- Нуццо, Р. (2014, 12 лютого). Науковий метод: Статистичні помилки. Природні новини, 506 (7487). Отримано з http://www.nature.com/news/scientist-method-statistic-errors-1.14700 .

- Wagenmakers, EJ (2007). Практичне вирішення поширених задач p- значень. Психономічний вісник та огляд, 14 (5), 779–804. Отримано з http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .}

— Нік Стаунер
джерело

Я все ще працюю над вашою дуже грунтовною відповіддю (дякую за це), але ваша згадка про «байєсівську інвазію» змусила мене думати про «байесів у клінічних випробуваннях: сплять при перемиканні», передрукованих як глава 12 тут , яку я ' м також повільно обвиваючи голову.

— Ендрю Клаассен

"Ви або перейшли на сторінку, недоступну для перегляду, або досягли обмеження перегляду цієї книги" ...?

— Нік Стаунер

Це прикро. Якщо у вас є доступ до журналу, ви також можете знайти його тут . Пошук фрази "байєси зараз руйнують традиційні бар'єри в клінічних випробуваннях" також може потрапити до вас.

— Ендрю Клаассен

Остаточний крах теоретичної бази рішень Неймана-Пірсона та підняття неофішерського мистецтва також містить розважальну історію p-значень та напад на використання байєсівського аналізу в дослідженнях. Я не можу сказати, що я його досить добре розумію, щоб оцінити це, але я вважаю, що добре принаймні бути в курсі коригуючих чинних захоплень.

— Ендрю Клаассен

@NickStauner Щойно знайшов цю дискусію. Не потрібно, щоб принаймні один обліковий запис був невірним, якщо є набір облікових записів, які не згодні. Вони можуть базуватися на різних моделях. [Якщо ви граєте, вам слід прочитати книгу Білла Томпсона "Природа статистичних даних" (2005).] Незважаючи на це, мій акаунт, безумовно, правий ;-) (Хоча якраз сьогодні вранці журнал знову відхилився.) Я знайшов документ Nuzzo для бути необережним і потенційно вводити в оману.

— Майкл Лев