Який хороший, переконливий приклад, у якому р-значення корисні?


64

Моє запитання в назві не пояснює себе, але я хотів би дати йому якийсь контекст.

На початку цього тижня ASA оприлюднила заяву " про p-значення: контекст, процес та мета ", окреслюючи різні поширені помилкові уявлення про p-значення та закликаючи до обережності в тому, щоб не використовувати його без контексту та думки (про що можна говорити саме про будь-який статистичний метод, дійсно).

У відповідь на ASA, професор Матлофф написав допис у блозі під назвою: Через 150 років ASA говорить "Не" p-значенням . Тоді професор Бенджаміні (і я) написав відповідь на пост під назвою "Не вина р-цінностей" - роздуми про недавню заяву ASA . У відповідь на це професор Матлофф запитав у наступному дописі :

Що я хотів би бачити [... є] - хороший, переконливий приклад, в якому р-значення корисні. Це дійсно повинно бути підсумком.

Для того, щоб процитувати його двох основних аргументів проти корисності -значення:p

  1. З великими зразками тести на значимість накидаються на крихітні, неважливі відступи від нульової гіпотези.

  2. Практично жодна недійсна гіпотеза не відповідає дійсності в реальному світі, тому проведення тесту на значимість щодо них є абсурдним і химерним.

Мені дуже цікаво, що думають інші члени спільноти щодо цього питання / аргументів, і що може стати гарною відповіддю на нього.


5
Зауважте ще дві теми, пов’язані з цією темою: stats.stackexchange.com/questions/200500/… та stats.stackexchange.com/questions/200745/…
Тім

2
Дякую Тіме. Я підозрюю, що моє запитання досить різне, що воно заслуговує на власну нитку (тим більше, що в двох згаданих вами питаннях не було відповіді). Все-таки посилання дуже цікаві!
Тал Галілі

3
Це заслуговує і цікаво (звідси мій +1), я надав посилання просто FYI :)
Тім

3
Треба сказати, що я ще не читав те, що написав Матлофф на цю тему, але все-таки для того, щоб ваше запитання стояло самостійно, ви можете, можливо, коротко підсумувати, чому він знаходить будь-який стандартний приклад використання p-значень не " добре / переконливо "? Наприклад, хтось хоче вивчити, чи певна експериментальна маніпуляція змінює поведінку тварин у певному напрямку; тому експериментальну та контрольну групи вимірюють та порівнюють. Як читач такої роботи, я радий бачити значення р (тобто вони для мене корисні), тому що якщо воно велике, то мені не потрібно звертати уваги. Цього прикладу недостатньо?
амеба каже, що поверніть Моніку

1
@amoeba - він перераховує їх тут: matloff.wordpress.com/2016/03/07/… ----- Цитуючи свої аргументи: 1) з великими зразками значущі тести накидаються на крихітні, неважливі відступи від нульової гіпотези. 2) Майже жодні недійсні гіпотези не є істинними в реальному світі, тому проведення тесту на їх значимість є абсурдним і химерним. ----- У мене є власний переклад на це (що я хотів би згодом формалізувати), але я впевнений, що інші матимуть проникливі способи відповісти на це.
Тал Галілі

Відповіді:


44

Я розгляну обидва моменти Матлофа:

  1. З великими зразками тести на значимість накидаються на крихітні, неважливі відступи від нульової гіпотези.

    Логіка тут полягає в тому, що якщо хтось повідомляє про дуже значущі , то тільки з цього числа ми не можемо сказати, чи є ефект великим і важливим чи незначним, крихітним (як це може статися з великим ). Я вважаю цей аргумент дивним і взагалі не можу з ним підключитися, тому що я ніколи не бачив дослідження, яке б повідомляло про -значення, не повідомляючи про [якийсь еквівалент] розмір ефекту. Дослідження, які я читав, наприклад, скажуть (і зазвичай показують на малюнку), що група А мала таку і середню, група В мала таку і середню, і вони суттєво відрізнялися з такою і такою величиною. Я, очевидно, можу судити про себе, чи різниця між А і В велика чи мала.n p pp=0.0001npp

    (У коментарях @ RobinEkman вказував мені на кілька високо цитованих досліджень Ziliak & McCloskey ( 1996 , 2004 ), які зауважували, що більшість економічних праць трубить "статистичну значимість" деяких ефектів, не звертаючи особливої ​​уваги на розмір ефекту та його "практичне значення" (що, на думку Z&MS, часто може бути незначним). Це очевидно погана практика. Однак, як @MatteoS пояснив нижче, розміри ефектів (оцінки регресії) завжди повідомляються, тому мій аргумент стоїть.)

  2. Практично жодна недійсна гіпотеза не відповідає дійсності в реальному світі, тому проведення тесту на значимість щодо них є абсурдним і химерним.

    Ця турбота також часто озвучується, але тут я знову не можу реально з цим підключитися. Важливо усвідомити, що дослідники не збільшують свій ad infinitum . У знайомій мені галузі нейронауки люди будуть робити експерименти з або, можливо, , скажімо, щурами. Якщо ефекту не видно, то висновок полягає в тому, що ефект недостатньо великий, щоб бути цікавим. Ніхто, кого я знаю, не хотів би займатися розведенням, дресируванням, записом та жертвуванням щурів, щоб показати, що є якийсь статистично значущий, але крихітний ефект. І в той час як це може бути правдою , що майже ніяких реальних ефектів не в точності дорівнює нулю, то єn = 20 n = 50 n = 5000n n=20n=50n=5000 Безумовно, правда, що багато справжніх ефектів досить малі, щоб їх можна було виявити при розумних розмірах вибірки, які розумні дослідники насправді використовують, використовуючи своє хороше судження.

    (Є серйозна занепокоєність тим, що розміри вибірки часто недостатньо великі і що багато досліджень недостатньо. Тому, можливо, дослідники в багатьох областях повинні скористатися, скажімо, замість Але все-таки, який би розмір вибірки не був. , це встановлює обмеження на розмір ефекту, який досліджуваний може визначити.)n = 20n=100n=20

    Крім того, я не думаю, що я згоден з тим, що майже жодні нульові гіпотези не відповідають дійсності, принаймні, не в експериментальних рандомізованих дослідженнях (на відміну від спостережних). Дві причини:

    • Дуже часто є спрямованість на передбачення, яке перевіряється; Дослідник прагне продемонструвати, що деякий ефект є позитивним . Зазвичай це робиться за допомогою двостороннього тесту з припущенням точки нуля але насправді це скоріше односторонній тест, який намагається відхилити . (@ Відповідь CliffAB, +1, наводить суперечливий момент.) І це, безумовно, може бути правдою.H 0 : δ = 0 H 0 : δ < 0δ>0H0:δ=0H0:δ<0

    • Навіть кажучи про крапку "нуль" null , я не бачу, чому вони ніколи не відповідають дійсності. Деякі речі просто не причинно пов'язані з іншими. Подивіться на дослідження психології, які не вдається повторити за останні роки: люди, які відчувають майбутнє; жінки одягаються в червоний колір при овуляції; грунтування слів, пов’язаних зі старістю, що впливають на швидкість ходьби; і т.д. Можливо, цілком може бути, що причинно-наслідкових зв’язків тут взагалі немає, тому справжні наслідки точно до нуля.H0:δ=0

Сам Норм Матлофф пропонує використовувати довірчі інтервали замість -значень, оскільки вони показують розмір ефекту. Інтервали довіри хороші, але зауважте один недолік довірчого інтервалу порівняно з значенням: довірчий інтервал повідомляється для одного конкретного значення покриття, наприклад . Якщо бачити довірчий інтервал, це не означає мені, яким широким буде довірчий інтервал . Але одне ціле -значення можна порівняти з будь-яким і різні читачі можуть мати на увазі різні альфа.p 95 % 95 % 99 % p αpp95%95%99%pα

Іншими словами, я вважаю, що для тих, хто любить використовувати інтервали довіри, -значення є корисною та змістовною додатковою статистикою для звітування.p


Я хотів би дати довгу цитату про практичну корисність -значень від мого улюбленого блогера Скотта Олександра; він не є статистиком (він - психіатр), але має великий досвід з читання психологічної / медичної літератури та ретельного вивчення статистичних даних у ній. Цитата з його публікації в блозі про підроблене дослідження шоколаду, яке я дуже рекомендую. Наголос мій.p

[...] Але припустимо, нам не дозволяється робити -значення. Все, що я роблю, - це вам сказати: «Так, було дослідження з п'ятнадцятьма людьми, які виявили, що шоколад допомагає при інсулінорезистентності», і ви смієтесь мені в обличчя. Розмір ефекту повинен допомогти у цьому. Але припустимо, я вам скажу: "Було проведене дослідження з п'ятнадцятьма людьми, яке виявило, що шоколад допомагав при інсулінорезистентності. Розмір ефекту становив ". Я взагалі не маю інтуїції щодо того, чи відповідає це випадковому шуму чи ні. Чи ти? Гаразд, тоді вони кажуть, що ми повинні повідомляти про довірчі інтервали. Розмір ефекту становив , довірчий інтервал0,6 0,6 95 % [ 0,2 , 1,0 ] p 95 % p 0,05p0.60.695%[0.2,1.0]. Добре. Тому я перевіряю нижню межу довірчого інтервалу, я бачу, що він відрізняється від нуля. Але зараз я не переступаю -значення. Я просто використовую p-значення, роблячи своєрідний невдалий розрахунок його самого - " довірчий інтервал не включає нуль" - це те саме, що " -значення менше ".p95%p0.05

95%99%

ppp0.05d=0.6

p


pp


1
На мою думку, у Вашій відповіді на другий аргумент не вдається. Ніхто не припускає, що реальні дослідники збільшують розміри вибірки ad infinitum. Суть (як я бачу) полягає в тому, що будь-яка нульова гіпотеза форми "ефект = 0", яку дослідник зацікавив би тестуванням, виявиться помилковою, і для виконання тесту гіпотези мало значення, якщо нульова гіпотеза вже є як відомо, помилково. Звичайно, це передбачає, що нас дійсно цікавлять відповідні параметри чисельності населення, а не характеристики вибірки.
mark999

1
Але я визнаю, що "будь-яка нулева гіпотеза ... буде помилковою" є лише припущенням.
mark999

1
Я повинен визнати, що мої міркування тут були досить неформальними, і я ніколи не намагався це формалізувати. Можливо, щоб цей аргумент спрацював, я не повинен сказати, що існує чітка межа між цікавими та нецікавими розмірами ефектів. Швидше, це континуум з цікавістю, що збільшується далі від нуля, і "розумний" розмір вибірки повинен надати малу потужність дуже нецікавим розмірам ефектів і велику потужність дуже цікавим, але немає жодного порогу. Цікаво, чи можна її точно формалізувати по лінії Неймана-Пірсона.
амеба каже: Відновити Моніку

6
p

3
@amoeba: джерелом претензії на 70% може бути неоднозначне словосполучення у рефераті 2006 року: «182 повноцінних публікацій, опублікованих у 1980-х роках у [AER], 70% не відрізняли економічну від статистичної значущості». Що вони мають на увазі під цим, як пояснено в обох працях, - це те, що часто коментується лише останній, і що величина коефіцієнта регресії відносно залежної змінної ("економічне значення" в їхньому жаргоні) не так широко аналізується . Але це завжди повідомляється. Я пропоную вам відредагувати своє оновлення у відповідь, щоб відобразити, що :-)
MatteoS

29

Я дуже ображаюся на наступні дві ідеї:

  1. З великими зразками тести на значимість накидаються на крихітні, неважливі відступи від нульової гіпотези.

  2. Практично жодна недійсна гіпотеза не відповідає дійсності в реальному світі, тому проведення тесту на значимість щодо них є абсурдним і химерним.

Це такий слабкий аргумент щодо p-значень. Сама основоположна проблема, яка мотивувала розвиток статистики, випливає з того, щоб побачити тенденцію і хотіти знати, чи є те, що ми бачимо, випадково, чи репрезентує систематичну тенденцію.

Ho:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0

Це правда, що це не говорить вам про масштабність ефекту. Але це вказує вам напрямок ефекту. Тож не будемо ставити воза перед конем; перш ніж почати робити висновки про масштабність ефекту, я хочу бути впевненим, що правильний напрямок ефекту я правильний!

H1:μd>1H2:μd<1

Щоб додатково проілюструвати це, припустимо, ми просто розглянули довірчі інтервали та відкинули p-значення. Що перше, що ви перевірили б у довірчому інтервалі? Будь ефект був суворо позитивним (чи негативним) перед тим, як сприймати результати занадто серйозно. Як таке, навіть без р-значень ми неофіційно робимо тестування гіпотез.

Нарешті, що стосується прохання ОП / Матлоффа, "Наведіть переконливий аргумент того, що p-значення будуть значно кращими", я вважаю, що питання трохи незручне. Я кажу про це, оскільки залежно від вашого погляду він автоматично відповідає на себе ("наведіть мені один конкретний приклад, коли тестування гіпотези краще, ніж не тестування їх"). Однак, особливий випадок, який, на мою думку, є майже незаперечним, - це дані RNAseq. У цьому випадку ми, як правило, дивимося на рівень експресії РНК у двох різних групах (тобто хворих, контролі) та намагаємось знайти гени, які різно експресуються у двох групах. У цьому випадку сам розмір ефекту навіть не має особливого значення. Це пояснюється тим, що рівні експресії різних генів змінюються настільки дико, що для деяких генів 2-краща експресія не означає нічого, в той час як для інших жорстко регульованих генів, експресія на 1,2 рази вища. Тож фактична величина розміру ефекту насправді дещо нецікава при першому порівнянні груп. Але тидійсно, дуже хочеться знати, чи змінюється експресія гена між групами та напрямком зміни! Крім того, набагато складніше вирішувати питання численних порівнянь (для яких ви можете робити 20 000 з них за один пробіг) з довірчими інтервалами, ніж це з p-значеннями.


2
Я не погоджуюся, що знати напрямок ефекту саме по собі корисно. Якби я плюнув на землю, я знаю , що це буде або поліпшити або пригнічення росту рослин (тобто нульова гіпотеза про відсутність ефекту є хибним). Як корисно знати напрямок цього ефекту без будь-якої інформації про його масштабність? І все-таки це єдине , про що говорить вам p -значення у вашому двосторонньому тесті / двох односторонніх тестах (подібних)! (BTW, я думаю, що приклад "плювати на землю" був запозичений у деякому папері на p -значеннях, які я читав років тому, але не можу пригадати, який.)
Karl Ove Hufthammer

3
@KarlOveHufthammer: Кошик перед конем. Я не повинен зупинятися лише тому, що знаю напрямок ефекту. Але мені слід подбати, щоб я мав правильний напрямок, перш ніж почати турбуватися про масштаби. Як ви вважаєте, чи вдасться науковій спільноті сприйняти все з великими оцінними ефектами, не перевіряючи p-значення?
Кліф АВ

3
Ha:μd>1Ha:μd<1

2
Ви зробили кілька дуже хороших моментів у редагуванні. Мені дуже подобається ваша відповідь зараз!
Амеба каже: Відновити Моніку

3
Працюючи над моєю відповіддю на stats.stackexchange.com/questions/200500, я натрапив на цей останній препринт Wagenmakers та ін, де вони, по суті, аргументують вашу думку щодо спрямованості: "Одностороннім значенням P можна дати байєсівську інтерпретацію як приблизний тест напряму, тобто тест на те, чи є латентний ефект негативним чи позитивним ". Це цікаво тим, що Вагенмакерс - це важкий байєсів, він багато писав проти p-значень. Все-таки я бачу тут якусь концептуальну угоду.
Амеба каже, що поверніть Моніку

6

Пробачте мій сарказм, але один очевидний хороший приклад корисності p-значень - це публікація. У мене був один експериментатор, який підходив до мене для отримання p-значення ... він ввів трансген в одній рослині для поліпшення росту. З цієї однієї рослини він створив кілька клонів і вибрав найбільшого клону, приклад, коли перераховується вся популяція. Своїм запитанням рецензент хоче побачити значення р, що цей клон найбільший. Я зазначив, що в цій справі статистики немає ніякої потреби, оскільки він мав під рукою все населення, але безрезультатно.

Більш серйозно, на мою скромну думку, я вважаю, що ці дискусії є цікавими та стимулюючими, подібно до дискусій про частість проти Байєса, що пройшли кілька років тому. Це виявляє різні точки зору найкращих розумів у цій галузі та висвітлює безліч припущень / підводних каменів, пов'язаних з методологією, яка, як правило, не доступна.

На практиці я вважаю, що замість того, щоб сперечатися про найкращий підхід і замінювати одну недолікову мірку на іншу, як це було запропоновано раніше, для мене це радше розкриття основної системної проблеми, і слід зосередити увагу на намаганні знайти оптимальний рішення. Наприклад, можна представити ситуації, коли р-значення та CI доповнюють одне одного та обставини, коли одне є більш надійним, ніж інше. У грандіозній схемі речей я розумію, що всі інфекційні засоби мають свої недоліки, які потрібно розуміти в будь-якому застосуванні, щоб не заважати прогресу до кінцевої мети .. глибшого розуміння системи навчання.


6

Я наведу вам зразковий випадок того, як слід застосовувати та повідомляти р-значення. Це зовсім недавній звіт про пошук загадкової частинки на великому адронному колайдері (LHC) у ЦЕРНі .

Кілька місяців тому у фізичних колах з високою енергією було багато схвильованих балачок про можливість того, що на ЛГК була виявлена ​​велика частинка. Пам'ятайте, це було після відкриття Хіггса бозона . Ось уривок із статті "Пошук резонансів, що занепадають до пар фотонів, при зіткненнях 3,2 fb − 1 pp у √s = 13 ТеВ з детектором ATLAS" від Collaboration ATLAS 15 грудня 2015 року, і мої коментарі випливають:

введіть тут опис зображення

Що вони тут говорять, це те, що кількість подій перевищує те, що передбачає Стандартна модель . На рисунку нижче із статті показані р-значення надмірних подій як функція маси частинки. Ви бачите, як p-значення занурюється в районі 750 GeV. Отже, вони говорять, що існує можливість виявлення нової частинки масою 750 ГВ еВ . Значення р на рисунку обчислюються як "локальні". Глобальні значення p значно вищі. Це не важливо для нашої розмови.

Важливо те, що значення p ще не "досить низькі", щоб фізики оголосили знахідку, але "досить низькі", щоб збудити. Отже, вони планують продовжувати рахувати, і сподіваються, що ці значення p ще більше знизяться.

введіть тут опис зображення

Масштаб на кілька місяців вперед до серпня 2016 року в Чикаго, конференції з HEP . Був новий доповідь , представлений «Пошук резонансного народження пар фотонів високої маси з використанням 12,9 фб-1 протон-протонних зіткнень при √ s = 13 ТеВ і комбінованої інтерпретації запитів на 8 і 13 ТеВ» по The колаборації CMS на цей раз. Ось уривки з моїми коментарями ще раз:

введіть тут опис зображення

Отже, хлопці продовжували збирати події, і тепер, коли скинути зайві події на 750 ГеВ, вже немає. На малюнку нижче з документа показано p-значення, і ви можете бачити, як p-значення зросло порівняно з першим звітом. Отже, вони сумно роблять висновок, що жодна частинка не виявлена ​​при 750 ГеВ.

введіть тут опис зображення

Я думаю, саме так передбачається використовувати значення p. Вони повністю мають сенс, і вони чітко працюють. Я думаю, що причина полягає в тому, що частофілістські підходи по суті є природними для фізики. У розсіюванні частинок немає нічого суб’єктивного. Ви збираєте зразок досить великий, і ви отримуєте чіткий сигнал, якщо він є.

Якщо ви справді розумієте, як саме тут розраховуються значення p, прочитайте цей документ : "Асимптотичні формули для випробувань нової фізики на основі ймовірності" Cowan et al.


2
Всі сподівались, що пік 750 GeV справжній і зараз сумний. Але я справді сподівався, що це виявиться коливанням (і, можливо, можна було б зробити це), і зараз мені полегшено. Я думаю, це здорово, що стандартна модель працює так добре. Не зовсім розумієте горіння бажання вийти за рамки стандартної моделі (ніби все інше з фізики вирішено). У всякому разі, +1, хороший приклад.
Амеба каже, що повернеться до Моніки

2

З іншими поясненнями все нормально, я просто хотів спробувати дати коротку та пряму відповідь на питання, яке спливе в моїй голові.

Перевірка дисбалансу коваріату в рандомізованих експериментах

Ваше друге твердження (про нереалістичні нульові гіпотези) не відповідає дійсності, коли ми перевіряємо коваріатний баланс у рандомізованих експериментах, де нам відомо, що рандомізація була зроблена належним чином. У цьому випадку ми знаємо, що нульова гіпотеза правдива. Якщо ми отримаємо істотну різницю між лікувальною та контрольною групою на деякому коваріаті - звичайно після контролю за декількома порівняннями - то це говорить про те, що в рандомізації ми отримали "поганий розіграш", і ми, можливо, не повинні довіряти причинно-наслідковій оцінці як багато. Це тому, що ми можемо подумати, що наші оцінки ефективності лікування від цієї конкретної рандомізації "поганого нічиї" є більш далекими від справжніх ефектів лікування, ніж оцінки, отримані від "хорошого".

Я думаю, що це ідеальне використання p-значень. Він використовує визначення р-значення: ймовірність отримання значення як або більш крайнього, враховуючи нульову гіпотезу. Якщо результат малоймовірний, то насправді ми отримали «погану нічию».

Балансові таблиці / статистика також поширені при використанні даних спостережень для спроби зробити причинно-наслідкові умовиводи (наприклад, відповідність, природні експерименти). Хоча в цих випадках балансові таблиці далеко не є достатніми для обґрунтування «причинної» мітки до оцінок.


Я не погоджуюся, що це ідеальне (або навіть хороше) використання p-значень. Як ви визначаєте "поганий нічия"?
mar999

2
@mark, гаразд. Я думаю, що можу відповісти на ваше останнє запитання, поки Метт відсутній: звичайно за зразком. Уявіть рандомізований експеримент з 50 людьми. Уявіть, що так сталося, що всі 25 людей групи А виявилися чоловіками, а всі 25 людей групи B виявилися жінками. Досить очевидно, що це може викликати серйозні сумніви щодо будь-яких висновків дослідження; ось приклад "поганого нічиї". Метт запропонував пройти тест на відмінності між статтю (коваріатом) між А та В. Я не бачу, як відповідь Метта можна трактувати по-різному. Напевно, тут взагалі немає популяцій.
амеба каже: Відновити Моніку

1
@ mark999 Але тест на різницю між 12/25 та 13/25 очевидно дасть високе несуттєве значення p, тож я не впевнений, у чому тут ваш погляд. Метт запропонував провести тест і розглянути низьке значення p як червоний прапор. У вашому прикладі немає червоного прапора. Я думаю, що я зупинюсь тут і дозволю Метту продовжити діалог, якщо він захоче.
Амеба каже: Відновити Моніку

4
Ні. Див. "Помилковість тесту на баланс": gking.harvard.edu/files/matchse.pdf Ви описуєте випадок, коли статистика тесту може бути хорошою (використовується як міра відстані для мінімізації), але значення p для цього не робить сенс.
кон'югатприор

2
Для більш недавнього вивчення цього питання в психо- та нейролінгвістиці існує новий препринт arXiv . Коли ви збираєтесь маніпулювати рівновагою тощо, ви не є випадковою вибіркою, і навіть якби ви були, тести відповідають на інший інфекційний питання про баланс у популяції, який не є рівновагою у вибірці.
Лівій

2

Контроль рівня помилок аналогічний контролю якості у виробництві. Робот на виробничій лінії має правило для вирішення того, що деталь є несправною, що гарантує не перевищувати задану швидкість дефектних деталей, які проходять через невиявлені. Аналогічно, агентство, яке приймає рішення щодо затвердження ліків на основі "чесних" Р-значень, має можливість утримати частоту помилкових відхилень на контрольованому рівні, за визначенням, за допомогою частого поширення довгострокових побудов тестів. Тут "чесний" означає відсутність неконтрольованих упереджень, прихованих виборів тощо.

Однак ні робот, ні агентство не мають особистої участі в якомусь конкретному лікарському засобі або частині, яка проходить через конвеєр. В науці, з іншого боку, ми, як окремі слідчі, піклуємося про конкретну гіпотезу, яку ми вивчаємо, а не про частку помилкових заяв у нашому улюбленому журналі, до якого ми подаємо. Ні величина P-значення, ні межі довірчого інтервалу (CI) не стосуються безпосередньо нашого питання про достовірність того, про що ми повідомляємо. Коли ми будуємо межі ІС, слід сказати, що єдине значення двох чисел полягає в тому, що якщо інші вчені роблять такий же обчислення ІС у своїх дослідженнях, то 95% або будь-яке інше покриття буде зберігатися протягом різних досліджень в цілому. .

У цьому світлі я вважаю іронічним те, що журнали "забороняють" значення P, враховуючи, що в умовах кризи копіюваності вони мають більшу цінність для редакторів журналів, ніж для дослідників, які подають свої статті, як практичного способу збереження частота помилкових знахідок, про які повідомляє журнал у страху, у перспективі. Значення P добре фільтруються, або, як писав IJ Good, вони добре захищають задній кінець статистики, але не стільки задній кінець клієнта.

PS Я великий шанувальник ідеї Бенджаміні та Хохберга взяти безумовні очікування в ході досліджень з декількома тестами. Під глобальним "нулем" все ще контролюється "частістський" FDR - дослідження з одним або декількома відхиленнями спливають у журналі з контрольованою швидкістю, хоча, у цьому випадку, будь-яке дослідження, де були зроблені деякі відхилення, має частку помилкових відхилень, що дорівнює одиниці.


1

Я погоджуюся з Меттом, що значення р є корисними, коли нульова гіпотеза є істинною.

Найпростіший приклад, який я можу придумати, - це тестування генератора випадкових чисел. Якщо генератор працює правильно, ви можете використовувати будь-який відповідний розмір вибірки реалізацій, а при тестуванні придатності на багатьох зразках р-значення повинні мати рівномірний розподіл. Якщо вони це роблять, це хороший доказ для правильної реалізації. Якщо цього немає, ви знаєте, що ви десь помилилися.

Інші подібні ситуації трапляються, коли відомо, що статистична або випадкова величина повинна мати певний розподіл (знову ж таки, найбільш очевидним контекстом є моделювання). Якщо значення p однакові, ви знайшли підтримку для дійсної реалізації. Якщо ні, то ви знаєте, що у вас є проблема десь у вашому коді.


1

Я можу придумати приклад, у якому р-значення корисні в експериментальній фізиці високих енергій. Див. Рис. 1 Цей сюжет взято з цієї статті: Спостереження за новою частинкою в пошуках стандартної моделі бозона Хіггса з детектором ATLAS в LHC

5σH125

введіть тут опис зображення


1
Потрібно надати більше інформації про сюжет, інформацію про те, як він вирішує початкове запитання. Це майже не достатньо інформації.
Грінпаркер

@Greenparker, спробував додати деякий фон до сюжету.
Ніколя Гутьєррес

±1σ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.