Куммінг (2008) стверджує, що розподіл p-значень, отриманих у реплікаціях, залежить лише від вихідного p-значення. Як це може бути правдою?


52

Я читав 2008 документ Джеффа Каммінг реплікації і Інтервали: значення передбачати майбутнє лише смутно, але довірчі інтервали роблять набагато краще pp p p[~ 200 посилань в Google Scholar] - і бентежить одне з центральних вимог. Це одна з серії робіт, де Кеммінг сперечається проти -значень і на користь довірчих інтервалів; моє питання, однак, не стосується цієї дискусії і стосується лише однієї конкретної заяви про -значення.pp

Дозвольте навести цитата з реферату:

Ця стаття показує, що якщо початковий експеримент призводить до двократного , є шансів, що однохвоста p -значення з реплікації потрапить у інтервал (.00008, .44) , a 10 \% шансів, що p <.00008 , і повністю 10 \% шансу, що p> .44 . Примітно, що інтервал, що називається p- інтервалом, є таким широким, але великим розміром вибірки.p=.0580%p(.00008,.44)10%p<.0000810%p>.44p

Куммінг стверджує, що цей " p інтервал", а насправді весь розподіл p -значень, які можна було б отримати при тиражуванні оригінального експерименту (з тим же фіксованим розміром вибірки), залежить лише від вихідної p -значення pobt і не залежать від істинного розміру ефекту, потужності, розміру вибірки чи іншого:

[...] розподіл ймовірності p може бути отриманий, не знаючи і не припускаючи значення для δ (або потужності). [...] Ми не припускаємо жодних попередніх знань про δ , і використовуємо лише інформацію Mdiff [спостерігається різниця між групами] дає про δ як основу для розрахунку для даного pobt розподілу p та p інтервалів.

Куммінг 2008 року

Мене це бентежить, оскільки мені здається, що розподіл -значень сильно залежить від потужності, тоді як оригінальний по собі не дає ніякої інформації про це. Можливо, справжній розмір ефекту дорівнює і тоді розподіл рівномірний; або, можливо, справжній розмір ефекту величезний, і тоді ми повинні очікувати в основному дуже малих значень. Звичайно, можна почати з припущення деяких попередніх над можливими розмірами ефектів і інтегруватися над ним, але Каммінг, схоже, стверджує, що це не те, що він робить.p o b t δ = 0 pppobtδ=0p

Питання: Що саме тут відбувається?


Зауважте, що ця тема пов'язана з цим питанням: яка частка повторних експериментів матиме розмір ефекту в межах 95% довірчого інтервалу першого експерименту? з відмінною відповіддю від @whuber. Кумінг має доповідь на цю тему на тему: Cumming & Maillardet, 2006, Інтервали довіри та тиражування: Куди впаде наступний? - але це ясно і безпроблемно.

Я також зауважу, що претензія Каммінга повторюється кілька разів у документі «P Методи природи 2015 року» . Нестабільне значення створює невідтворювані результати , на які, можливо, траплялися деякі з вас (це вже має 100 цитат у Google Scholar):

[...] відбудеться значна зміна значення повторних експериментів. Насправді експерименти рідко повторюються; ми не знаємо, наскільки може бути різним наступнийАле ймовірно, що це може бути зовсім інакше. Наприклад, незалежно від статистичної потужності експерименту, якщо одна копія повертає значення , існує шансів, що повторний експеримент поверне значення між і (і зміна [sic], що був би ще більшим).P P 0,05 80 % P 0 0,44 20 % PPPP0.0580%P00.4420%P

(До речі, зауважте, як, незалежно від того, чи є твердження Каммінга правильним чи ні, папір Nature Methods цитує це неточно: за словами Куммінга, це лише ймовірність вище . І так, папір говорить "20% чан g e ". Pfff.)0,4410%0.44


8
Чи не повинен будь-який подібний допуск обумовлювати припущений стан природи - і чи не буде це за замовчуванням нульовою гіпотезою? Для простих нульових гіпотез і статистики, що постійно розподіляється , значення р має рівномірний розподіл. Все випливає з цього факту.
whuber

4
@whuber Ну, розподіли, показані на рисунку 5, які я відтворив тут, явно не є рівномірними. Я погоджуюсь, що будь-яке подібне розповсюдження, здавалося б, повинно бути обумовлене станом природи, але Куммінг, схоже, стверджує протилежне. Звідси моє запитання: що насправді відбувається в цій роботі? Я неправильно розумію претензію? Папір просто не так? Чи можемо ми з'ясувати деякі приховані припущення? І т. Д.
амеба повідомляє про відновлення Моніки

Зауважте для себе: це arxiv.org/abs/1609.01664 , мабуть, пов’язане, але швидкий погляд не вирішив мою загадку.
амеба каже, що відбудеться Моніка

1
Мені б хотілося, щоб я не давав фіналу цього тижня або я витратив на це деякий час. Не має сенсу, що подальше значення p повинно залежати від потужності, за умови, що обидва розміри вибірки однакові. Спостережуване p-значення повинно залежати лише від справжнього значення параметра та вашого вибору нуля. Корисність оцінки залежить від потужності, але це не питання.
Дейв Харріс

3
Я виходжу сюди зі своєї ліги ... але, переглядаючи папір, здається, що все відбувається в контексті тестування на значну різницю в засобах двох популяцій Гаусса з однаковою відомою дисперсією та розмірами вибірки, з нулем 0 . Це правильно? (тобто де під нулем.) Або папір має ширший обсяг, як питання / коментарі тут, схоже, вказують? г=Дцz=Δx¯σN2Nz,1z=ΔμσN2=0
GeoMatt22

Відповіді:


21

Підсумок: Трюк, схоже, є байєсівським підходом, який передбачає рівномірність ( Jeffreys ) до прихованого параметра ( в додатку B до статті, тут). θzμθ

Я вважаю, що може існувати байєсівський підхід, щоб отримати рівняння, наведені в додатку Б. до статті.

Як я розумію, експеримент зводиться до статистики . Середнє розподілу вибірки невідоме, але зникає під нульовою гіпотезою . θ θ zNθ,1θθH0=0

Викличте експериментально спостережувану статистику . Тоді, якщо припустимо, що "рівномірний" ( неправильний ) до , байєсівський задній - . Якщо потім оновити оригінальний розподіл вибірки, маргіналізуючи над , задній стане . (Подвійна дисперсія пояснюється згорткою гауссів.)thetas~1thetas ; | г ~Н г ,1thetas ; | г г | г ~Н г ,2z^θNθ,1θ1θz^Nz^,1θz^zz^Nz^,2

Принаймні, математично це, здається, працює. І це пояснює, як фактор "магічно" з'являється, переходячи від рівняння В2 до рівняння В3.12


Обговорення

Як цей результат можна узгодити зі стандартною рамкою тестування нульової гіпотези? Одне можливе тлумачення полягає в наступному.

У стандартних рамках нульова гіпотеза в певному сенсі є "дефолтом" (наприклад, ми говоримо про "відхилення нуля"). У наведеному вище байєсівському контексті це було б неоднорідним попереднім, що надає перевагу . Якщо ми вважаємо це , то дисперсія являє собою нашу попередню невизначеність.θ=0θN0,λ2λ2

Проводячи це попередньо шляхом аналізу вище, ми знаходимо З цього видно, що в межі ми повернемо аналіз вище. Але в обмеженні наші "плакати" стають нульовими, і , тому ми відновимо стандартний результат, .АА0thetas ; | г ~N0,0г | г ~N0,1р | г ~U0,1

θN0,λ2θz^Nδ2z^,δ2,zz^Nδ2z^,1+δ2,δ211+λ2[0,1]
λλ0θz^N0,0zz^N0,1pz^U0,1

(Для повторних досліджень вищесказане наводить тут цікаве запитання про наслідки для байєсівського оновлення порівняно з "традиційними" методами метааналізу. Хоча я абсолютно неосвічений щодо метааналізу!)


Додаток

Як вимагається в коментарях, ось сюжет для порівняння. Це порівняно просте застосування формул у роботі. Однак я їх випишу, щоб не було двозначності.

Нехай позначає одностороннє значення p для статистики , а його (задній) CDF позначає . Тоді рівняння B3 з додатка еквівалентно де є стандартним нормальним CDF. Тоді відповідна щільність - де стандартний звичайний PDF, а як у формула CDF Нарешті, якщо позначимо через спостережуванеpz F[p]=1-Φ [ 1F[u]Pr[puz^]

F[p]=1Φ[12(z[p]z^)],z[p]=Φ1[1p]
Φ[]
f[p]F[p]=ϕ[(zz^)/2]2ϕ[z]
ϕ[]z=z[p]p^двостороннє значення p, що відповідає , тоді у нас є z^
z^=Φ1[1p^2]

Використання цих рівнянь дає рисунок нижче, який повинен бути порівнянним з цифрою 5 статті, цитованою у запитанні. "Відтворення" Куммінга (2008). Рис. 5 за допомогою розміщених формул.

(Це було створено за допомогою наступного коду Matlab; запустіть тут .)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

1
Я сподіваюся, що, виклавши основне припущення (наприклад, рівномірний попередній прихований параметр), тепер обговорення може зосередитись на науковому / статистичному питанні, яке, на мою думку, було вашою ціллю! (Замість питання з математики / ймовірності я відповів вище.)
GeoMatt22

Я знайшов кілька давніх і не дуже старих дискусій на цю тему: Goodman 1992 , коментар до Goodman від Senn 2002 та нещодавній Lazzeroni et al 2014 . Останнє здається досить корисним (але я згадую його про повноту), але перші два, зокрема коментар Сенна, видаються дуже доречними.
Амеба каже, що повернеться до Моніки

амеба дякую, що викопали ці довідки, вони виглядають цікаво! Для повноти я додав розділ "обговорення", намагаючись з'єднати результат Куммінга та стандартний фреймворк.
GeoMatt22

Оновлення: я читав документи, зв'язані вище Гудмена та Сенна, і тепер опублікував власну відповідь, щоб узагальнити мою поточну інтуїцію. (До речі, я з радістю прийняв вашу відповідь та нагородив її щедротою. Ще раз дякую.)
каже ameeba Відновити Моніку

27

Дякую за всі цікаві дискусії! Коли я писав цю статтю 2008 року, мені знадобилося певний час, щоб переконати себе в тому, що розподіл реплікації p ( значення p, задане точною реплікацією дослідження, тобто дослідження, яке точно таке, але з новим зразком) залежить тільки на p, наведеному оригінальним дослідженням. (У статті я припускаю нормально розподілену сукупність та випадкову вибірку, і що наші дослідження мають на меті оцінити середню сукупність.) Тому інтервал p (інтервал прогнозування 80% для реплікації p ) однаковий, незалежно від N , потужність або справжній розмір ефекту від оригінального дослідження.

Звичайно, це спочатку неймовірно. Але уважно зауважте, що моє оригінальне твердження засноване на знанні р з оригінального дослідження. Думай про це так. Припустимо, ви скажете мені, що у вашому первісному дослідженні знайдено p = .05. Ти нічого більше не скажи мені про дослідження. Я знаю, що 95% ІС на середньому зразку вашої вибірки поширюється точно на нуль (припустимо, що р розраховувався для нульової гіпотези нуля). Отже, середній показник вашої вибірки - це Міністерство економічної енергії (довжина однієї руки, що становить 95% CI), оскільки це відстань від нуля. Розподіл вибірки засобів у таких дослідженнях має стандартне відхилення МО / 1,96. Це стандартна помилка.

Розглянемо середнє значення, яке дає точна реплікація. Розподіл цього середнього значення реплікації має середнє значення МО, тобто розподіл зосереджено на вихідному середньому зразку. Розглянемо різницю між середньою вибіркою та середнім тиражем. Він має відхилення, що дорівнює сумі дисперсій середнього рівня досліджень, таких як ваше первісне дослідження, та реплікацій. Це вдвічі більше, ніж у початковому дослідженні, тобто 2 x SE ^ 2. Що 2 х (МО / 1,96) ^ 2. Отже, SD цієї різниці - SQRT (2) x МО / 1,96.

Тому ми знаємо розподіл середнього рівня реплікації: його середнє значення є Міністерством оборотів, а SD - SQRT (2) x MoE / 1,96. Звичайно, горизонтальна шкала є довільною, але нам потрібно знати цей розподіл лише стосовно ІС з вашого початкового дослідження. У міру запуску реплікацій більшість засобів (близько 83%) потраплять до первісних 95% ІС, а близько 8% опускаються нижче (тобто нижче нуля, якщо початкове середнє значення було> 0) і на 8% вище за це CI. Якщо ми знаємо, куди падає середнє значення реплікації по відношенню до вашої початкової CI, ми можемо обчислити її p значення. Ми знаємо розподіл таких засобів реплікації (по відношенню до вашої CI), щоб ми могли з'ясувати розподіл реплікації pзначення. Єдине припущення, яке ми робимо щодо реплікації, це те, що воно є точним, тобто воно походить з тієї ж популяції, з тим же розміром ефекту, що і ваше первісне дослідження, і що N (і експериментальна конструкція) були такими ж, як у вашому дослідженні .

Все вищесказане - це лише перезавантаження аргументу в статті, без малюнків.

Але неформально, може бути корисним подумати, що означає p = .05 в оригінальному дослідженні. Це може означати, що у вас є величезне дослідження з крихітним розміром ефекту, або крихітне дослідження з гігантським розміром ефекту. У будь-якому випадку, якщо ви повторите це дослідження (той же N , однакова сукупність), ви, без сумніву, отримаєте дещо інше значення вибірки. Виявляється, що з точки зору p значення "дещо інше" те саме, чи було у вас величезне чи крихітне дослідження. Отже, скажіть мені тільки ваше значення p, і я скажу вам ваш p інтервал.

Джефф


8
Дуже дякую за реєстрацію на цьому веб-сайті, щоб відповісти на моє запитання! Я дуже ціную це. Я досі не впевнений, але мені знадобиться певний час, щоб задуматися над вашою відповіддю. Моє теперішнє відчуття, що ти робиш дійсну точку, але я не згоден з тим, як ти це формулюєш. Одне просте заперечення: p = 0,05 відповідає тому, що H0 є істинним. Якщо H0 вірно, p буде знаходитись в інтервалі 0,04-0,05 за 1% часу. У такому випадку розподіл p-значень реплікації буде рівномірним від 0 до 1. Але ви прогнозуєте різний розподіл для початкового p = 0,05 за будь-яких обставин . Як слід про це думати?
амеба каже, що відбудеться Моніка

7
Неявне припущення в цьому аргументі виглядає безперечним: це те, що "точна реплікація" має середнє значення, рівне МО. Якщо під «точною реплікацією» ми маємо на увазі повторення експерименту з однаковим станом природи, то розподіл тестової статистики невідомий: це залежить від стану природи. Крім прийняття байєсівської точки зору - що означає, що вам потрібно чітко заявити своє попереднє - про єдиний спосіб досягти прогресу - це обчислити ймовірності до того, як буде виконано або оригінал, або репліку, не обумовлюючи репліку.
whuber

2
@ user43849 Я б з усією повагою заявив, що така людина не розуміє, що таке р-значення. Значення р говорить майже нічого про майбутні експерименти. Існує частофілістська концепція інтервалу прогнозування, яка безпосередньо застосовується тут: питання реплікації просто стосується інтервалу прогнозування p-значення одного майбутнього експерименту. Відповідь добре обґрунтована класичною статистичною теорією, не вимагає інноваційних концепцій і є (безумовно) не байєсівською за духом.
whuber

2
@whuber, копаючись у папері, я вважаю, що може бути неявне байєсівське припущення, що лежить в основі вправи (див. мою відповідь).
GeoMatt22

1
@GeoMatt Так, це виглядає як єдиний спосіб виправдати обчислення.
whuber

10

Проблему було роз'яснено @ GeoMatt22, і я був радий бачити, що @GeoffCumming приїжджає сюди для участі в дискусії. Я публікую цю відповідь як додатковий коментар.


Як виявляється, ця дискусія стосується принаймні Гудмена (1992) . Коментар щодо тиражування, P-значень та доказів та пізнішої відповіді лист від редактора Сенна (2002) . Я настійно рекомендую прочитати ці дві короткі статті, зокрема, статтю Стівена Сенна; Я вважаю себе цілком згідним із Сенном.

Якби я прочитав ці документи, перш ніж задавати це питання, я, швидше за все, ніколи не розміщував би його. Гудман (на відміну від Куммінга) дуже чітко заявляє, що вважає байєсівську обстановку з плоскою до цього. Він не представляє -значущих розподілів, як це робить Куммінг, і натомість повідомляє про ймовірність спостереження "значного" результату в експерименті з реплікацією:p < 0,05pp<0.05

Гудман 1992

Його головна думка полягає в тому, що ці ймовірності напрочуд низькі (навіть для це лише ). Зокрема, для це лише . (Ця остання ймовірності залишається однаковою для будь-яких і .)0,78 р = 0,05 0,5 1 / 2 α р = αp=0.0010.78p=0.050.51/2αp=α

Сенс відповіді SENN є те , що це корисне спостереження , яке, однак, не НЕ підривати -значення в будь-якому випадку і зовсім НЕ , всупереч Гудман, означає , що -значення «переоцінювати докази проти нульової». Він пише:рpp

Я також вважаю, що його демонстрація [Гудмена] корисна з двох причин. По-перше, це служить попередженням для тих, хто планує подальше дослідження, схоже на те, що тільки що закінчилося (і яке має незначний результат), що це може не відповідати в другому дослідженні. По-друге, це служить попередженням про те, що очевидна неузгодженість результатів окремих досліджень може бути поширеною і не слід перебільшувати це явище.

Сенн нагадує нам, що однобічні -значення можна розуміти як байєсівські задні ймовірності під площиною до (неправильне перед усією реальною лінією) [ короткий обговорення див. У Marsman & Wagenmakers 2016 цього факту та деякі цитати] .H 0 : μ < 0 μpH0:μ<0μ

Якщо так, то, отримавши якесь конкретне -значення в одному експерименті, ймовірність того, що наступний експеримент дасть нижчу -значення , повинна бути ; інакше майбутні реплікації можуть якось надати додаткові докази перед їх проведенням. Тож має повний сенс, що при Гудман отримав вірогідність . І дійсно, всі розподіли реплікації, обчислені Cumming та @ GeoMatt22, мають медіани у відповідному .р 1 / 2 р = 0,05 0,5 р про б иp p1/2p=0.050.5pobs

Однак нам не потрібно, щоб ймовірність тиражування була вище щоб вважати, що ефективність лікування є ймовірною. Довга серія випробувань, відсотків з яких були значущими на рівні відсотків, буде переконливим доказом того, що лікування було ефективним.50 50.5505

Між іншим, той, хто подивився на прогнозовані розподіли -значень для, скажімо, t-тесту заданого розміру та потужності ( див. Наприклад тут ), не здивується, що необхідність медіани при обов'язково зробить цей розподіл досить широким , з товстим хвостом, що йде назустріч . У цьому світлі широкі інтервали, про які повідомляє Каммінг, перестають дивувати.p = 0,05 1pp=0.051

Те , що вони скоріше б припустити, що слід використовувати більші розміри вибірки при спробі повторити експеримент; Дійсно, це стандартна рекомендація для досліджень реплікації (наприклад, Урі Сімонсон пропонує , як правило, збільшити розмір вибірки в рази ).2.5


5
(+1) На щастя , ви не траплялися з Гудменом чи Сенном до цього часу. :-)
кардинал

6

Дякуємо всім за подальшу цікаву дискусію. Замість того, щоб робити свої коментарі, окремо, я запропоную кілька загальних міркувань.

Байєс. Я взагалі нічого не маю проти байєсівських підходів. З самого початку я очікував, що байєсівський аналіз, припускаючи рівний або дифузний попередній, дасть однакові або дуже схожі інтервали прогнозування. Є пункт на с. 291 у статті про це 2008 року, частково запропоновану одним з рецензентів. Тож мені приємно бачити, як було пророблено цей підхід. Це чудово, але це зовсім інший підхід від того, який я взяв.

Як осторонь, я вирішив працювати над пропагуванням довірчих інтервалів (нова статистика: розміри ефектів, CI, мета-аналіз), а не байєсівські підходи до оцінки (на основі достовірних інтервалів), тому що я не знаю, як пояснити Байєсий підходить до новачків досить добре. Я не бачив жодного справді вступного байєсівського підручника, який, на мою думку, міг би використовувати з початківцями, або що, ймовірно, знайдеться доступним та переконливим великою кількістю дослідників. Тому нам потрібно шукати в іншому місці, якщо ми хочемо мати гідний шанс покращити спосіб дослідження дослідників. Так, нам потрібно вийти за межі рЗначення та перехід від дихотомічного прийняття рішень до оцінки, і баєси можуть це зробити. Але набагато більше шансів домогтися практичних змін, так, звичайний підхід ІС. Ось чому наш нещодавно випущений підручник зі статистики вступу застосовує новий статистичний підхід. Див. Www.thenewstatistics.com

Повернутися до роздумів. Основним для мого аналізу є те, що я маю на увазі, знаючи лише значення p з першого дослідження. Висловлені я припущення (нормальна сукупність, випадкова вибірка, відома популяція SD, тому ми можемо використовувати z, а не t обчислення, оскільки ми проводимо висновок про середню сукупність, точну реплікацію). Але це все, що я припускаю. Моє запитання: "Дано лише p від початкового експерименту, як далеко ми можемо пройти?" Мій висновок полягає в тому, що ми можемо знайти розподіл р, очікуваний від експерименту реплікації. З цього розподілу ми можемо отримати p інтервали або будь-яку ймовірність зацікавлення, таку як ймовірність того, що реплікація дасть p<.05, або будь-яке інше значення відсотка.

Ядро аргументу і, можливо, крок, який варто найбільше замислити, проілюстровано на рисунку А2 у статті. Нижня половина, ймовірно, непроблемна. Якщо ми знаємо mu (як правило, досягається, якщо припустити, що він дорівнює середньому з початкового дослідження), то помилки оцінки, представлені сегментами товстої лінії, мають відомий розподіл (нормальний, середній mu, SD, як пояснено у підписі).

Тоді великий крок: Розгляньте верхню половину рисунка 2А. Ми не маємо інформації про му. Ніякої інформації - не будь-яке приховане припущення про попереднє. Але ми можемо констатувати розподіл таких сегментів товстої лінії: нормальне, середнє нульове значення, SD = SQRT (2) рази більше SD в нижній половині. Це дає нам те, що нам потрібно, щоб знайти розподіл реплікації p .

Отримані р інтервалів дивно довго, принаймні , я відчуваю подив , коли я порівнюю з тим , як р значення практично повсюдно використовуються дослідниками. Дослідники, як правило, нав'язливі щодо другого чи третього десяткових знаків значення p , не розуміючи, що значення, яке вони бачать, дуже легко може бути дуже різним. Звідси мої коментарі до п. 293-4 про звіт про р- інтервали, щоб визнати розпливчастість с .

Довго, так, але це не означає, що p з початкового експерименту нічого не означає. Після дуже низького початкового р реплікації, як правило, матимуть невеликі значення p . Вищі початкові p та реплікації, як правило, мають дещо більші p значення. Див. Таблицю 1 на стор. 292 та порівняйте, наприклад, інтервали p у правому стовпчику для початкових p = .001 та .1 - два результати, що умовно вважаються милями один від одного. Інтервали двох р , безумовно, різні, але існує величезне перекриття двох. Тиражування експерименту .001 може досить легко дати pбільша за тиражування експерименту .1. Хоча, швидше за все, це не було б.

У рамках свого докторського дослідження Джеррі Лай повідомив ( Lai, et al., 2011 ) про декілька приємних досліджень, які виявили, що опубліковані дослідники з ряду дисциплін мають суб'єктивні інтервали p , які занадто короткі. Іншими словами, дослідники , як правило недооцінити різко , як різні р значення реплікації, ймовірно, буде.

Мій висновок полягає в тому, що ми просто не повинні взагалі використовувати значення p . Повідомте і обговоріть 95% ІС, який передає всю інформацію в даних, які розповідають про кількість населення означає, що ми досліджуємо. З огляду на CI, то р значення нічого не додає, і, ймовірно, припустити, помилково, деяка ступінь впевненості (Істотна! Не важливо! Ефект існує! Це не так!). Зрозуміло, значення CI та p базуються на одній теорії, і ми можемо конвертувати з однієї в іншу (про це багато в главі 6 нашого підручника з введення). Але КІ дає більше інформації, ніж p . Найголовніше, що це робить помітним ступінь невизначеності. Враховуючи нашу схильність людини до розуміння визначеності, важливо враховувати ступінь ІС.

Я також намагався підкреслити мінливість p значень у відеозаписі "танець р значень". Google "танець значень p ". Існує хоча б пара версій.

Нехай усі ваші довірчі інтервали будуть короткими!

Джефф


3
Дякую за ці додаткові коментарі, Джефф. Я згоден з деякими моментами (наприклад, щодо "ступеня визначеності") і не погоджуюся з деякими іншими (наприклад, "Зважаючи на ІП, значення p не додає нічого"), але одне, зокрема, я вважаю, що потрібно повторити: я не думаю, що є якийсь спосіб зробити аналіз без попереднього Байєса. Аргумент, представлений на малюнку A2, вимагає рівності, як прихованого припущення. Можна припускати інших пріорів і досягати дуже різних результатів; Я не думаю, що є суто часті аргументи, які можуть підтвердити ваші висновки. Дивіться коментарі @ whuber вище.
Амеба каже, що повернеться Моніка

@Geoff Cumming - Ваші коментарі щодо навчання статистики та інтерпретації результатів дуже високо оцінені.
rolando2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.