ASA обговорює обмеження -значень - які альтернативи?


100

У нас вже є кілька потоків, позначених як які виявляють багато непорозумінь щодо них. Десять місяців тому у нас була нитка про психологічний журнал, який "заборонив" -значенняp р , зараз Американська статистична асоціація (2016) каже, що з нашим аналізом ми "не повинні закінчуватися обчисленням -значення".p

Американська статистична асоціація (ASA) вважає, що наукове співтовариство може скористатися офіційною заявою, що пояснює декілька широко узгоджених принципів, що лежать в основі правильного використання та інтерпретації значення .p

Комітет перераховує інші підходи як можливі альтернативи чи доповнення до -значень:p

Зважаючи на поширені зловживання та хибні уявлення щодо -значень, деякі статистики вважають за краще доповнювати або навіть замінювати -значення іншими підходами. До них відносяться методи, що підкреслюють оцінку щодо тестування, такі як впевненість, достовірність або інтервали прогнозування; Байєсівські методи; альтернативні доказові заходи, такі як коефіцієнти ймовірності або фактори Байєса; та інші підходи, такі як теоретичне моделювання рішень та швидкість виявлення помилок. Усі ці заходи та підходи покладаються на подальші припущення, але вони можуть більш безпосередньо стосуватися розміру ефекту (та пов’язаної з цим невизначеності) або правильності гіпотези. рpp

Тож давайте уявимо реальність після оцінки . ASA перераховує деякі методи, які можна використовувати замість -значень, але чому вони кращі? Які з них можуть бути заміною в реальному житті для дослідника, який використовував -значення протягом усього свого життя? Я вважаю , що такого роду питання будуть з'являтися в пост- -значення реальності, так що, може бути , давайте намагатися бути один крок попереду них. Що є розумною альтернативою, яку можна застосувати нестандартно? Чому такий підхід повинен переконувати вашого провідного дослідника, редактора чи читачів?p p ppppp

Як підказує цей наступний запис у блозі , -значення неперевершені своєю простотою:p

Значення р вимагає лише статистичної моделі поведінки статистики, яка має місце при нульовій гіпотезі. Навіть якщо модель альтернативної гіпотези використовується для вибору "хорошої" статистики (яка була б використана для побудови p-значення), ця альтернативна модель не повинна бути правильною для того, щоб р-значення було дійсним і корисно (тобто: помилка управління I типу на потрібному рівні, пропонуючи деяку потужність для виявлення реального ефекту). На відміну від інших (чудових і корисних) статистичних методів, таких як коефіцієнти ймовірності, оцінка розміру ефекту, довірчі інтервали або байєсівські методи, всі необхідні моделі мають змогу утримуватись у більш широкому діапазоні ситуацій, а не лише під тестовою нулею.

Це вони, чи, може, це неправда, і ми можемо їх легко замінити?

Я знаю, це широко, але головне питання просте: яка найкраща (і чому) реальна альтернатива -значенням, які можна використовувати як заміну?p


ASA (2016). Заява ASA про статистичну значимість та . П Американський статистик. (в пресі)


3
Обов’язково стане класичним питанням +1! Байєсівський підхід, оскільки він дозволяє нам (принаймні суб'єктивно) відповісти на питання, яке нас часто цікавить, а саме: "Зважаючи на докази (дані), яка ймовірність того, що гіпотеза є істинною?"
Крістоф Ганк

9
«Пост -значення реальність» має приємний похмуре кільце до нього. p
Marc Claesen

4
Документи для обговорення, розміщені разом із твердженням ASA, варто прочитати, оскільки деякі з них мають пропозиції щодо того, що може замінити p-значення. Додатковий зміст
Сет

2
Я опублікував відповідне запитання на основі іншої частини звіту ASA, одного з його попереджень про можливі зловживання p-значеннями: скільки ми знаємо про p-хакерство?
Срібна рибка

1
Як коментар до мого власного питання, є приємна тема, яка обговорює подібну тему: stats.stackexchange.com/questions/17897/…
Тім

Відповіді:


100

Я сфокусую цю відповідь на конкретному питанні, які є альтернативи -значенням.p

Є 21 дискусійних матеріалів , опублікованих разом із заявою ASA ( в якості додаткових матеріалів): Наомі Альтмана, Дуглас Альтман, Daniel J. Бенджамін, Йоав Бенджамін, Джим Бергер, Дон Беррі, Джон Карлін, Джордж Кобб, Ендрю Гельман, Стів Гудман, Сандер Ґренландія, Джон Іоаннідіс, Джозеф Горовіц, Вален Джонсон, Майкл Лавін, Майкл Лев, Род Літл, Дебора Майо, Мішель Міллар, Чарльз Пул, Кен Ротман, Стівен Сенн, Дален Стангл, Філіп Старк і Стів Зіляк (деякі з них писали разом ; Я перелічу всі для майбутніх пошуків). Ці люди, ймовірно, охоплюють усі існуючі думки щодо -значень та статистичних висновків.p

Я переглянув усі 21 папір.

На жаль, більшість із них не обговорює жодних реальних альтернатив, хоча більшість стосується обмежень, непорозумінь та різних інших проблем з -значеннями (для захисту p -значень див. Бенджаміні, Майо та Сенн). Це вже говорить про те, що альтернативи, якщо такі є, знайти нелегко і / або захистити їх непросто.pp

Отже, давайте подивимось на перелік "інших підходів", наведений у самій заяві ASA (як це вказано у вашому запитанні):

[Інші підходи] включають методи, що підкреслюють оцінку щодо тестування, такі як впевненість, достовірність або інтервали прогнозування; Байєсівські методи; альтернативні доказові заходи, такі як коефіцієнти ймовірності або фактори Байєса; та інші підходи, такі як теоретичне моделювання рішень та швидкість виявлення помилок.

  1. Інтервали довіри

    Інтервали довіри - це інструмент, що часто застосовується, який іде одночасно з ; повідомлення про довірчий інтервал (або якийсь еквівалент, наприклад, середня ± стандартна похибка середнього значення) разом з р- значення майже завжди є хорошою ідеєю.p±p

    Деякі люди (не входить в числі тих, що сперечаються ASA) свідчать про те , що довірчі інтервали повинні замінити на -значення. Одним з найбільш відвертих прихильників такого підходу є Джефф Каммінг, який називає це новою статистикою (ім'я, яке я вважаю жахливим). Дивіться, наприклад, це повідомлення у блозі Ульріха Шиммака для детальної критики: Критичний огляд Кеммінга (2014) Нова статистика: Перепродаж старої статистики як нової статистики . Дивіться також. Ми не можемо дозволити собі вивчити розмір ефекту в публікації про блог Урі Сімонсона в лабораторній публікації.p

    Дивіться також цю тему (і моя відповідь в них) про пропозицію по схоже Norm Matloff де я сперечаюся , що при складанні звітів КЕ один все ж хотів би мати -значення повідомило , а також: Що таке добре, переконливий приклад , в якому р-значення корисні?p

    Деякі інші люди (не входять також серед спірних підписників ASA), однак, стверджують, що інтервали довіри, будучи частішим інструментом, такі ж неправильні, як і -значення, і їх також слід утилізувати. Див., Наприклад, Morey et al. 2015, помилковість розміщення довіри у довірчих інтервалах, пов’язаних @Tim тут у коментарях. Це дуже стара дискусія.p

  2. Баєсові методи

    (Мені не подобається, як заява ASA формулює список. Достовірні інтервали та фактори Байєса перераховані окремо від "байєсівських методів", але вони, очевидно, байєсівські інструменти. Тому я тут їх підраховую разом.)

    • Існує величезна і дуже самовпевнена література про байесівські та частоталістські дебати. Дивіться, наприклад, цю недавню нитку для деяких думок: Коли (якщо взагалі колись) є частоцистський підхід істотно кращий, ніж байєсівський? Байєсівський аналіз має повний сенс, якщо у вас є хороші інформативні пріори, і кожен буде радий лише обчислити і повідомити або p ( H 0 : θ = 0 | дані ) замість p ( дані принаймні як крайні | H 0 )p(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)- Але, на жаль, люди зазвичай не мають добрих пріорів. Експериментатор записує 20 щурів, що роблять щось в одному стані, і 20 щурів, що роблять те ж саме в іншому стані; передбачення полягає в тому, що показники колишніх щурів перевищуватимуть показники останніх щурів, але ніхто не бажає і не зможе заявити про чіткі попередні відмінності в продуктивності. (Але дивіться відповідь @ FrankHarrell, де він виступає за використання "скептичних пріорів".)

    • Важкі байєси пропонують використовувати байєсівські методи, навіть якщо у них немає ніяких інформативних пріорів. Один з останніх прикладів - Krushke, 2012, оцінка Байєса витісняє -testt , покірно скорочений як BEST. Ідея полягає у використанні байєсівської моделі зі слабкими неінформативними пріорами для обчислення заднього для ефекту інтересу (наприклад, різниця в групах). Практична відмінність від частолістських міркувань, як правило, незначна, і наскільки я бачу, такий підхід залишається непопулярним. Див. Що таке "неінформативний пріоритет"? Чи можемо ми колись мати таку, яка справді не має інформації? для обговорення того, що є "неінформативним" (відповідь: такого немає, звідси суперечка).

    • Альтернативний підхід, повернувшись до Гарольда Джеффрі, базується на байєсівському тестуванні (на відміну від байєсівської оцінки ) та використовує фактори Байєса. Одним з найбільш красномовних і плодовитих прихильників є Ерік-Ян Вагенмейкерс, який останнім часом багато опублікував на цю тему. Тут варто підкреслити дві особливості цього підходу. По-перше, див. Wetzels et al., 2012, Тест гіпотези Байесів за замовчуванням для конструкцій ANOVA для ілюстрації того, наскільки сильно результат такого байєсівського тесту може залежати від конкретного вибору альтернативної гіпотези H1і розподіл параметрів ("попередній"), який він задає. По- друге, коли - то «розумний» перед обраний (Вагенмакерс рекламує Джеффріс так звані " по замовчуванню" апріорні), в результаті чого Байеса чинники часто виявляються цілком узгоджується зі стандартними -значення, дивись , наприклад , ця цифра з цього препринт Marsman & Wagenmakers :p

      Фактори Байєса проти p-значень

      Так, поки Wagenmakers та ін. продовжуйте наполягати на тому, що -значення є глибокими недоліками, а фактори Байєса - це не можна не дивуватися ... (Справедливо кажучи, суть Wetzels та ін. 2011 року полягає в тому, що для p -значень, близьких лише до 0,05 факторів Байєса вкажіть на дуже слабкі докази проти нуля, але зауважте, що це можна легко вирішити в парадигмі частолістського просто, використовуючи більш суворий α - те, про що багато хто виступає в будь-якому випадку). pp0.05α

      Один з найпопулярніших робіт Wagenmakers et al. на захист факторів Байєса - 2011, Чому психологи повинні змінити спосіб аналізу своїх даних: Випадки пси, де він стверджує, що сумнозвісна праця Бема про прогнозування майбутнього не дійшла б до їх помилкових висновків, якби вони використовували лише фактори Баєса з -значення. Дивіться цю продуману публікацію в блозі Ульріха Шиммака для детального (і переконливого ІМХО) контр-аргументу: Чому психологи не повинні змінювати спосіб аналізу своїх даних: Диявол знаходиться в пріоритеті за замовчуванням .p

      Дивіться також Байєсівський тест за замовчуванням попередньо оцінений у блозі Урі Сімонсона щодо малих ефектів .

    • Для повноти я зазначу, що Wagenmakers 2007, практичне рішення поширених проблем -значень,p пропонував використовувати BIC як наближення до коефіцієнта Байєса для заміни -значень. BIC не залежить від попереднього, і, отже, незважаючи на свою назву, насправді не є баєсами; Я не впевнений, що думати про цю пропозицію. Здається, що останнім часом Вагенмейкер більше виступає за байесівські тести з неінформативними приорами Джефріса, див. Вище.p


    Для подальшого обговорення оцінки Байєса та Баєсового тестування див. Оцінку параметрів Байєса чи тестування гіпотези Баєса? і посилання на них.

  3. Мінімальні фактори Баєса

    Серед суперечок ASA це чітко запропоновано Benjamin & Berger та Valen Johnson (єдині два документи, які стосуються пропонування конкретної альтернативи). Їх конкретні пропозиції дещо відрізняються, але вони схожі за духом.

    • Ідеї Berger повернутися до Berger & Sellke +1987 і існує ряд робіт Бергера, Sellke і співробітників аж до минулого року розробки на цій роботі. Ідея полягає в тому, що під шипом і плитою, до якої точка нульової гіпотеза отримує ймовірність 0,5, а всі інші значення μ отримують ймовірність 0,5, симетрично поширюється навколо 0 ("локальна альтернатива"), то мінімальний задній p ( H 0 ) над всі локальні альтернативи, тобто мінімальний коефіцієнт Байєса , значно вищий за pμ=00.5μ0.50p(H0)p-цінність. Це є основою (значно оскаржуваного) твердження, що -значення "завищують докази" проти нуля. Пропозиція полягає у використанні нижньої межі коефіцієнта Байєса на користь нуля замість p -значення; за деякими широкими припущеннями, ця нижня межа виявляється заданою через - e p log ( p ) , тобто значення p- значення ефективно помножується на - e log ( p ), що є коефіцієнтом приблизно від 10 до 20 для загального діапазону з р -значення. Такий підхід схваленоppeplog(p)pelog(p)1020p також Стівен Гудман.

      Пізніше оновлення: дивіться хороший мультфільм, що пояснює ці ідеї простим способом.

      Ще пізніше оновлення: Див. Held & Ott, 2018, Про -Values ​​та фактори Байєсаp для всебічного огляду та подальшого аналізу перетворення значень у мінімальні коефіцієнти Байєса. Ось одна таблиця звідти:p

      Фактори Mininum Bayes

    • Вален Джонсон запропонував щось подібне у своєму документі PNAS 2013 ; його пропозиція приблизно зводиться до множення -значень на p який становить приблизно від5до10.4πlog(p)510


    Коротку критику статті Джонсона див. У відповіді Ендрю Гельмана та @ Xi'an у PNAS. Про контраргумент Berger & Sellke 1987 дивіться у розділі Casella & Berger 1987 (різні Berger!). Серед дискусійних документів APA Стівен Сенн прямо виступає проти будь-якого з цих підходів:

    Ймовірності помилок не є задніми ймовірностями. Безумовно, статистичного аналізу існує набагато більше, ніж значень, але їх слід залишити в спокої, а не деформувати певним чином, щоб стати байєсівськими задніми ймовірностями другого класу.П

    Дивіться також посилання у статті Сенна, включаючи посилання на блог Майо.

  4. Заява ASA перераховує "теоретичне моделювання рішень та швидкість виявлення помилок" як іншу альтернативу. Я поняття не маю, про що вони говорять, і я був радий бачити це, що було сказано в дискусійному документі Старка:

    Розділ "Інші підходи" ігнорує той факт, що припущення деяких із цих методів ідентичні тим, що мають -значення. Дійсно, деякі методи використовують р-значення як вхідні дані (наприклад, помилковий показник виявлення).pp


Я дуже скептично налаштований на те, що в фактичній науковій практиці є що- небудь, що може замінити -значення, таким чином, щоб проблеми, які часто пов'язані з p -значеннями (криза реплікації, p- хакінг тощо), пішли б. Будь-яку фіксовану процедуру прийняття рішення, наприклад, байєсівську, можливо, можна "зламати" так само, як p -знаки можуть бути p- хакіровані (про деяку дискусію та демонстрацію цього див. У цьому блозі Урі Сімонсона 2014 року ).ppppp

Цитувати з дискусійного документа Ендрю Гелмана:

Підсумовуючи це, я погоджуюся з більшістю тверджень ASA щодо -значень, але я вважаю, що проблеми є глибшими, і що рішення полягає не в тому, щоб реформувати p -значення або замінювати їх якимось іншим статистичним підсумком або порогом, а скоріше рухатися до більшого сприйняття невизначеності та прийняття варіації.pp

І від Стівена Сенна:

Коротше кажучи, проблема менша з значень як такої, але з створенням їх кумира. Заміна іншого фальшивого бога не допоможе.P

І ось як Коен виклав це у своїй відомій та високо цитованій (3,5 к. Цити) статті 1994 р . Земля кругла ( ),p<0,05 де він дуже рішуче виступав проти -значень:p

[...] не шукайте магічну альтернативу NHST, якийсь інший об'єктивний механічний ритуал, щоб замінити його. Його не існує.


1
@amoeba дякую, це чудовий підсумок! Я згоден з вашим скептицизмом - ця нитка виникла частково тому, що я її поділяю. У цей момент я залишаю тему відкритою - без прийнятої відповіді - оскільки, можливо, хтось зможе надати переконливі приклади та аргументи про те, що існує якась справжня, добра альтернатива.
Тім

1
@amoeba щодо Wagenmakers та BIC, добре порівняти її з критикою, наприклад, від Gelman
Tim

2
Це справді вражаюча відповідь, яка заслуговує на те, щоб бути серед найкращих відповідей на резюме. Я можу додати ще одну винагороду десь після Тіма.
gung

Дякую, @gung, я радий це почути, це означає, що від тебе багато чого. Хоча сказати, що я лише поверхнево знайомий з байєсівським тестуванням і маю нульовий практичний досвід. Тож ця відповідь дає короткий зміст того, що я читав, але це насправді не думка експерта.
амеба

1
Ні, вам не потрібен інформаційний поперед, щоб Bayes працював добре. Як добре показав Spiegelhalter, скептичні пріори відіграють головну роль і прості у використанні. Задні ймовірності Байєса мають основні переваги.
Френк Харрелл

27

Ось два мої центи.

Я думаю, що в якийсь момент багато прикладних вчених заявили наступну "теорему":

p-value<0.05my hypothesis is true.

і більшість поганих практик походить саме звідси.

p

Раніше я працював з людьми, які використовують статистику, не розуміючи її, і ось, що я бачу:

  1. p<0.05

  2. p<0,05

  3. 0,05

Все, що робиться вправними, чесними вченими, що не мають сильних відчуттів обману. Чому? ІМХО, через теорему 1.

p0,05p<0,05p<0,05

p

p

p>0,05

  1. Н0:мк1мк2pH0p=0.2

Основна проблема з -значення полягає в тому, що альтернатива ніколи не згадується, хоча я думаю, що у багатьох випадках це може багато допомогти. Типовим прикладом є точка 4., де я запропонував колезі обчислити заднє відношення для p ( μ 1 > μ 2 | x )pp(μ1>μ2|x)p(μ1<μ2|x)μ1>μ2μ2>μ1

Інший пов'язаний випадок, коли експерти хочуть:

  1. тест μ1>μ2>μ3μ1=μ2=μ3μ1>μ2>μ3

Згадування альтернативної гіпотези - єдине рішення для вирішення цієї справи.

Тож використання задніх шансів, коефіцієнт Байєса або співвідношення ймовірності спільно з довірчими / достовірними інтервалами, здається, зменшують основні проблеми.

p

pp

Моє два копійки висновок

p


Можливо, ви могли б відредагувати свій приклад, щоб бути більш зрозумілим, оскільки як на сьогодні ви розраховували, які дані були і звідки беруться цифри?
Тім

@Tim. Tks для feedbak. Який приклад ви переглядаєте?
peuhp

"спробуйте порівняти (лише тому, що у нас є дані) гіпотезу: візьміть 10 та 10 даних, обчисліть p-значення. Знайдіть p = 0,2 ...."
Тим

1
Я також не вважаю, що "знання" вашої гіпотези є правдивим, навіть якщо дані, здається, підказують інакше, обов'язково є поганою справою. Очевидно, як це відчував Грегор Мендель, коли в його експериментах щось було не так, оскільки він мав настільки сильну інтуїцію, що його теорії були правильними.
dsaxton

@dsaxton Повністю згоден з вами. Можливо, це не так зрозуміло, але це одне, що я намагаюся проілюструвати у своєму першому пункті: p-значення не є кінцевим ключем наукової індукції (хоча воно, здається, для певної аудиторії). Це статистичне вимірювання обґрунтованих даних певним обсягом даних за певних умов. І у випадку, коли у вас занадто багато зовнішніх причин вважати, що хип - це правда, але коли дані дійсно забезпечують "хороше" значення p, інші речі можуть бути обговорені, як ви це належним чином зазначили. Я спробую зробити це більш зрозумілим у своєму коханому.
pehhp

24

P

  1. Більш програмне забезпечення доступне для частістських методів, ніж байєсівські методи.
  2. В даний час деякі байєсівські аналізи потребують тривалого часу.
  3. Байєсівські методи вимагають більше мислення та більше часу. Я не проти мислячої частини, але час часто короткий, тому ми беремо ярлики.
  4. Завантажувальний пристрій - це надзвичайно гнучка та корисна побутова техніка, яка більше пов'язана з частістським світом, ніж з байесівською.

PP змушує робити довільну коригування кратності, навіть коригуючи зовнішній вигляд даних, який, можливо, вплинув, але насправді цього не зробив.

P

За винятком лінійних моделей Гаусса та експоненціального розподілу, майже все, що ми робимо при частому виведенні, є приблизним (хорошим прикладом є двійкова логістична модель, яка спричиняє проблеми, оскільки її функція вірогідності журналу дуже квадратична). З байєсівським висновком, все точно в межах помилки моделювання (і ви завжди можете зробити більше моделювання, щоб отримати задню вірогідність / достовірні інтервали).

Я написав більш детальний облік свого мислення та еволюції на веб- сайті http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html


3
p

2
p

3
t

1
Френк, дякую. Я не дуже добре знайомий з баєсівським тестуванням (і раніше не чув про Box & Tiao), але моє загальне враження полягає в тому, що фактор Байєса, який виходить з байєсівського тесту, може досить сильно залежати від конкретного вибору неінформативного до того І цей вибір може бути важко мотивувати. Я думаю, те саме стосується і достовірних інтервалів - вони будуть сильно залежати від вибору неінформативного попереднього. Чи не правда? Якщо це так, то як слід з цим боротися?
амеба

2
Так, хоча я не використовую факторів Байєса. Частоталістський підхід також вибирає попередній - той, який ігнорує всі інші знання про цю тему. Я віддаю перевагу скептичному попередньому підходу Шпігельтер. В ідеальному світі ви дозволите вашим скептикам забезпечити пріоритет.
Френк Харрелл

6

Блискучий синоптик Скотт Армстронг з Wharton опублікував статтю майже 10 років тому під назвою « Тести значущості» . Незважаючи на те, що це передбачено для прогнозування, це може бути узагальнено до будь-якого аналізу даних або прийняття рішень. У статті він зазначає, що:

"Тести, що мають статистичну значимість, шкодять науковому прогресу. Намагань знайти винятки з цього висновку на сьогодні не виявилося жодним".

Це відмінне прочитання для всіх, хто цікавиться антитетичним переглядом значущості та значень P.

Причина, чому мені подобається ця стаття, полягає в тому, що Армстронг пропонує альтернативи тестуванню значущості, які є стислими і їх можна легко зрозуміти, особливо для нестатиста, як я. На мою думку, це набагато краще, ніж стаття ASA, процитована у запитанні:введіть тут опис зображення

Все це я продовжую сприймати і з тих пір перестала використовувати тестування на значимість або дивитись на значення P, за винятком випадків, коли я роблю рандомізовані експериментальні дослідження або квазі експерименти. Треба додати, що рандомізовані експерименти є дуже рідкісними на практиці, за винятком фармацевтичної промисловості / наук про життя та в деяких галузях техніки.


4
Що ви маєте на увазі, що "рандомізовані експерименти дуже рідкісні на практиці, окрім фармацевтичної промисловості та в деяких галузях техніки"? Рандомізовані експерименти є скрізь у біології та психології.
амеба

Я редагував це, щоб включати науки про життя.
синоптик

2
Гаразд, але сказати, що ранд. досвід "дуже рідкісні", за винятком медицини та наук про життя, а психологія в основному говорить про те, що вони "дуже поширені". Тож я не впевнений у вашій точці.
амеба

6

p -значення, заснованого на значеннях, які мають такі самі логічні недоліки.

p. Я все ще вважаю, що це адекватний підхід, який залишає питання про наукову придатність цих висновків в руках тих експертів, які займаються контентом. Тепер помилка, яку ми знаходимо в сучасних програмах, аж ніяк не є виною статистики як науки. Також у грі є рибалка, екстраполяція та перебільшення. Дійсно, якщо (скажімо) кардіолог повинен брехати і стверджувати, що препарат, який знижує середній артеріальний тиск на 0,1 мм рт.ст., є "клінічно значущим", жодна статистика ніколи не захистить нас від такої нечесності.

Нам потрібно покінчити з теоретичним статистичним висновком рішення. Ми повинні намагатися думати поза гіпотезою. Зростаючий розрив між клінічною корисністю та гіпотезами, що керуються дослідженням, загрожує науковій цілісності. "Значне" дослідження є надзвичайно сугестивним, але рідко обіцяє будь-які клінічно значущі результати.

Це очевидно, якщо ми перевіримо атрибути гіпотези, керованої умовиводом:

  • Викладена нульова гіпотеза надумана, не узгоджується із сучасними знаннями та не піддається розуму чи очікуванню.
  • Гіпотези можуть бути дотичними до точки, яку автор намагається зробити. Статистика рідко узгоджується з великою частиною дискусій, що випливають із них, і автори висловлюють далекосяжні твердження, що, наприклад, їхнє спостережливе дослідження має наслідки для публічної політики та просвітницької роботи.
  • Гіпотези, як правило, неповні в тому сенсі, що вони не визначають адекватно сукупність, що цікавить, і, як правило, призводять до надмірної генералізації

Для мене альтернативою є метааналітичний підхід, принаймні якісний. Усі результати слід суворо перевіряти щодо інших "подібних" висновків та відмінностей, описаних дуже ретельно, особливо критерії включення / виключення, одиниці чи шкали, що використовуються для експозиції / результатів, а також розміри ефектів та інтервали невизначеності (які найкраще підсумовуються з 95% ІС ).

Нам також потрібно провести незалежні підтверджуючі випробування. Багатьох людей коливає одне, здавалося б, суттєве випробування, але без реплікації ми не можемо вірити, що дослідження було проведено етично. Багато хто зробив наукову кар'єру з фальсифікації доказів.


"Первісна пропозиція Фішера полягала в тому, що вчені повинні якісно порівняти значення р з силою дослідження і зробити там висновки". Мені подобається цей пункт --- у вас є посилання, я можу навести, де це сказав Фішер? Це було б величезним кроком вперед, якби вчені перейшли від простої дихотомії р <0,05 до лише трохи трохи менш простої дихотомії: "Якщо р <0,05 І потужність була високою, ми маємо досить вагомі докази. Якщо р> 0,05 АБО потужність була низькою, ми не будемо судити про цю гіпотезу, поки не отримаємо більше даних ".
цивільний стан

6

ppp

Два посилання з медичної літератури є (1) Лангманом, MJS під назвою Інтервали оцінювання та довірчі інтервали та Гарднер М. Дж. Та Олтман, ДГ під назвою Інтервали довіри, а не значення {P}: оцінка, а не тестування гіпотез


2
Насправді КІ не показують розмір та точність ефекту, перевірте, наприклад, Морі та ін. (2015) "Помилковість довіри до довірчих інтервалів" Психономічний бюлетень та огляд: learnbayes.org/papers/confidenceIntervalsFallacy
Тім

8
@Tim, приємний папір, я його раніше не бачив; Мені сподобався приклад підводного човна. Дякуємо за посилання Але слід сказати, що це написано справжніми байесівськими партизанами: "Небейські інтервали мають небажані, навіть химерні властивості, що призведе до того, що будь-який розумний аналітик відкине їх як засіб для отримання висновків". Будь-який розумний аналітик! Вражаюча зарозумілість.
амеба

1
@amoeba погоджуюся, я просто навожу протилежний приклад, оскільки, як на мене, не так очевидно, що альтернативи такі чіткі і прямі, як можуть здатися на перший погляд.
Тім

4
Хоча цікаво, я не знайшов приклад підводного човна, що все переконливо. Жоден мислячий статистик не міркує так, як це робиться у прикладі. Ви не перестаєте думати і сліпо застосовуєте метод у всіх ситуаціях лише тому, що він корисний для інших.
dsaxton

2
@amoeba: У цій конкретній цитаті "не-баєсівські інтервали" конкретно стосуються інтервалів, обговорених у цьому прикладі, не всі інтервали, виправдані логікою Баєса. Дивіться тут для більш детального контексту: stats.stackexchange.com/questions/204530/…
richarddmorey

1

Мій вибір буде продовжувати використовувати значення p, але просто додавати довірчі / достовірні інтервали та, можливо, інтервали прогнозування первинних результатів. Є дуже приємна книга Дугласа Алтмана (Статистика з упевненістю, Вілей), і завдяки підходам до завантаження та MCMC ви завжди можете будувати досить міцні інтервали.


6
Я думаю, ви насправді не відповідаєте на головне питання: «чому вони кращі?» / «Чому такий підхід повинен переконати вашого головного дослідника, редактора чи читачів?». Чи можете ви розвинути свій вибір?
peuhp

1. Це лише дає змогу діючій практиці. 2. Існує тенденція робити «тестування значень на задньому плані» з КІ, так чи інакше. 3. Тестування значущості (з р-значеннями або ІС) призводить до низького рівня відтворюваності (див. Статті Тіма Лаша). 4. Дослідники не можуть перешкоджати уточненню клінічно значущої межі або порогу ефекту.
AdamO

1

p

  • розробити більш складну модель, здатну імітувати результати в цільовій сукупності
  • визначити та виміряти атрибути цільової сукупності, щодо яких можна було б запропонувати рішення, лікування чи політику
  • оцінити за допомогою моделювання очікувану втрату в сировинних одиницях цільової кількості, таких як роки життя, роки, скориговані за якістю, долари, урожайність тощо, та оцінити невизначеність цієї оцінки.

Це, безумовно, не виключає тестування значущості гіпотез, але це підкреслює, що статистично значущі результати є дуже ранніми, посередницькими кроками на шляху до реального відкриття, і ми повинні очікувати, що дослідники з їхніми висновками зроблять набагато більше.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.