Я сфокусую цю відповідь на конкретному питанні, які є альтернативи -значенням.p
Є 21 дискусійних матеріалів , опублікованих разом із заявою ASA ( в якості додаткових матеріалів): Наомі Альтмана, Дуглас Альтман, Daniel J. Бенджамін, Йоав Бенджамін, Джим Бергер, Дон Беррі, Джон Карлін, Джордж Кобб, Ендрю Гельман, Стів Гудман, Сандер Ґренландія, Джон Іоаннідіс, Джозеф Горовіц, Вален Джонсон, Майкл Лавін, Майкл Лев, Род Літл, Дебора Майо, Мішель Міллар, Чарльз Пул, Кен Ротман, Стівен Сенн, Дален Стангл, Філіп Старк і Стів Зіляк (деякі з них писали разом ; Я перелічу всі для майбутніх пошуків). Ці люди, ймовірно, охоплюють усі існуючі думки щодо -значень та статистичних висновків.p
Я переглянув усі 21 папір.
На жаль, більшість із них не обговорює жодних реальних альтернатив, хоча більшість стосується обмежень, непорозумінь та різних інших проблем з -значеннями (для захисту p -значень див. Бенджаміні, Майо та Сенн). Це вже говорить про те, що альтернативи, якщо такі є, знайти нелегко і / або захистити їх непросто.pp
Отже, давайте подивимось на перелік "інших підходів", наведений у самій заяві ASA (як це вказано у вашому запитанні):
[Інші підходи] включають методи, що підкреслюють оцінку щодо тестування, такі як впевненість, достовірність або інтервали прогнозування; Байєсівські методи; альтернативні доказові заходи, такі як коефіцієнти ймовірності або фактори Байєса; та інші підходи, такі як теоретичне моделювання рішень та швидкість виявлення помилок.
Інтервали довіри
Інтервали довіри - це інструмент, що часто застосовується, який іде одночасно з ; повідомлення про довірчий інтервал (або якийсь еквівалент, наприклад, середня ± стандартна похибка середнього значення) разом з р- значення майже завжди є хорошою ідеєю.p±p
Деякі люди (не входить в числі тих, що сперечаються ASA) свідчать про те , що довірчі інтервали повинні замінити на -значення. Одним з найбільш відвертих прихильників такого підходу є Джефф Каммінг, який називає це новою статистикою (ім'я, яке я вважаю жахливим). Дивіться, наприклад, це повідомлення у блозі Ульріха Шиммака для детальної критики: Критичний огляд Кеммінга (2014) Нова статистика: Перепродаж старої статистики як нової статистики . Дивіться також. Ми не можемо дозволити собі вивчити розмір ефекту в публікації про блог Урі Сімонсона в лабораторній публікації.p
Дивіться також цю тему (і моя відповідь в них) про пропозицію по схоже Norm Matloff де я сперечаюся , що при складанні звітів КЕ один все ж хотів би мати -значення повідомило , а також: Що таке добре, переконливий приклад , в якому р-значення корисні?p
Деякі інші люди (не входять також серед спірних підписників ASA), однак, стверджують, що інтервали довіри, будучи частішим інструментом, такі ж неправильні, як і -значення, і їх також слід утилізувати. Див., Наприклад, Morey et al. 2015, помилковість розміщення довіри у довірчих інтервалах, пов’язаних @Tim тут у коментарях. Це дуже стара дискусія.p
Баєсові методи
(Мені не подобається, як заява ASA формулює список. Достовірні інтервали та фактори Байєса перераховані окремо від "байєсівських методів", але вони, очевидно, байєсівські інструменти. Тому я тут їх підраховую разом.)
Існує величезна і дуже самовпевнена література про байесівські та частоталістські дебати. Дивіться, наприклад, цю недавню нитку для деяких думок: Коли (якщо взагалі колись) є частоцистський підхід істотно кращий, ніж байєсівський? Байєсівський аналіз має повний сенс, якщо у вас є хороші інформативні пріори, і кожен буде радий лише обчислити і повідомити або p ( H 0 : θ = 0 | дані ) замість p ( дані принаймні як крайні | H 0 )p(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)- Але, на жаль, люди зазвичай не мають добрих пріорів. Експериментатор записує 20 щурів, що роблять щось в одному стані, і 20 щурів, що роблять те ж саме в іншому стані; передбачення полягає в тому, що показники колишніх щурів перевищуватимуть показники останніх щурів, але ніхто не бажає і не зможе заявити про чіткі попередні відмінності в продуктивності. (Але дивіться відповідь @ FrankHarrell, де він виступає за використання "скептичних пріорів".)
Важкі байєси пропонують використовувати байєсівські методи, навіть якщо у них немає ніяких інформативних пріорів. Один з останніх прикладів - Krushke, 2012, оцінка Байєса витісняє -testt , покірно скорочений як BEST. Ідея полягає у використанні байєсівської моделі зі слабкими неінформативними пріорами для обчислення заднього для ефекту інтересу (наприклад, різниця в групах). Практична відмінність від частолістських міркувань, як правило, незначна, і наскільки я бачу, такий підхід залишається непопулярним. Див. Що таке "неінформативний пріоритет"? Чи можемо ми колись мати таку, яка справді не має інформації? для обговорення того, що є "неінформативним" (відповідь: такого немає, звідси суперечка).
Альтернативний підхід, повернувшись до Гарольда Джеффрі, базується на байєсівському тестуванні (на відміну від байєсівської оцінки ) та використовує фактори Байєса. Одним з найбільш красномовних і плодовитих прихильників є Ерік-Ян Вагенмейкерс, який останнім часом багато опублікував на цю тему. Тут варто підкреслити дві особливості цього підходу. По-перше, див. Wetzels et al., 2012, Тест гіпотези Байесів за замовчуванням для конструкцій ANOVA для ілюстрації того, наскільки сильно результат такого байєсівського тесту може залежати від конкретного вибору альтернативної гіпотези H1і розподіл параметрів ("попередній"), який він задає. По- друге, коли - то «розумний» перед обраний (Вагенмакерс рекламує Джеффріс так звані " по замовчуванню" апріорні), в результаті чого Байеса чинники часто виявляються цілком узгоджується зі стандартними -значення, дивись , наприклад , ця цифра з цього препринт Marsman & Wagenmakers :p
Так, поки Wagenmakers та ін. продовжуйте наполягати на тому, що -значення є глибокими недоліками, а фактори Байєса - це не можна не дивуватися ... (Справедливо кажучи, суть Wetzels та ін. 2011 року полягає в тому, що для p -значень, близьких лише до 0,05 факторів Байєса вкажіть на дуже слабкі докази проти нуля, але зауважте, що це можна легко вирішити в парадигмі частолістського просто, використовуючи більш суворий α - те, про що багато хто виступає в будь-якому випадку). pp0.05α
Один з найпопулярніших робіт Wagenmakers et al. на захист факторів Байєса - 2011, Чому психологи повинні змінити спосіб аналізу своїх даних: Випадки пси, де він стверджує, що сумнозвісна праця Бема про прогнозування майбутнього не дійшла б до їх помилкових висновків, якби вони використовували лише фактори Баєса з -значення. Дивіться цю продуману публікацію в блозі Ульріха Шиммака для детального (і переконливого ІМХО) контр-аргументу: Чому психологи не повинні змінювати спосіб аналізу своїх даних: Диявол знаходиться в пріоритеті за замовчуванням .p
Дивіться також Байєсівський тест за замовчуванням попередньо оцінений у блозі Урі Сімонсона щодо малих ефектів .
Для повноти я зазначу, що Wagenmakers 2007, практичне рішення поширених проблем -значень,p пропонував використовувати BIC як наближення до коефіцієнта Байєса для заміни -значень. BIC не залежить від попереднього, і, отже, незважаючи на свою назву, насправді не є баєсами; Я не впевнений, що думати про цю пропозицію. Здається, що останнім часом Вагенмейкер більше виступає за байесівські тести з неінформативними приорами Джефріса, див. Вище.p
Для подальшого обговорення оцінки Байєса та Баєсового тестування див. Оцінку параметрів Байєса чи тестування гіпотези Баєса? і посилання на них.
Мінімальні фактори Баєса
Серед суперечок ASA це чітко запропоновано Benjamin & Berger та Valen Johnson (єдині два документи, які стосуються пропонування конкретної альтернативи). Їх конкретні пропозиції дещо відрізняються, але вони схожі за духом.
Ідеї Berger повернутися до Berger & Sellke +1987 і існує ряд робіт Бергера, Sellke і співробітників аж до минулого року розробки на цій роботі. Ідея полягає в тому, що під шипом і плитою, до якої точка нульової гіпотеза отримує ймовірність 0,5, а всі інші значення μ отримують ймовірність 0,5, симетрично поширюється навколо 0 ("локальна альтернатива"), то мінімальний задній p ( H 0 ) над всі локальні альтернативи, тобто мінімальний коефіцієнт Байєса , значно вищий за pμ=00.5μ0.50p(H0)p-цінність. Це є основою (значно оскаржуваного) твердження, що -значення "завищують докази" проти нуля. Пропозиція полягає у використанні нижньої межі коефіцієнта Байєса на користь нуля замість p -значення; за деякими широкими припущеннями, ця нижня межа виявляється заданою через - e p log ( p ) , тобто значення p- значення ефективно помножується на - e log ( p ), що є коефіцієнтом приблизно від 10 до 20 для загального діапазону з р -значення. Такий підхід схваленоpp−eplog(p)p−elog(p)1020p також Стівен Гудман.
Пізніше оновлення: дивіться хороший мультфільм, що пояснює ці ідеї простим способом.
Ще пізніше оновлення: Див. Held & Ott, 2018, Про -Values та фактори Байєсаp для всебічного огляду та подальшого аналізу перетворення значень у мінімальні коефіцієнти Байєса. Ось одна таблиця звідти:p
Вален Джонсон запропонував щось подібне у своєму документі PNAS 2013 ; його пропозиція приблизно зводиться до множення -значень на √p який становить приблизно від5до10.−4πlog(p)−−−−−−−−−√510
Коротку критику статті Джонсона див. У відповіді Ендрю Гельмана та @ Xi'an у PNAS. Про контраргумент Berger & Sellke 1987 дивіться у розділі Casella & Berger 1987 (різні Berger!). Серед дискусійних документів APA Стівен Сенн прямо виступає проти будь-якого з цих підходів:
Ймовірності помилок не є задніми ймовірностями. Безумовно, статистичного аналізу існує набагато більше, ніж значень, але їх слід залишити в спокої, а не деформувати певним чином, щоб стати байєсівськими задніми ймовірностями другого класу.P
Дивіться також посилання у статті Сенна, включаючи посилання на блог Майо.
Заява ASA перераховує "теоретичне моделювання рішень та швидкість виявлення помилок" як іншу альтернативу. Я поняття не маю, про що вони говорять, і я був радий бачити це, що було сказано в дискусійному документі Старка:
Розділ "Інші підходи" ігнорує той факт, що припущення деяких із цих методів ідентичні тим, що мають -значення. Дійсно, деякі методи використовують р-значення як вхідні дані (наприклад, помилковий показник виявлення).pp
Я дуже скептично налаштований на те, що в фактичній науковій практиці є що- небудь, що може замінити -значення, таким чином, щоб проблеми, які часто пов'язані з p -значеннями (криза реплікації, p- хакінг тощо), пішли б. Будь-яку фіксовану процедуру прийняття рішення, наприклад, байєсівську, можливо, можна "зламати" так само, як p -знаки можуть бути p- хакіровані (про деяку дискусію та демонстрацію цього див. У цьому блозі Урі Сімонсона 2014 року ).ppppp
Цитувати з дискусійного документа Ендрю Гелмана:
Підсумовуючи це, я погоджуюся з більшістю тверджень ASA щодо -значень, але я вважаю, що проблеми є глибшими, і що рішення полягає не в тому, щоб реформувати p -значення або замінювати їх якимось іншим статистичним підсумком або порогом, а скоріше рухатися до більшого сприйняття невизначеності та прийняття варіації.pp
І від Стівена Сенна:
Коротше кажучи, проблема менша з значень як такої, але з створенням їх кумира. Заміна іншого фальшивого бога не допоможе.P
І ось як Коен виклав це у своїй відомій та високо цитованій (3,5 к. Цити) статті 1994 р . Земля кругла ( ),p<0.05 де він дуже рішуче виступав проти -значень:p
[...] не шукайте магічну альтернативу NHST, якийсь інший об'єктивний механічний ритуал, щоб замінити його. Його не існує.