Журнал психології забороняв р-значення та інтервали довіри; чи справді розумно припинити їх використання?


73

25 лютого 2015 року журнал « Основна та прикладна соціальна психологія» видав редакцію, в якій забороняв -значення та інтервали довіри у всіх майбутніх публікаціях.p

Зокрема, вони кажуть (форматування та наголос - це моє):

  • [...] перед публікацією авторам доведеться видалити всі залишки процедури НГСТП [нульова процедура перевірки значущості гіпотез] ( -значення, -значення, -знаки, твердження про "суттєві" відмінності або їх відсутність , і так далі).ptF

  • Аналогічно тому, як NHSTP не надає ймовірності нульової гіпотези, яка необхідна для того, щоб забезпечити важкий випадок її відхилення, довірчі інтервали не дають вагомих випадків для висновку про те, що параметр інтересу населення, ймовірно, буде в межах заявленого інтервал. Тому довірчі інтервали також заборонені в BASP.

  • [...] стосовно байєсівських процедур ми залишаємо за собою право виносити конкретні рішення, і, таким чином, байєсські процедури не вимагаються і не заборонені в BASP.

  • [...] Чи потрібні якісь інфекційні статистичні процедури? - Ні [...] Однак BASP вимагатиме чіткої описової статистики, включаючи розміри ефектів.

Не будемо тут обговорювати проблеми та неправильне використання -значень; вже є безліч відмінних дискусій про CV, які можна знайти, переглянувши тег p-value . Критика -значень часто поєднується з порадою повідомляти про довірчі інтервали для параметрів, що цікавлять. Наприклад, у цій дуже добре аргументованій відповіді @gung пропонує повідомити про розміри ефектів із довірчими інтервалами навколо них. Але цей журнал також забороняє довірчі інтервали.pp

Які переваги та недоліки такого підходу до подання даних та експериментальних результатів на відміну від «традиційного» підходу з -значеннями, інтервалами довіри та суттєвою / незначною дихотомією? Здається, реакція на цю заборону здебільшого негативна; тож які тоді недоліки? Американська статистична асоціація навіть опублікувала короткий відлякуючий коментар щодо цієї заборони, заявивши, що "ця політика може мати свої негативні наслідки". Якими можуть бути ці негативні наслідки?p

Або, як @whuber запропонував сказати, чи слід взагалі застосовувати цей підхід як парадигму кількісних досліджень? А якщо ні, то чому б і ні?

PS. Зауважте, що моє запитання не стосується самої заборони ; йдеться про запропонований підхід. Я також не питаю про частота виступу проти Байесія. Редакція досить негативно стосується і байєсівських методів; тому, по суті, йдеться про використання статистики проти взагалі не використання статистики.


Інші дискусії: reddit , Gelman .


14
Існує чітке відображення між р-значеннями та довірчими інтервалами в моделях лінійної регресії, тому я не бачу вагомих причин, чому заборона p-значень, але зберігання довірчих інтервалів матиме багато сенсу. Але заборона як p-значень, так і довірчих інтервалів залишає прогалину в описі результатів ... Цікаво, чи дозволяють вони звітувати про стандартні помилки (це був би ще один показник тієї ж групи відображення "один на один".
Річард Харді,

7
Все можна зловживати, тому заборона матеріалів на цій умові - ну ... дивно. Я не прихильник p-значень, але це здається досить наївним підходом до проблеми. Одна справа - заохочувати користуватися належними речами, але заборона речей не виглядає як належний спосіб вирішити проблему ...
Тім

12
Чудова ідея. Використання статистики просто приховує ненауковий характер цієї галузі.
Аксакал

4
Це здається повною реакцією на фрустрацію через неправильне використання p-значень. Я був би набагато щасливішим із забороною на неправильне використання значень p, а не на значення P взагалі.
TrynnaDoStat

8
Четвертий пункт у вашому списку передбачає, що вони не вимагають бальних оцінок, що може бути висновком, але розміри ефектів повідомляються лише як описова статистика. (Тим не менше, в рядку в редакції "ми заохочуємо використовувати більші розміри вибірки, ніж це характерно для багатьох психологічних досліджень, оскільки в міру збільшення кількості вибірки описова статистика стає все більш стійкою, а помилка вибірки стає меншою проблемою". Я з нетерпінням чекаю заклику редакції 2016 року до вивчення формалізації цього поняття стабільності та обліку кількісного впливу помилок вибірки.)
Scortchi

Відповіді:


23

Перше речення поточної редакції 2015 року, на яке посилається ОП, гласить:

Основна та прикладна соціальна психологія (BASP) 2014 Редакція * підкреслила *, що процедура перевірки значущості гіпотези (NHSTP) є недійсною ...

(мій акцент)

Іншими словами, для редакторів це вже доведений науковий факт, що "перевірка значущості гіпотез" є недійсною, а редакція 2014 року лише наголосила на цьому, тоді як нинішня редакція 2015 року лише реалізує цей факт.

Зловживання (навіть зловмисне) NHSTP дійсно добре обговорюється та задокументоване. І невідомо в історії людства те, що "речі заборонені", оскільки було встановлено, що після всього сказаного і зробленого вони зловживають більш ніж корисно (але чи не слід це статистично перевіряти?). Це може бути "другим найкращим" рішенням, щоб зменшити те, що в середньому (інфекційна статистика) призвело до втрат, а не до прибутків, і тому ми прогнозуємо (інфекційна статистика), що це буде шкодити і в майбутньому.

Але завзяття, виявлене за формулюванням вищенаведеного першого речення, робить це схожим на точніше, як на ревний підхід, а не на прохолодне рішення вирізати руку, яка, як правило, краде, а не пропонує. Якщо прочитати річну редакцію, що згадується на рік, згадується у цитаті (DOI: 10.1080 / 01973533.2014.865505), то побачимо, що це лише частина повторного перегляду політик Журналу новим редактором.

Прокручуючи редакцію, вони пишуть

... Навпаки, ми вважаємо, що смуга p <.05 занадто проста для проходження і іноді слугує приводом для дослідження нижчої якості.

Отже, виявляється, що їх висновок, пов'язаний з їх дисципліною, полягає в тому, що нульові гіпотези відкидаються "занадто часто", і тому передбачувані висновки можуть набути помилкового статистичного значення. Це не той самий аргумент, як "недійсний" вирок у першому реченні.

Отже, щоб відповісти на запитання, очевидно, що для редакторів журналу їхнє рішення не лише розумне, але вже запізнене на реалізацію: вони, здається, думають, що вони вирізали, яка частина статистики стала шкідливою, зберігаючи корисні частини - вони, здається, не вірять, що тут є щось, що потребує заміни чимось "рівнозначним".

Епістемологічно - це випадок, коли вчені суспільствознавства частково відмовляються від спроби зробити свою дисципліну більш об'єктивною у своїх методах та результатах, використовуючи кількісні методи, оскільки вони дійшли висновку (як?), Що врешті-решт, , спроба створила "більше поганого, ніж корисного". Я б сказав, що це дуже важлива справа, в принципі можливо, що трапилося, і така, яка потребує років роботи, щоб продемонструвати це "поза розумним сумнівом" і справді допомогти вашій дисципліні. Але лише одна чи дві публікації та публікації статей, найімовірніше, (інфекційна статистика) просто розпалюють громадянську війну.

Заключне речення редакції 2015 року:

Ми сподіваємось і передбачаємо, що заборона NHSTP матиме наслідком підвищення якості поданих рукописів, звільняючи авторів від стислій структури мислення NHSTP, тим самим усуваючи важливу перешкоду для творчого мислення. NHSTP протягом десятиліть домінує в психології; ми сподіваємось, що встановивши першу заборону NHSTP, ми продемонструємо, що психологія не потребує сутички NHSTP, і що інші журнали слідують цьому.


5
Так ... ми маємо бути обережними, коли пишеш відповіді на мову чи сардонії на цьому сайті: вони можуть бути (повністю) неправильно зрозумілими!
whuber

4
@ naught101 ... це було б не дуже дипломатично. Зауважте, що те, як засуджується NHSTP, це шкодує самих психологів, що вони використовували його протягом усіх цих десятиліть. Якби це було написано так, як ви пропонуєте, це виглядало б набагато більше, як прямий напад на їхніх колег, як науковців. Як це зараз по суті, текст означає, що психологи, сповнені добрих намірів, на жаль, були введені в оману у використанні підходу, "кимось", який зловживав його "владою наукового авторитету" в питанні ... Можливо, злими статистиками, керованими науковими імперіалізм?
Алекос Пападопулос

4
Поганий робітник звинувачує свої інструменти.
naught101

3
@BrianDHall Я б запропонував шукати більш авторитетні ресурси щодо питань, що стосуються NHSTP (цей веб-сайт включає), а не конкретні авторські роботи з цього питання. Справа складна і тонка - вже з вашого коментаря слід обговорити спочатку семантику навколо "прийняти" і "затвердити" ...
Алекос Пападопулос,

6
@ naught101: Якщо ви помітили, що майстер не може правильно поводитися з бензопилою, ви можете не звинувачувати цей інструмент. Але ти все одно
відбереш

19

Я вважаю, що заборона випробувань гіпотез є чудовою ідеєю, за винятком декількох гіпотез про "існування", наприклад, перевірка нульової гіпотези про відсутність позачуттєвого сприйняття, де всім потрібно буде продемонструвати, що вони мають докази того, що ESP існує - це невипадковість . Але я думаю, що журнал пропустив те, що головним рушієм поганих досліджень в психології є використання порогу значень. Це було продемонстровано в психології і багатьох інших областях, багато азартних ігор продовжує прибувати в . Сюди входить підміна гіпотез, видалення спостережень та підмноження даних. Саме порогові варто спочатку заборонити.PP<0.05

Заборона довірчих інтервалів також знаходиться за бортом, але не з тих причин, які заявили інші. Інтервали довіри корисні лише в тому випадку, якщо неправильно інтерпретувати їх як достовірні інтервали Байєса (для відповідних неінформаційних пріорів). Але вони все-таки корисні. Той факт, що їх точне частолістське тлумачення не призводить до нічого, окрім плутанини, означає, що нам потрібно «вийти з ухилення» та піти на байесівську школу чи ймовірність навчання. Але корисні результати можна отримати, неправильно інтерпретуючи старі добрі межі довіри.

Прикро, що редактори журналу неправильно зрозуміли байєсівські статистичні дані і не знають про існування чистого імовірного висновку. Те, що вони шукають, може бути легко забезпечене байєсівськими задніми розподілами, використовуючи трохи скептичні пріори.


+1, спасибі Дозвольте уточнити щодо довірчих інтервалів. Інтервали довіри пов'язані зі стандартними помилками, тому, ймовірно, є можливість припинити їх використання. Розглянемо найпростіший випадок: деяке значення вимірюється через групу з об’єктів / об'єктів; скажімо, середнє значення 3. Наскільки я розумію, цей журнал пропонує повідомити про це просто як 3. Але чи не хочете ви бачити і стандартну помилку, наприклад, ? Звичайно, це означає, що довірчий інтервал 95% становить , що також означає, що , тому це все пов'язано. Я не впевнений, як ви пропонуєте повідомити про це. n3±0.53±1p<0.05
амеба

4
Я думаю, що стандартні помилки спрощені (оскільки вони передбачають симетричний розподіл), але корисні заходи точності, як середня помилка у квадраті. Ви можете придумати інтервал точності на основі помилки середнього корінця, не передбачаючи покриття ймовірності. Тож я не бачу, де будь-яка з цих дискусій передбачає знецінення стандартних помилок. І я не пропонував припинити використання CL. Але складність із CL є головним чином із спроб імовірних інтерпретацій.
Френк Харрелл

Хммм. Цікаво. Мені здається, є такий невеликий крок від стандартної помилки до CI (постійний фактор!), Що поводитися з ними по-різному було б дивно. Але, можливо, це смисловий момент; Я думаю, що ви маєте на увазі те, що люди думають про стандартні помилки та CI по-різному і, як правило, більше плутаються щодо CI. Цікаво, що ця конкретна політика журналу говорить про стандартні помилки (редакція не згадує їх прямо).
амеба

2
У симетричних ситуаціях стандартна помилка є складовим елементом для довірчого інтервалу. Але у багатьох випадках правильний довірчий інтервал асиметричний, тому взагалі не може базуватися на стандартній помилці. Деякі різновиди завантажувальної та зворотної трансформації - це два підходи цього типу. Тут особливо враховуються інтервали вірогідності профілю.
Френк Харрелл

@Frank Harrell - Що стосується "чистого висновку щодо ймовірності", я погоджуюся, що акцент на узагальнення ймовірності даних, не прикрашаючи їх порогами, здається, відповідь, яку редактори сприймали. Книга AWF Edwards "Вірогідність" (1972) говорить безпосередньо про занепокоєння редактора: "Ми можемо відкласти розгляд цих аргументів (наприклад, перевірка значущості) до наступних розділів і негайно перейти до опису процедури, заснованої на концепції Фішера ймовірності. , який відкритий для жодного з цих об'єктів, які можуть бути вирівняні під час тестів на значимість ".
Джон Марк

13

Я бачу такий підхід як спробу вирішити нездатність соціальної психології повторити багато опублікованих раніше «значущих висновків».

Його недоліками є:

  1. що це не стосується багатьох факторів, що призводять до помилкових наслідків. Наприклад,

    • A) Люди все ще можуть зазирнути до своїх даних і припинити свої дослідження, коли розмір ефекту вражає їх як достатньо великі, щоб викликати інтерес.

    • Б) Великі розміри ефектів все ще матимуть велику силу при ретроспективних оцінках потужності.

    • C) Люди все ще будуть шукати цікаві та великі ефекти (тестуючи купу гіпотез в експерименті, а потім повідомляючи про те, що вискочило) або

    • Г) робити вигляд, що несподіваний дивний ефект очікували весь час.

    Чи не слід докладати зусиль для вирішення цих питань спочатку?

  2. По мірі того, як йдеться вперед, це зробить огляд минулих висновків досить жахливим. Немає можливості кількісно оцінити вірогідність різних досліджень. Якщо кожен журнал реалізує такий підхід, у вас з’явиться купа соціологів, які говорять про наявність доказів для X, коли абсолютно незрозуміло, наскільки правдоподібний X, і вчені сперечаються про те, як інтерпретувати опублікований ефект чи сперечаються про те, чи важливий він чи вартий Говорячи про. Хіба це не сенс статистики? Забезпечити послідовний спосіб оцінки чисел. На мою думку, цей новий підхід спричинив би безлад, якби він широко впроваджувався.

  3. Ця зміна не спонукає дослідників подавати результати досліджень з невеликими розмірами ефектів, тому вона насправді не стосується ефекту малювання файлів (або вони збираються публікувати результати з великими значеннями незалежно від розміру ефекту?). Якби ми опублікували всі результати ретельно розроблених досліджень, то, незважаючи на те, що правдоподібність результатів окремих досліджень може бути невизначеною, метааналіз та огляди досліджень, які надають статистичний аналіз, зробили б набагато кращу роботу з виявлення істини.


2
@captain_ahab Щодо пункту 3, ми мусимо зазначити, що попередня редакція (2014 р.) редактора явно заохочувала подання досліджень з «нульовим ефектом».
Алекос Пападопулос

1
Я не можу знайти коментар у редакції, де обговорюються будь-які критерії для публікації, за винятком того, що вони мають більший розмір вибірки, ніж звичайний (як вони планують визначити прийнятні n без інфекційних статистичних даних, мені незрозуміло). Для мене в цій редакції немає акценту, що їм байдуже, який розмір ефекту. Мені здається, вони все ще шукатимуть цікавих ефектів та цікавих історій, що, на мою думку, є більшою проблемою в суспільствознавчій роботі (тобто пост-спеціальному пошуку цікавих ефектів та історій).
капітан_ахаб

2
Кращим рішенням є те, що всі вчені повинні зареєструвати гіпотезу, базовий раціональний, силовий та аналітичний підхід дослідження в ГРОМАДСЬКОМУ місці, перш ніж розпочати дослідження. А потім обмежитися публікацією цього дослідження в установленому порядку. Якщо буде знайдено несподіваний цікавий ефект, вони повинні публічно увійти, а потім запустити нове дослідження, яке вивчає цей ефект. Цей підхід при контролі за помилковими позитивами також дозволить вченим продемонструвати свою продуктивність, не публікуючи нових ефектів.
Капітан_ахаб

7

Я натрапив на чудову цитату, яка майже стверджує той самий момент, але не зовсім - оскільки це вступний параграф у підручнику, який стосується здебільшого про тестування частої статистики та перевірки гіпотез.

Нестатисти, як і автор, широко вважають, що якщо ви робите хороші експерименти, статистика не потрібна. Вони цілком праві. [...] Зрозумілий, звичайно, полягає в тому, що робити хороші експерименти складно. Більшість людей потребує всієї допомоги, яку вони можуть отримати, щоб не дати їм дурити себе, стверджуючи, що їх улюблена теорія обґрунтована спостереженнями, які нічого подібного не роблять. І головна функція того розділу статистики, який займається тестами на значущість, - запобігати людям робити дурнів. З цієї точки зору, функція тестів на значущість полягає у тому, щоб запобігати людям публікувати експерименти, а не заохочувати їх. В ідеалі, дійсно, тести на значимість ніколи не повинні з'являтися у друкованих формах, якщо вони взагалі використовувалися на попередніх етапах для виявлення неадекватних експериментів,

- Девід Колхуун, Лекції з біостатистики , 1971


1
Ваше повідомлення - це справді коментар, а не відповідь, тому я утримуюсь від його проголошення, але хочу подякувати за те, що поділилися цитатою. У цьому уривку видно стільки непорозумінь, що потрібно було б докласти великих зусиль (не кажучи вже простір), щоб вказати та розкрити їх усі. Одним словом, однак, протилежним цим твердженням є "ефективність". Якби у кожного було необмежений час та бюджет, ми могли б принаймні прагнути до проведення «хороших експериментів». Але коли ресурси обмежені, було б нерозумно (як і дорого) проводити лише "остаточні, ... чіткі" експерименти.
whuber

2
Дякуємо за Ваш коментар, @whuber; Я згоден з тим, що ви говорите. Але я мушу додати, що мені здається привабливим сказати, що ідеально експериментальні дані повинні бути настільки переконливими, щоб зробити тести формальної гіпотези зайвими. Це не недосяжний ідеал! В моїй області (де р-значення використовуються багато), я вважаю , що кращі доповіді будуть переконливі без них: наприклад , тому , що вони являють собою послідовність з декількох експериментів , підтримуючи один одного, які разом узяті, очевидно , не може бути статистичної випадковістю. Re коментар: це було занадто довго для коментаря, і я подумав, що це нормально, як відповідь CW.
амеба

Так, я розумію, чому його потрібно було розмістити як відповідь, і тому я не голосував, щоб передати це в коментар (який би відрізав останню частину цитати). Я погоджуюся, що ідеал не є недосяжним в окремих випадках . Я також погоджуюся, що це приємний ідеал, який потрібно мати на увазі. Але як посібник, як розробляти експерименти (що в цілому є дисципліною розподілу ресурсів), це може бути жахливою помилкою. (Це, безумовно, дискусійно.) Припущення про те, що "хороший" експеримент ніколи не потребуватиме статистичних методів, є тим, що не витримує навіть побіжного дослідження.
whuber

1
Можливо, один із способів читання, який полягає в тому, щоб сказати, що початковий тест на значимість, який передбачав, що речовина стимулює певну фізіологічну відповідь, вже не має значення, коли ви публікуєте свої дослідження впливу різних видів інгібіторів на криву дози та відповіді.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.