Наслідки поточної дискусії щодо статистичної значущості


10

В останні кілька років різні вчені поставили згубну проблему тестування наукової гіпотези, яка отримала назву "ступінь свободи дослідника", тобто вчені мають численні можливості зробити під час свого аналізу те, що ухил до пошуку з р-значенням <5%. Ці неоднозначні варіанти є, наприклад, який випадок включити, який випадок віднесений до категоричності, який містить численні специфікації моделі, поки щось не з’явиться, не опублікуйте нульових результатів тощо. (Документ, що викликав цю дискусію в психології, знаходиться тут , дивіться популярну статтю "Шифер" та подальші дебати Ендрю Гелмана тут , а журнал "Тайм" також торкається цієї теми тут .)

Спочатку одне уточнююче запитання:

Журнал Time писав,

"Потужність 0,8 означає, що з десяти перевірених справжніх гіпотез буде виключено лише дві, оскільки їх дані не відображені в даних".

Я не впевнений, як це вписується у визначення функції живлення, яке я знайшов у підручнику, яка є ймовірність відхилення нуля як функції параметра . З різними ми маємо різну потужність, тому я не зовсім розумію наведену цитату.θθθ

По-друге , деякі наслідки дослідження:

  1. У моїй галузі політології / економіки науковці просто використовують усі наявні в країні дані про рік. Таким чином, чи не повинні ми тут перейматися зразком прикладів?

  2. Чи може проблема вирішення кількох тестів, але звітування лише про одну модель, виправлена ​​просто тим, що хтось із цієї дисципліни повторно перевірить ваш документ і негайно вразить вас за відсутність надійних результатів? Передбачаючи це, вчені з моєї галузі частіше включають robustness checkрозділ, де вони показують, що численні специфікації моделі не змінюють результату. Цього достатньо?

  3. Ендрю Гелман та інші підкреслюють, що незалежно від даних, завжди можна було б знайти та опублікувати якийсь «шаблон», якого насправді немає. Але це не повинно викликати занепокоєння, враховуючи той факт, що будь-яка емпірична «закономірність» повинна підтримуватися теорією, а конкуруючі теорії в рамках дисципліни будуть просто брати участь у дискусії / гонці, щоб знайти, який табір здатний знайти більше «моделей». в різних місцях. Якщо візерунок справді хибний, то теорія позаду буде швидко знищена, коли подібних зразків в інших зразках / параметрах немає. Чи не так прогресує наука?

  4. Якщо припустити, що нинішня тенденція журналів до нульового результату насправді процвітатиме, чи існує спосіб, щоб ми об'єднали всі нульові та позитивні результати разом та зробили висновок щодо теорії, яку всі вони намагаються перевірити?


Дивіться також "Теорія-тестування з психології та фізики: методологічний парадокс" . "Нульова гіпотеза" завжди помилкова для вашого поля. Навіть при належній дослідницькій практиці тести на значущість і тести на гіпотезу, ймовірно, недоречні.
колба

Ваше запитання 1 суперечить питанням 3. Чи є у польсі / економіці чи інші зразки / налаштування доступні чи ні?
колба

Відповіді:


11

Замість використання p-значень для оцінки претензій ми повинні слідувати порадам Роберта Абелсона та використовувати критерії MAGIC:

Magnitude
Articulation
Generality
Interestingness
Credibility

Більше про Абельсона дивіться у моєму огляді його книги

І ми повинні зосереджуватися на розмірах ефектів, а не p-значеннях статистичного виводу (за можливим винятком деяких видів обміну даними, щодо яких я взагалі не експерт). А розміри ефектів слід оцінювати в контексті:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Статистик / аналітик даних не повинен бути незвичайною людиною, використовуватися як чорний ящик, в який вводяться дані та виходять з яких значення p; він / вона повинен бути співробітником у дослідженнях, спрямованих на обґрунтування аргументів щодо значення деякого набору даних у контексті якоїсь галузі, враховуючи сучасні теорії (або їх відсутність) та поточні докази (або їх відсутність).

На жаль, цей підхід вимагає продумання з боку дослідників, які займаються основними змінами, аналітика даних та того, хто перевіряє результати (будь то бонусний волохатий бос, комітет з дисертацій, редактор журналу чи хтось). Як не дивно, навіть подібні думки здаються проти вченими.

Докладніше про мої погляди - ось стаття, яку я написав, яка була опублікована в Science360.


4
+1 Хоча я, безумовно, згоден з вами, я можу собі уявити, що сказати, що "моя вимога підтримується MAGIC" може не завжди бути корисним :-)
Марк Класен

1
Так, вам доведеться прописати це, але, якби ви це зробили, я думаю, що це може спрацювати: "Це великі ефекти, які мають невеликі винятки, впливають на велику кількість людей, цікаві тому, що XXXX і є надійними, оскільки вони XXXX" може спрацювати. Я не бачив, щоб він намагався. :-)
Пітер Флом

1
Так; претензія є "достовірною", якщо є теорія, яка говорить про те, як це могло статися; якщо він тиражується тощо. Він менш достовірний, якщо немає фізичних чи інших теоретичних пояснень. Чим менш надійна вимога, тим більше доказів для неї потрібно.
Пітер Флом

2
@Anh Достовірність в науці повинна вимірюватися тим, наскільки добре теорії передбачають явища, які не використовуються при розробці теорії. Оцінюючи, чи були прогнози хорошими, достовірність вимагає тиражування незалежними дослідниками. Є багато емпіричних доказів того, що тестування значущості та тестування гіпотез, як видається, фактично відштовхують обидві поведінки, натомість заохочуючи контрпродуктивну діяльність упередженості публікацій та "п-хакерство" довільної "значущості" відсікають.
колба

1
@Flask - Я б сказав, що значення p не обов'язково є проблемою, більше, ніж використання тестів на слабку гіпотезу. Фізика також використовує значення p, але з гіпотезою, яка призводить до точних прогнозів (тобто фактичної нульової гіпотези). Пошук «позитивного ефекту» в принципі марний для побудови теорії - вам потрібно зробити точну оцінку, щоб правильно підтвердити теорію.
ймовірністьлогічний

3

Сфера статистичної науки вирішувала ці питання з самого початку. Я постійно кажу, що роль статистику полягає в тому, щоб рівень помилок типу 1 залишався фіксованим. Це означає, що ризик зробити помилкові позитивні висновки неможливо усунути, але його можна контролювати. Це повинно привернути нашу увагу до надзвичайно великого обсягу наукових досліджень, які проводяться, а не до філософії та етики загальної статистичної практики. За кожний неймовірний (неймовірний) результат, що в засобах масової інформації (або в урядовій політиці) повертаються щонайменше 19 інших неймовірних результатів за їхні недійсні результати.

Дійсно, якщо ви перейдете до, скажімо, klinitrials.gov, ви помітите, що зараз (за майже будь-якими показаннями хвороби) є понад 1000 клінічних випробувань фармацевтичних препаратів, що тривають у США в цей самий момент. Це означає, що при помилково позитивному рівні помилок 0,001, в середньому принаймні 1 препарат буде розміщений на полицях, що не впливає. Дійсність 0,05 як підтвердженого порогу статистичної значущості ставилася під сумнів знову і знову. За іронією долі, лише статистики відчувають незручність при використанні 1/20 помилкової позитивної помилки, тоді як фінансові зацікавлені сторони (будь то PI або Merck) будуть наполегливо дотримуватися переконань незалежно від результатів in vitro, теоретичних доказів чи кількості попередніх доказів. Чесно кажучи, що завзятість є успішною та похвальною особистісною якістю багатьох людей, які досягли успіху в нестатистичних ролях. Вони, як правило, сидять над статистиками у своїх тотемах, які прагнуть використовувати цю стійкість.

Я думаю, що цитата, яку ви висунули, абсолютно невірна. Потужність - це ймовірність відхилення нульової гіпотези, якщо вона помилкова. Це важливіше залежить від того, наскільки «помилковою» є нульова гіпотеза (що, в свою чергу, залежить від розміру вимірюваного ефекту). Я рідко говорю про владу поза контекстом ефекту, який ми вважаємо «цікавим» для виявлення. (наприклад, виживання за 4 місяці після хіміотерапевтичного лікування раку підшлункової залози стадії 4 не цікаво, отже, немає приводу набирати 5000 осіб для випробування фази 3).

Щоб вирішити задані вами питання

  1. ???

  2. Множинність є складною, оскільки вона не призводить до явного правила прийняття рішень щодо обробки даних. Наприклад, припустимо, нас цікавить простий тест середньої різниці. Незважаючи на нескінченні протести моїх колег, легко показати t-тест добре відкалібрований для виявлення різниць середнього значення незалежно від розподілу вибірки даних. Припустимо, ми по черзі прямували їх шляхом. Вони розпочнуться з перевірки на нормальність, використовуючи якийсь варіант добре відомого тесту розподілу (скажімо, калібрування qqplot). Якщо дані виявляться достатньо ненормальними, вони запитують, чи відповідають ці дані будь-яким відомим перетворенням, а потім застосовують перетворення Box Cox для визначення силового перетворення (можливо, логарифмічного), яке максимально підвищує ентропію. Якщо з'являється очевидне числове значення, вони використають цю трансформацію. Якщо ні, вони використовуватимуть тест Вілкоксона "безкоштовно". У цій спеціальній послідовності подій я не можу починати сподіватися, як обчислити калібрування та потужність для простого тесту середніх різниць, коли простого, дурного t-тесту було б достатньо. Я підозрюю, що подібні дурні дії можуть бути математично пов'язані з наддефективною оцінкою Ходже: оцінювачі, які мають високу потужність за певною гіпотезою, яку ми хочемо бути правдою. Тим не менш, цей процес є s суперефективна оцінка: оцінки, які мають високу потужність за певною гіпотезою, яку ми хочемо бути правдою. Тим не менш, цей процес є s суперефективна оцінка: оцінки, які мають високу потужність за певною гіпотезою, яку ми хочемо бути правдою. Тим не менш, цей процес єне статистичний, оскільки помилково позитивна помилка не контролювалася.

  3. Концепція того, що тенденції можна «виявити» помилково в будь-якому випадковому наборі даних, ймовірно, простежується до добре написаної статті Мартіна під назвою «Статистична сітка Munchaesen's» . Це дуже яскраве прочитання і датується 1984 роком до того, як золоте теля машинного навчання народилося нам, як ми це знаємо. Дійсно, правильно викладена гіпотеза піддається фальсифікаціям, але помилки типу 1 стали набагато дорожчими в нашому суспільстві, що керується даними, ніж раніше. Розглянемо, наприклад, фальсифіковані докази антивакцинальних досліджень, що призвели до масивної послідовності смерті від коклюшу. Результати, які спричинили публічне знешкодження вакцин, були пов'язані в одному дослідженні(що, хоча і неправильно, не було підтверджено і зовнішніми дослідженнями). Є етичний поштовх до отримання результатів та донесення сумлінних доказів на користь. Наскільки сильні докази? Це мало стосується отриманого значення p, але значення p, яке ви сказали, назвете значущим. І пам’ятайте, що фальсифікація ваших даних змінює значення p, навіть коли підсумковий підтверджуючий тест повідомляє про щось інше (часто набагато менше).

  4. ТАК! Ви можете чітко бачити в метааналізах, опублікованих такими журналами, як звіт Cochrane, що розподіл результатів тестів виглядає більш бімодально, ніж noraml, і лише позитивні та негативні результати перетворюють їх у журнали. Ці докази є абсолютно перешкодами та заплутаними для будь-кого в клінічній практиці. Якщо натомість ми опублікуємо нульові результати (які беруть участь у дослідженнях , результати яких нас би зацікавили, незалежно від того, якими вони будуть ), то ми можемо очікувати, що мета-аналізи представляють фактично значимі та репрезентативні докази.


1
У « Про ймовірність як основу для дії» Вільям Демінг робить розмежування між «перелічувальним» та «аналітичним» дослідженнями. Він зазначає, що результати кожного експерименту залежать від точного середовища експерименту, тому спроби статистиків контролювати "рівень помилок типу I" завжди будуть відключені невідомим розміром, коли лікування застосовується в інших умовах .
колба

@Flask Так само жодна механічна процедура на міжнародній космічній станції не є ідеально відкаліброваною, але увага інженерів до деталей та мінімізація помилок гарантували, що ми не знайшли космічної дивацтва на наших руках.
АдамО

Інженери (сподіваємось) перевіряють компоненти за будь-яких очікуваних умов, а потім додають додаткову помилку на основі моделей, які вони генерують. Це тип поведінки, який пропагує Демінг, і відрізняється від спроби зробити висновки щодо майбутнього ефективності лікування або взаємозв'язку між чинниками, ніж оцінка помилки вибірки лише одного дослідження. Це дуже цікава відмінність, яку я ще не бачив десь.
колба

Я не думаю, що це взагалі підсудно говорити, що "процес не є статистичним, оскільки помилково позитивна помилка не контролюється". Статистики набагато більше, ніж частолізм, з його контролем частоти помилок, і нечастічі біти є кориснішими бітами для науки. Можливо, ви хочете прочитати мій нещодавно архівний документ на тему: arxiv.org/abs/1311.0081
Michael Lew

1
@Adamo Відсутність будь-яких кількісних доказів при частому виведенні дійсно є популярною думкою серед байєсів (і ймовірностей), але вона добре підтверджена і була чітко висловлена ​​думка Неймана і Пірсона в першому документі, де вони розробили частістські методи! Можливо, ви повинні читати мою роботу з відкритою думкою. Інформація все є.
Майкл Лев

3

По-перше, я не статистик, а просто дослідник, який вивчав це багато останніх років, щоб зрозуміти, чому методів, які я спостерігаю, як використовуються навколо мене, так не вистачає, і чому існує стільки плутанини щодо основних понять, як "що це р-значення? " Я дам свою точку зору.

Спочатку одне уточнююче запитання:

Журнал Time писав,

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

дані; "

Я не впевнений, як це вписується у визначення функції живлення, яке я знайшов у підручнику, яка є ймовірність відхилення нуля як функції параметра θ. З різними θ ми володіємо різною силою, тому я не зовсім розумію наведену цитату.

Потужність - це функція θ, дисперсія та розмір вибірки. Я не впевнений, в чому плутанина. Крім того, для багатьох випадків, коли використовується тестування на значимість, нульова гіпотеза mean1 = mean2 завжди хибна. У цих випадках значення має лише функція розміру вибірки. Прочитайте, будь ласка, "Теоретичні випробування з психології та фізики: методологічний парадокс" Пола Мела. У ній було прояснено багато речей, і я ніколи не бачив адекватної відповіді. У Пола Міла є кілька інших робіт про це, які ви можете знайти, шукаючи його ім'я.

У моїй галузі політології / економіки науковці просто використовують усі наявні в країні дані про рік. Таким чином, чи не повинні ми тут перейматися зразком прикладів?

Якщо ви читаєте документ Simmons 2011, це лише один із згаданих методів "p-hacking". Якщо це правда, що існує лише один набір даних, і ніхто не вибирає з нього вибіркові вибірки, то, мабуть, немає місця для збільшення розміру вибірки.

Чи можна проблему запуску декількох тестів, але звітування лише про одну модель, виправити лише тим, що хтось із цієї дисципліни повторно перевірить ваш документ і негайно вразить вас за відсутність надійних результатів? Передбачаючи це, вчені з моєї галузі мають більше шансів включити розділ перевірки стійкості, де вони показують, що численні специфікації моделі не змінюють результат. Цього достатньо?

Якщо тиражування відбувалося без упередженості публікацій, не було б потреби в "журналах нульового результату". Я б сказав, що розділ перевірки стійкості добре мати, але недостатній, якщо дослідники не можуть опублікувати те, що вони вважають нульовими результатами. Крім того, я б не вважав результат надійним лише тому, що кілька методів аналізу на одних і тих же даних приходять до одного і того ж висновку. Надійний результат - це правильний прогноз ефекту / кореляції / тощо на нові дані .

Реплікація не отримує р <0,05 обох разів. Теорію слід вважати більш надійною, якщо вона передбачає інший ефект / кореляцію / тощо, ніж використана в першому дослідженні. Я маю на увазі не вплив чи кореляцію, а точне значення чи малий діапазон значень порівняно з можливим діапазоном значень. Наявність посиленого / зменшеного ефекту або позитивної / негативної кореляції є 100% вірогідною у випадку хибної гіпотези. Прочитайте Meehl.

Ендрю Гелман та інші підкреслюють, що незалежно від даних, завжди можна було б знайти та опублікувати якийсь «шаблон», якого насправді немає. Але це не повинно викликати занепокоєння, враховуючи той факт, що будь-яка емпірична «закономірність» повинна підтримуватися теорією, а конкуруючі теорії в рамках дисципліни будуть просто брати участь у дискусії / гонці, щоб знайти, який табір здатний знайти більше «моделей». в різних місцях. Якщо візерунок справді хибний, то теорія позаду буде швидко знищена, коли подібних зразків в інших зразках / параметрах немає. Чи не так прогресує наука?

Наука не може нормально функціонувати, якщо дослідники не опублікують нульових результатів. Також те, що модель не була виявлена ​​у другому зразку / установці, не означає, що вона не існує в умовах первинного дослідження.

Якщо припустити, що нинішня тенденція журналів до нульового результату насправді процвітатиме, чи існує спосіб, щоб ми об'єднали всі нульові та позитивні результати разом та зробили висновок щодо теорії, яку всі вони намагаються перевірити?

Це був би метааналіз . У цьому випадку немає нічого особливого щодо нульових результатів, окрім того, що дослідники не публікують їх, оскільки значення p були вище довільного порогу. За наявності зміщення публікацій метааналіз недостовірний, як і вся література, яка страждає від упередженості публікацій. Хоча це може бути корисним, мета-аналіз набагато поступається оцінці теорії, ніж те, що вона дає точний прогноз, який потім тестується. Упередженість публікації не має значення майже до тих пір, поки нові прогнози не зникають і тиражуються незалежними групами.


Моя плутанина щодо цитати часу полягає в тому, що функція живлення не повинна обмежуватися лише тоді, коли нульове значення має значення true, як випливає з цитати. Область функції живлення - це весь простір параметрів, якщо я не помиляюся. А значить, немає жодної «потужності 0,8», яку можна призначити тесту.
Гейзенберг

Я повністю згоден з вами в тому, що теорію потрібно перевірити на нових даних. Але у випадку політології чи макроекономіки, де у нас є лише стільки країн і стільки років, чи зусилля тоді обов'язково перешкоджають?
Гейзенберг

@Anh щосекунди слід додавати нові дані. Теорія повинна передбачати майбутнє. В астрономії, наприклад, було передбачення позицій комет. Також ви розраховуєте потужність для очікуваного значення параметра. Так, у випадку цитати вони мали на увазі потужність перевірити теорію, яка передбачала кореляцію принаймні r = .5.
колба

Для уточнення r = 0,5 буде прикладом кореляції, передбаченої теорією.
колба

2

Я сказав би це просто, оскільки тестування гіпотез нульової реальності стосується лише нульової гіпотези. І взагалі нульова гіпотеза зазвичай не є цікавою, і навіть не може бути "статус-кво" - особливо в регресійному тестуванні гіпотез. Часто в суспільній науці не існує статусу кво, тому нульова гіпотеза може бути досить довільною. Це робить величезну різницю в аналізі, оскільки вихідна точка не визначена, тому різні дослідження починаються з різної нульової гіпотези, швидше за все, виходячи з усіх наявних у них даних. Порівняйте це з чимось на кшталт законів руху Ньютона - має сенс мати це як нульову гіпотезу, і спробуйте знайти кращі теорії з цієї вихідної точки.

Крім того, p-значення не обчислюють правильної ймовірності - ми не хочемо знати про ймовірність хвоста, якщо тільки альтернативна гіпотеза не є більшою ймовірністю під час просування далі в хвости. Те, що ви насправді хочете, це те, наскільки добре теорія передбачає те, що насправді було побачене. Наприклад, припустимо, я прогнозую, що існує 50% шансів на "легкий душ", а мій конкурент прогнозує, що шанс на 75% є. Це виявляється правильним, і ми спостерігаємо легкий злив. Тепер, коли вирішуєте, яка людина погода правильна, ви не повинні давати моєму передбаченню додаткового кредиту за те, що також даєте 40% шансу на "грозу", або брати кредит у мого конкурента за надання "грози" шансу 0%.

Трохи замислившись над цим, вам покаже, що не стільки, скільки дана теорія підходить до даних, а більше про те, наскільки погано підходить будь-яке альтернативне пояснення. Якщо ви працюєте з коефіцієнтами Бейса , у вас є попередня інформація , дані та деяка гіпотеза , коефіцієнт Байєса задається:IDH

BF=P(D|HI)P(D|H¯I)

Якщо дані неможливо , враховуючи , що помилково, то , і ми стали деякі з . Значення р зазвичай дає чисельник (або деяке його наближення / перетворення). Але зауважте також, що невелике р-значення є лише доказом проти нуля, якщо існує альтернативна гіпотеза, яка відповідає даним. Ви можете вигадати ситуації, коли p-значення насправді підтримує нульову гіпотезу - це дійсно залежить від альтернативи.HBF=H0.001

Є добре відомий емпіричний приклад, що легко розуміється, коли монета кидається в разів, а кількість голів - - трохи більше половини. Нульовою моделлю є а альтернативою є та для граничної моделі (DU = дискретна рівномірність). Значення p для нульової гіпотези дуже мало , тому відхиліть нуль і опублікуйте правильно? Але подивіться на коефіцієнт Баєса, заданий:104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)p = 0,00015yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

Як це може бути? Фактор Байєса підтримує нульову гіпотезу, незважаючи на малу p-величину? Ну, подивіться на альтернативу - вона дала ймовірність для спостережуваного значення - альтернатива не дає хорошого пояснення фактам - тому нуль швидше, але лише відносно альтернативи . Зауважте, що нуль лише трохи кращий за цей - . Але це все-таки краще, ніж альтернатива.1n+1=0.00000000960.00000011

Особливо це стосується прикладу, який критикує Гельман - там ніколи не було протестовано лише однієї гіпотези, і не надто багато роздумів над тим, а) які пояснення альтернативних варіантів (особливо щодо заплутаності та ефектів, які не контролюються); b) на скільки альтернативи, підкріплені попередніми дослідженнями, і головне, в) які прогнози вони роблять (якщо такі є), які суттєво відрізняються від нульових?

Але зауважимо, що не визначено, і в основному представляє всі інші гіпотези, що відповідають попередній інформації. Єдиний спосіб, коли ви справді можете зробити тестування гіпотез правильно, вказавши коло альтернатив, які ви збираєтесь порівнювати. І навіть якщо ви зробите це, скажімо, у вас є , ви можете повідомити лише про те, що дані підтримують щодо того, що ви вказали. Якщо ви залишите важливу гіпотезу з набору альтернатив, ви можете розраховувати на отримання безглуздих результатів. Крім того, дана альтернатива може виявитись набагато кращою, ніж інші, але все ще малоймовірною. Якщо у вас є один тест, де р-значенняH¯H1,,HKHk0.01але сто різних тестів, де р-значення дорівнює , набагато ймовірніше, що "найкраща гіпотеза" (найкраща має кращі конотації, ніж істинна) насправді виходить із групи "майже значущих" результатів.0.1

Основним моментом підкреслюється те, що гіпотеза ніколи не може існувати у відриві від альтернативних засобів. Тому що, вказавши теорій / моделей, ви завжди можете додати нову гіпотезу Насправді цей тип гіпотез - це в основному те, що прогресує наука - хтось має нову ідею / пояснення якогось ефекту, а потім тестує цю нову теорію на тлі поточного набору альтернатив . Його проти а не просто проти . Спрощена версія застосовується лише тоді, коли є дуже сильно підтримувана гіпотеза вH K + 1 = Щось ще, про що ще не думали H K + 1 H 1 , , H K H 0 H A H 1 , , H KK

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK- тобто з усіх ідей та пояснень, які ми маємо на даний момент, існує одна домінуюча теорія. Це, безумовно, не стосується більшості напрямків соціальної / політології, економіки та психології.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.