Поясніть комікс xkcd jean bean: Що робить це смішним?


59

Я бачу , що один раз з двадцяти повних тестів , якими вони управляють, , так що вони помилково вважають , що під час одного з двадцяти тестів, результат має велике значення ( 0,05 = +1 / 20 ).p<0.050.05=1/20

Комікс xkcd jean bean - "Значне"

  • Назва: Значне
  • Наведіть текст: "" Отож, ми знову зробили зелене дослідження і не мали жодного зв'язку. Це, мабуть, було ... "ДОСЛІДЖЕННЯ КОНФЛІКОВАНО НА ЗЕЛЕНІЙ ЖЕЛІ БІН / АКНЕ ЛІНК; БІЛЬШЕ ДОСЛІДЖЕННЯ ДОСЛІДЖЕННЯ!"

xkcd comic 882 - "Значне"


8
95% впевненість означатиме, що в середньому за 5% експериментів (один із 20) ми отримаємо протилежний висновок. Саме це і сталося тут. Тобто, якщо ви також зробите один і той же експеримент з помаранчевою квасолею 1000 разів, ~ 50 з них дадуть позитивний результат. :)
sashkello

19
Хто сказав, що це смішно?
whuber

3
funniness>0funniness<0(p<.05)


3
@Glen_b, улюблена мультфільмна нитка аналізу даних належним чином CW, однак, я не бачу жодної причини, якою це має бути. "Чому смішно" убік, питання вимагає розуміння статистичної точки, що йдеться у мультфільмі, на яку є відповідь & має бути на тему & not-CW (і що, на мою думку, ви вирішили нижче).
gung - Відновіть Моніку

Відповіді:


68

Гумор - це дуже особиста річ - деякі люди вважають це кумедним, але це може не бути смішним для всіх - і спроби пояснити, що робить щось смішне, часто не вдається передати смішне, навіть якщо вони пояснюють основну точку. Насправді не всі xkcd навіть призначені бути насправді кумедними. Однак багато хто робить важливі моменти так, що їх думка провокує, і, принаймні, іноді вони цікаві, роблячи це. (Мені особисто це смішно, але мені важко чітко пояснити, що, власне, робить мені це смішно. Я думаю, що частково це визнання того, як сумнівний чи навіть сумнівний результат перетворюється на медіа-цирк ( на якому див. також цей докторський комікс ), і, можливо, частково визнання того, як реально можуть бути проведені деякі дослідження (якщо зазвичай це не свідомо).

Однак можна оцінити те, чи не тикає ваша смішна кістка.

n1n

У коміксі Рендалл зобразив 20 тестів, тому це, без сумніву, його суть (що ви розраховуєте отримати одне значне, навіть коли нічого не відбувається). Вигадана газетна стаття навіть підкреслює проблему з підзаголовком "Лише 5% шанс збігу!". (Якщо тест, який опинився в паперах, був єдиним зробленим, то це може бути так.)


Звичайно, є і тонкіше питання про те, що окремий дослідник може поводитись набагато більш обґрунтовано, але проблема бурхливого оприлюднення помилкових позитивів все ще виникає. Скажімо, що ці дослідники роблять лише 5 тестів, кожен на рівні 1%, тому загальний шанс виявити такий хибний результат становить лише близько п’яти відсотків.

Все йде нормально. Але тепер уявіть, що існує 20 таких дослідницьких груп, кожна з яких тестує незалежно від того, який випадковий набір кольорів, на їхню думку, є підстави спробувати. Або 100 дослідницьких груп ... який шанс на такий заголовок, як у комічному зараз?

Отже, у ширшому плані комікс може посилатися на упередженість публікацій. Якщо трубимуть лише значні результати, ми не почуємо про десятки груп, які нічого не знайшли для зелених медуз, лише тієї, яка це зробила.

Дійсно, це є одним з головних моментів у цій статті , який був новиною за останні кілька місяців ( наприклад, тут , хоча це стаття 2005 року).

Відповідь на цю статтю наголошує на необхідності реплікації. Зауважимо, що якби було опубліковано кілька реплік дослідження, яке було опубліковане, результат "Зелених медуз, пов'язаних з прищами", був би малоймовірним.

(І справді, текст наведення курсора на комікс чітко посилається на той же пункт.)


11

Вплив тестування гіпотез на рішення про публікацію було описано більше п’ятдесяти років тому в документі Рішення про публікацію проекту JASA та їх можливий вплив на висновки, отримані на основі тестів значущості - або Віце Верса (вибачте за платні).

Огляд статті У статті зазначено докази того, що опубліковані результати наукових праць не є репрезентативною вибіркою результатів усіх досліджень. Автор рецензував статті, опубліковані в чотирьох великих журналах з психології. 97% рецензованих праць повідомили про статистично значущі результати своїх основних наукових гіпотез.

Автор висуває можливе пояснення цього спостереження: те дослідження, яке дає незначні результати, не публікується. Таке дослідження, невідоме іншим дослідникам, може бути повторене самостійно, доки в кінцевому підсумку випадково не з’явиться істотний результат (помилка 1 типу) і не буде опубліковано. Це відкриває двері до можливості, що опублікована наукова література може містити надмірне представлення невірних результатів, що виникають внаслідок помилок типу 1, у тестах статистичної значущості - саме в тому сценарії, з якого весело цікавився оригінальний комікс XKCD.

Це загальне спостереження було згодом перевірене та повторне відкриття, можливо, протягом останніх років. Я вважаю, що документ JASA 1959 р. Був першим, хто просунув гіпотезу. Автор цієї роботи був моїм науковим керівником. Ми оновили його документ про 1959 рік через 35 років і дійшли тих же висновків. Переглянуті рішення щодо публікації: Вплив результатів статистичних випробувань на рішення про публікацію та Вір-Верса. Американський статистик, т. 49, № 1, лютий 1995р


Звичайно - я редагував свою відповідь вище, щоб включити огляд статті.
Вільф Розенбаум


-2

Що люди не помічають, це те, що фактична величина р для випадку із зелена квасоля - не 0,05, а близько .64. Тільки величина прикидка (номінальне) p становить 0,05. Існує різниця між фактичними і претендуючими p-значеннями. Ймовірність знайти 1 на 20, який досягне номінального рівня, навіть якщо всі нулі вірні, НЕ .05, але .64. З іншого боку, якщо ви оціните докази, що дивляться на порівняльну ймовірність - найпопулярніший погляд, окрім статистичних помилок (в межах яких знаходяться p-значення), ви скажете, що існують докази щодо Н: зелена квасоля по-справжньому корелює з прищами. Це тому, що P (x; немає ефекту) <P (x; H). Ліва сторона - <0,05, тоді як права - досить висока: якщо зелена квасоля викликала прищі, то виявлення спостережуваної асоціації було б ймовірним. В одній ймовірності не вдасться зрозуміти ймовірності помилок, оскільки вони обумовлюють фактичні отримані дані. Немає різниці в оцінці, ніж якби щойно був цей тест із зеленої квасолі та вугрів. Отже, хоча цей мультфільм часто сприймається як висміювання p-значень, саме те, що в ньому смішно, демонструє, чому нам потрібно враховувати загальну ймовірність помилок (як це роблять неприкідливі значення p), а не просто ймовірність. Байєсівський висновок також зумовлений результатом, ігноруючи ймовірності помилок. Єдиним способом уникнути пошуку доказів для Н для байєсів було б низький показник рівня H. Але ми би регулювали p-значення незалежно від предмета, і не покладаючись на пріорів, через застосовувану процедуру полювання знайти гіпотезу для перевірки. Навіть якщо Н, на якого полювали, був правдоподібним, це ' s все ще паршивий тест. Errorstatistics.com


2
Дуже важко точно сказати, що намагається сказати цей пост. Дозвольте зосередитись на одній його частині, сподіваючись, що уточнення може розкрити сенс решти: що саме ви маєте на увазі під загальною ймовірністю помилок?
whuber

2
@whuber Я вважаю, що публікація має на увазі проблему численних порівнянь.
Метт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.