Чи це рішення проблеми р-значення?


67

У лютому 2016 року Американська статистична асоціація оприлюднила офіційну заяву про статистичну значимість та p-значення. Наша нитка про це широко обговорює ці питання. Однак жоден орган влади не запропонував запропонувати загальновизнану ефективну альтернативу - до цих пір. Американське статистичне товариство (ASS) опублікувало свою відповідь, p-значення: Що далі?

"Значення р не дуже добре."

Ми вважаємо, що ASA не зайшов досить далеко. Час визнати, що ера р-значень закінчилася. Статистики успішно використовували їх для того, щоб збивати з глузду студентів, вигадувати вчених та обдурити редакторів скрізь, але світ починає бачити цей хит. Нам потрібно відмовитися від цієї спроби статистиків на початку 20 століття контролювати прийняття рішень. Нам потрібно повернутися до того, що насправді працює.

Офіційна пропозиція ASS така:

Замість p-значень ASS виступає за STOP (процедуру SeaT-Of-Pants). Цей шанований і перевірений часом метод використовували стародавні греки, люди відродження та всі вчені, поки Рональд Фішер не прийшов і погубив речі. STOP простий, прямий, керований даними та авторитетний. Для його здійснення представник влади (старший чоловік за перевагою) переглядає дані та вирішує, чи згодні вони з його думкою. Коли він вирішить, що вони роблять, результат є "значним". Інакше це не так, і всі зобов'язані забути про все.

Принципи

Відповідь стосується кожного із шести принципів ASA.

  1. STOP може вказати, наскільки несумісні дані з визначеною статистичною моделлю.

    Нам ця фраза подобається, тому що такий вигадливий спосіб сказати, що СТОП відповість на будь-яке запитання так чи ні. На відміну від p-значень або інших статистичних процедур, це не залишає сумнівів. Це ідеальна відповідь для тих, хто каже: «нам не потрібна нічим не смердюча гіпотеза! Що таке?? @ @ Це все-таки? Ніхто ніколи не міг зрозуміти, що це повинно бути ».

  2. STOP не вимірює ймовірність того, що гіпотеза є істинною: вона фактично вирішує, правдива вона чи ні.

    Усі плутають ймовірності. Виймаючи ймовірність з картини, STOP виключає потребу в роках бакалаврату та аспірантури. Зараз будь-хто (хто є досить старшим та чоловічим) може проводити статистичний аналіз без болю і катувань, слухаючи навіть одну статистичну лекцію чи запускаючи таємне програмне забезпечення, яке виявляє невідповідні результати.

  3. Наукові висновки та ділові чи політичні рішення можуть базуватися на здоровому глузді та реальних цифрах влади.

    У будь-якому разі влада завжди приймала важливі рішення, тож давайте просто визнати це та вирізати посередників. Використання STOP дозволить статистикам робити те, що їм найбільше підходить: використовувати номери для опромінення правди та освячення переваг владних.

  4. Для правильного висновку необхідна повна звітність та прозорість.

    STOP - це найбільш прозора і зрозуміла статистична процедура, коли-небудь винайдена: ви дивитесь на дані і приймаєте рішення. Це виключає всі заплутані z-тести, t-тести, тести на чи-квадрат і процедури супів з алфавітом (ANOVA! GLM! MLE!), Які використовуються людьми, щоб приховати факт, що вони не мають поняття, що означають дані.

  5. STOP вимірює важливість результату.

    Це само собою зрозуміло: якщо людина, яка займає владу, використовує STOP, то результат повинен бути важливим.

  6. Сама по собі STOP забезпечує хороший показник доказів щодо моделі чи гіпотези.

    Ми б не хотіли оскаржувати авторитет, чи не так? Дослідники та особи, які приймають рішення, визнають, що STOP надає всю інформацію, яку їм потрібно знати. З цих причин аналіз даних може закінчитися STOP; немає необхідності в альтернативних підходах, таких як p-значення, машинне навчання або астрологія.

Інші підходи

Деякі статистики віддають перевагу так званим «байєсівським» методам, коли незрозуміла теорема, посмертно опублікована священнослужителем 18 століття, бездумно застосовується для вирішення кожної проблеми. Його найбільш відомі прихильники вільно визнають, що ці методи "суб'єктивні". Якщо ми будемо використовувати суб'єктивні методи, то очевидно, що чим авторитетніший і більш обізнаний ухвалюючий рішення, тим кращим буде результат. Таким чином, STOP постає як логічна межа всіх методів Байєса. Навіщо докладати зусиль, щоб опрацювати ці жахливі розрахунки та зав'язати стільки часу за комп’ютером, коли можна просто показати дані відповідальному хлопцеві і запитати у нього, що його думка? Кінець історії.

Нещодавно виникла інша громада, яка кидає виклик священству статистиків. Вони називають себе "машинними учнями" та "науковцями даних", але вони насправді просто хакери, які шукають вищий статус. Офіційна позиція ASS, що ці хлопці повинні створити власну професійну організацію, якщо вони хочуть, щоб люди сприйняли їх серйозно.


Питання

Це відповідь на проблеми, які ASA ототожнював з р-значеннями та нульовим тестуванням гіпотез? Чи може насправді об'єднати парадигми Байєса та частота (як неявно заявлено у відповіді)?


11
"Дональд Трамп за верховного судді STOP ASS: зробіть статистику знову великою!"
Алекс Р.

14
Очевидно, що STOP - це неоптимальна процедура. Я здивований, що це уникнуло такої поважної організації науковців, як ASS. А саме, навіщо витрачати час , дивлячись на дані на всіх ? Просто дайте відповідь "так / ні". Ця методика вже зараз використовується з великим ефектом. Прикладних ситуацій багато, особливо в США протягом років, що ділиться на 4.
кардинал

4
Я думаю, що підприємства також можуть отримати величезну користь від прийняття цих методів, оскільки їм більше не доведеться брати на себе велику вартість найму людей для аналізу їхніх даних.
dsaxton

4
@henry Ніби тег [april-1] нам цього не сказав?
Glen_b

9
@Henry Серйозно? Чи можете ви показати нам будь-яку підроблену організацію, яка отримує понад чверть мільйонів звернень, коли ви називаєте її ім’я Google?
whuber

Відповіді:


18

Я виступаю за свій власний новий підхід до прийняття статистичних рішень під назвою RADD: R oll A D amn D, тобто. Він також стосується всіх ключових моментів.

1) RADD може вказати, наскільки сумісні дані з визначеною статистичною моделлю.

Якщо ви скочуєте більшу кількість, очевидно, докази більше на користь вашої моделі! Додаткова вигода полягає в тому, що, якщо ми хочемо ще більшої впевненості, ми можемо скотити штамп з більшою кількістю сторін. Ви навіть можете знайти 100 односторонніх кісток, якщо достатньо пошукати!

2) RADD може вирішити, вірна гіпотеза чи ні.

Вам потрібно лише закатати двосторонній штамп, тобто перевернути монету.

3) RADD може використовуватися для прийняття бізнес-чи політичних рішень

Знайдіть купу політиків у кімнаті, і попросіть їх усіх заграти! Найвищі перемоги!

4) RADD є прозорим.

Результат можна записати, а сам штамб можна зберегти для подальшого дослідження *

5) RADD вимірює важливість результату.

Очевидно, що котитися вище означає дуже важливу подію.

6) RADD забезпечує хороший показник доказів.

Хіба ми не сказали, що більш високі булочки краще?

Отже, ні, STOP - це не відповідь. Відповідь - RADD.


7
Не забуваючи, він може забезпечити контроль помилок типу I (на будь-якому бажаному рівні з достатньо односторонніми кістками), наприклад, лише відкинувши нульову гіпотезу, коли одна з 5 сторін з найбільшою кількістю стогранних кісток з’являється для досягнення 5% показник помилок типу I.
Бьорн


17

Я маю сказати зі свого досвіду, що в діловій реальності STOP є критеріями прийняття рішень за замовчуванням, переважністюp-цінки та інші частістські, або байєсовські методи. З точки зору бізнесу STOP пропонує прості та остаточні відповіді, що робить його більш надійним, ніж невизначені "ймовірнісні" методи. Більше того, у переважній більшості випадків це простіше здійснити та легше адаптуватися до мінливої ​​реальності, ніж інші методи. Рішення «Так / Ні» є більш переконливими для середнього та вищого керівництва. "Звіти STOP" у більшості випадків коротші та легші для читання, ніж дані, що базуються на даних. Більше того, прийняття цього методу дозволяє вашому роботодавцю скоротити витрати на науковців даних та ліцензії SAS. Я б сказав, що єдиною проблемою STOP є те, що важче зробити презентацію PowerPoint, представляючи результати STOP, але це динамічно розвивається поле, тому в майбутньому можуть бути запропоновані кращі методи візуалізації.


6
Після ознайомлення з слайдами PowerPoint із висновком змінити його вже пізно, тому є два варіанти: зробити аналіз відповідним висновку або взагалі не заважати робити аналіз.
Марк Л. Стоун

12
@ MarkL.Stone Звичайно! Мені особисто подобається ідея зробити сюжети для презентації перед тим, як побачити дані, ідея кореняться в байєсівському мисленні, і я називаю їх апріорними сюжетами :) Я думаю, що цей підхід вперше з'явився у друку тут: dilbert.com/strip/ 2008-05-08
Тім

15

Цей прекрасний додаток до дебатів про цінність, цікавий, але також дещо несвіжий на мій погляд, нагадує мені унікальний документ, опублікований кілька років тому в різдвяному номері Британського медичного журналу (BMJ), який кожного Різдва публікує справжні, але смішні дослідження статті. Зокрема, ця робота Айзека та Фіцджеральда виділила сім ключових альтернатив медицині, заснованій на доказах (тобто практиці медицини на основі фактичних клінічних та статистичних даних):

  • Медицина на основі видатності
  • Ліки на основі Vehemence
  • Медицина, заснована на красномовстві
  • Медицина на основі провіденту
  • Медицина, заснована на розбіжності
  • Медицина на основі нервів
  • Медика, заснована на довірі

Найцікавіше, що ви повинні подивитися на стовпці, що висвітлюють вимірювальні прилади та одиниці вимірювання для вищезазначених предметів (наприклад, аудіометр та децибел для медицини на основі вегетації!).


4
+1. Дякую за чудовий внесок, ідеально в дусі питання. (1) Просто для уточнення: чи вважаєте ви "несвіжими" суперечки про значення вартості чи це питання? (2) Чи знаєте ви, де знайти посилання (6), "J Експоненціальна зарплата"? Я впевнений, що це було б багато завзятих читачів, якби це було краще відомо.
whuber

5
(1) Ваш внесок "сертифікований свіжий" (цитувати rottentomatoes.com). І навпаки, я вважаю дещо несвіжим цей акцент на обмеженнях p значень. В епоху машинного навчання, великих даних та слабкої наукової грамотності серед громадськості позиція ASA може здатися трохи мазохістською. (2) Я думаю, що ви знайдете цю статтю в тому ж журналі, де вони опублікували рандомізоване випробування, рекомендоване в цьому іншому новорічному творі BMJ: bmj.com/content/327/7429/1459 .
Joe_74

Я завжди забуваю, чи саме медицина, заснована на довірі, використовує умовиводи на основі Даннінга-Крюгера?
Олексій
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.