Ziliak (2011) виступає проти використання p-значень і згадує деякі альтернативи; хто вони?


25

В останній статті, що обговорює недоліки, покладаючись на значення p для статистичного висновку, яке називається "Матриця проти Сіракузано та Студент проти Фішера, статистичне значення для випробування" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Стівен Т. Зіляк виступає проти використання р-значень. У заключних параграфах він говорить:

Дані - це одне, про що ми вже знаємо, і напевне. Те, що ми насправді хочемо знати, - це щось зовсім інше: ймовірність того, що гіпотеза є істинною (або принаймні практично корисною), враховуючи дані, які ми маємо. Ми хочемо знати ймовірність того, що два препарати різні, і на скільки, з огляду на наявні докази. Тест на значимість, який базується на помилковості транспонованої умовної, пастки, в яку потрапив Фішер, - не дає і не може нам сказати такої ймовірності. Функція харчування, функція очікуваних втрат та багато інших методів теоретичних рішень та баєсовських методів, що походять від Студента та Джеффріса, тепер широко доступні та безкоштовні в режимі он-лайн.

Що таке сила, функція очікуваних втрат та "інші методи теоретичного рішення та баєса"? Чи широко застосовуються ці методи? Чи доступні вони в R? Як реалізуються ці нові запропоновані методи? Як, наприклад, я б використовував ці методи для тестування своєї гіпотези в наборі даних, інакше я використовував би звичайні двопробові t-тести та p-значення?


Існує багато праць, які заперечують проти використання значень лише, але це дійсно залежить від контексту, ІМО. Чи можете ви додати більше інформації про те, що вас цікавить (див. Ваше останнє речення)? p
chl

2
Я не маю доступу до статті, але цей аргумент вказує на досить хибне розуміння того, що відбувається. Незважаючи на хибне розуміння, висновок про те, що інші статистичні дані варто врахувати, є розумним. Очікувана функція втрат - це просто оцінка очікуваного значення функції збитків (наприклад, помилка в квадраті, логістика тощо).
Ітератор

Через недавно опубліковану подібну тему , я порушив запит щодо цієї теми на Meta CV
Silverfish

Відповіді:


17

Це звучить як ще одна жорстка папір розгубленої людини. Фішер не потрапив у жодну подібну пастку, хоча багато студентів статистики так і роблять.

Тестування гіпотез - теоретична проблема рішення. Як правило, ви закінчуєте тест із заданим порогом між двома рішеннями (гіпотеза правдива або гіпотеза хибна). Якщо у вас є гіпотеза, яка відповідає одній точці, наприклад , ви можете обчислити ймовірність отримання ваших даних, коли це правда. Але що робити, якщо це не єдиний пункт? Ви отримуєте функцію θ . Гіпотеза θ 0 є такою гіпотезою, і ви отримуєте таку функцію для ймовірності створення спостережуваних даних, враховуючи, що це правда. Ця функція є функцією живлення. Це дуже класично. Фішер знав про це все.θ=0θθ0

Очікувана втрата є частиною основної механізму теорії рішень. У вас є різні стани природи, і різні можливі дані, що виникають в результаті них, і деякі можливі рішення, які ви можете приймати, і ви хочете знайти хорошу функцію від даних до рішення. Як ви визначаєте добро? Враховуючи конкретний стан природи, що лежить в основі отриманих вами даних, і рішення, прийняте за цією процедурою, яка ваша очікувана втрата? Це найпростіше розуміється в бізнес-проблемах (якщо я роблю це на основі продажів, які я спостерігав за останні три квартали, то яка очікувана грошова втрата?).

Байєсові процедури - це підмножина теоретичних процедур прийняття рішень. Очікувана втрата є недостатньою для конкретизації найкращих процедур у всіх, крім тривіальних випадках. Якщо одна процедура краща за іншу в стані A і B, очевидно, ви віддасте перевагу, але якщо одна краща в стані A, а одна краща в стані B, яку ви обираєте? Тут вводяться допоміжні ідеї, такі як процедури Байєса, мінімальності та неупередженості.

ттαβpαp

Я також трохи розгублений, чому він називає Студента та Джеффріса разом, вважаючи, що Фішер відповідав за широке розповсюдження роботи Студента.

В основному, сліпе використання p-значень - погана ідея, і вони є досить тонкою концепцією, але це не робить їх марними. Чи варто заперечувати проти їхнього неправильного використання дослідниками з поганим математичним походженням? Абсолютно, але давайте згадаємо , як це виглядало , перш ніж Фішер спробував відігнати що - то вниз для людини в поле для використання.


5
+1 за те, що насправді відповів на питання, і додатковий (але віртуальний) +1 для оскарження цитати, що є провокаційним, але проблематичним. Я бачу, що ви тут нещодавній учасник, але вже зробили багато відповідей: велике спасибі та привітання (трохи запізніло) на нашому сайті!
whuber

Дуже дякую за детальну відповідь. Це допомагає критично продумати альтернативні стратегії, які пропонуються в цьому документі. Я задав це запитання, оскільки деякі колеги використовували цей документ, щоб сказати, що ми взагалі не повинні дивитися на значення p, і я зрозумів, що не розумію, що насправді означають ці альтернативи. Дякуємо за уточнення!
Аріель

@whuber Я не думаю, що це взагалі відповідає на питання. ОП запитували про альтернативи, які пропонує Зіляк, і ця відповідь не стосується їх. Наприклад, критика важливості Зіляка стосується того, чому люди використовують 5% або 1% значення. Насправді немає серйозних причин, і він зміг відстежити ці рівні назад до паперів Фішера. Це просто якесь довільне, зручне число. На відміну від "альтернативних" підходів, заснованих на грошових перевагах, тобто цінності долара.
Аксакал

1
@Aksakal Я вважаю, що важливий внесок у розмову вносить тестування гіпотез із теоретичною проблемою рішення та явним підключенням p-значення до очікуваного ризику (на основі функції втрати 0-1).
whuber

6

Я рекомендую зосередитись на таких речах, як довірчі інтервали та перевірка моделі. Ендрю Гельман зробив велику роботу над цим. Я рекомендую його підручники, а також перевірити матеріали, які він розміщує в Інтернеті, наприклад http://andrewgelman.com/2011/06/the_holes_in_my/


5

Пакет ez забезпечує коефіцієнти ймовірності, коли ви використовуєте ezMixed()функцію моделювання змішаних ефектів. Коефіцієнти ймовірності мають на меті кількісно оцінити докази явища шляхом порівняння ймовірності (з урахуванням спостережуваних даних) двох моделей: "обмеженої" моделі, що обмежує вплив явища до нуля, та "необмеженої" моделі, що дозволяє не нульовий вплив явище. Після виправлення спостережуваних вірогідностей диференціальної складності моделей (за інформаційним критерієм Akaike, який асимптотично еквівалентний перехресній валідації), співвідношення кількісно визначає докази явища.


4

Всі ці методи доступні в R в тому ж сенсі, що вся алгебра доступна у вашому олівці. Навіть значення p доступні через безліч різних функцій у R, вирішення якої функції використовувати для отримання p-значення чи байєсівської задньої частини є складнішою, ніж покажчик на одну функцію чи пакет.

Як тільки ви дізнаєтесь про ці методи і вирішите, на яке питання ви теж хочете відповіді, тоді ви зможете побачити (або ми можемо надати додаткову допомогу), як це зробити за допомогою R (або інших інструментів). Сказати, що ви хочете звести до мінімуму свою втрату або отримати задній розподіл - це настільки ж корисно, як і відповісти на "їжу" на запитання, що ви хочете їсти на вечерю.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.