Ця стаття " Коефіцієнти, які постійно оновлюються" від NY Times, привернула мою увагу. Коротше кажучи, це стверджує, що
[Байєсівська статистика] виявляється особливо корисною у вирішенні складних проблем, включаючи пошуки на зразок того, який берегова охорона використовувала у 2013 році для пошуку зниклого рибалки Джона Олдріджа (хоча ні, поки що під час полювання на рейс 370 Malaysia Airlines). ......, байесівська статистика пронизує все - від фізики до дослідження раку, екології до психології ...
У статті також є деякі закиди щодо p-значення частоліста, наприклад:
Результати зазвичай вважаються "статистично значущими", якщо значення р менше 5 відсотків. Але в цій традиції є небезпека, сказав Ендрю Гелман, професор статистики Колумбії. Навіть якщо вчені завжди робили обчислення правильно - а вони ні, - стверджує він, - прийняття всього з р-значенням 5 відсотків означає, що кожен із 20 “статистично значущих” результатів - це не що інше, як випадковий шум.
Окрім вищезгаданого, можливо, найвідоміша стаття, що критикує значення p, саме ця - «Науковий метод: Статистичні помилки» Реґіни Нуццо з Nature , в якому обговорювалося багато наукових питань, піднятих підходом p-значення, як, наприклад, питання відновлення, хакерське значення і т.п.
Значення P, "золотий стандарт" статистичної валідності, не такі надійні, як вважають багато вчених. ...... Мабуть, найгірша помилка - це тип самообману, для якого психолог Урі Сімонсон з Університету Пенсільванії та його колеги популяризували термін P-хакерство; він також відомий як днопоглинання даних, носіння, риболовля, переслідування значущості та подвійне занурення. «Р-хакерство, - каже Сімонсон, - намагається зробити кілька речей, поки не отримаєте бажаного результату» - навіть несвідомо. ...... "Здається, що ця знахідка була отримана за допомогою p-хакерства, автори відмовилися від однієї з умов, щоб загальна р-величина була меншою за 0,05", і "Вона - хакер, вона завжди відстежує дані під час її збору ».
Інша справа, цікавий сюжет , як випливає з тут , з коментарем про сюжет:
Яким би малим не був ваш ефект, ви завжди можете зробити важку роботу зі збору даних, щоб перейти поріг р <0,05. Поки ефект, який ви вивчаєте, не існує, p-значення просто вимірюють, скільки зусиль ви доклали до збору даних.
З усього вищезазначеного мої запитання:
Що точно означає аргумент Ендрю Гельмана у другому блоці? Чому він інтерпретував 5-відсоткове значення p як "один із 20 статистично значущих результатів, але не випадковий шум"? Я не переконаний, оскільки мені значення p використовується для того, щоб робити висновки в одному дослідженні. Його погляд, здається, пов'язаний з багаторазовим тестуванням.
Оновлення: Перевірте блог Ендрю Гелмана про це: Ні, я цього не говорив! (Кредити @Scortchi, @whuber).
З урахуванням критичних зауважень по приводу значення р, а також з огляду на Є багато інформаційних критерії, як AIC, BIC, мальви в для оцінки значущості моделі (отже , змінних), ми не повинні використовувати р-значення для змінного вибору на все але використовуєте ці критерії вибору моделі?
- Чи є якісь практичні вказівки щодо використання p-значення для статистичного аналізу, які могли б призвести до більш надійних результатів досліджень?
Чи може байєсівський моделюючий підґрунтя кращим способом дотримуватися, як вважає деякий статистик? Зокрема, чи може бути байєсівський підхід вирішити помилковий пошук або маніпулювати питаннями даних? Я не переконаний і тут, оскільки пріоритет є дуже суб'єктивним у байєсівському підході. Чи є якісь практичні та відомі дослідження, які показують, що байєсівський підхід кращий, ніж р-значення частолістських, або принаймні в деяких конкретних випадках?
Оновлення: Мені б особливо цікаво, чи є випадки, що баєсовський підхід є більш надійним, ніж підхід частотистського p-значення. Під "надійним", я маю на увазі байєсівський підхід, мабуть, маніпулює даними для отримання бажаних результатів. Будь-які пропозиції?
Оновлення 9.06.2015
Щойно помітив новину і подумав, що було б добре винести її сюди для обговорення.
Журнал психології забороняє значення P
Суперечливий статистичний тест нарешті домігся свого кінця, принаймні в одному журналі. На початку цього місяця редактори фундаментальної та прикладної соціальної психології (BASP) оголосили, що журнал більше не публікуватиме статті, що містять значення P, оскільки статистика занадто часто використовується для підтримки досліджень низької якості.
Поряд з недавньою роботою, "Нестабільне значення Р генерує невідтворювані результати" від Nature , про значення Р.
Оновлення 8.5.2016
Ще в березні Американська статистична асоціація (ASA) оприлюднила твердження про статистичну значущість та p-значеннях, ".... Заява ASA призначена для керування дослідженнями на" пост p <0,05 епохи "."
Ця заява містить 6 принципів, які стосуються неправильного використання значення p:
- P-значення можуть вказувати, наскільки несумісні дані з визначеною статистичною моделлю.
- Р-значення не вимірюють ймовірність того, що вивчена гіпотеза є правдивою, або ймовірність того, що дані були створені лише випадковим випадком.
- Наукові висновки та ділові чи політичні рішення не повинні базуватися лише на тому, чи значення p переходить певний поріг.
- Для правильного висновку необхідна повна звітність та прозорість.
- Значення р або статистична значимість не вимірює розмір ефекту чи важливість результату.
- Сама по собі p-величина не дає хорошої міри доказів щодо моделі чи гіпотези.
Деталі: "Заява ASA про p-значеннях: контекст, процес та мета" .