Використання p-значення для обчислення вірогідності гіпотези; що ще потрібно?


9

Питання:

Одне поширене нерозуміння p-значень полягає в тому, що вони представляють вірогідність того, що нульова гіпотеза є істинною. Я знаю, що це неправильно, і я знаю, що значення p представляють лише ймовірність знаходження вибірки настільки екстремальної, як ця, враховуючи, що нульова гіпотеза є істинною. Однак, інтуїтивно, треба мати можливість вивести перше з другого. Має бути причина, чому цього ніхто не робить. Якої інформації нам не вистачає, що обмежує нас від отримання ймовірності того, що гіпотеза є істинною з p-значення та пов'язаних з ними даних?


Приклад:

Наша гіпотеза - «Вітамін D впливає на настрій» (нульова гіпотеза - «немає ефекту»). Скажімо, ми проводимо відповідне статистичне дослідження на 1000 людей і знаходимо співвідношення між настроєм та рівнем вітаміну. За інших рівних випадків значення р 0,01 вказує на більш високу ймовірність істинної гіпотези, ніж значення р 0,05. Скажімо, ми отримуємо p-значення 0,05. Чому ми не можемо обчислити фактичну ймовірність істинності нашої гіпотези? Якої інформації нам не вистачає?


Альтернативна термінологія для статистиків-частолістів:

Якщо ви приймаєте передумови мого питання, ви можете перестати читати тут. Далі йдеться про людей, які відмовляються прийняти, що гіпотеза може мати тлумачення ймовірності. Давайте на мить забудемо термінологію. Натомість ...

Скажімо, ви робите ставки зі своїм другом. Ваш друг показує вам тисячу статистичних досліджень про неспоріднені теми. Для кожного дослідження вам дозволяється лише переглянути p-значення, розмір вибірки та стандартне відхилення вибірки. Для кожного дослідження ваш друг пропонує вам кілька шансів зробити ставку на те, що гіпотеза, представлена ​​в дослідженні, є правдивою. Ви можете або взяти ставку, або не взяти. Після того, як ви зробили ставки на всі 1000 досліджень, оракул піднімається на вас і каже вам, які гіпотези є правильними. Ця інформація дозволяє розрахувати ставки. Я стверджую, що існує оптимальна стратегія для цієї гри. На мій світогляд, це рівнозначно імовірності істинності гіпотез, але якщо ми не погоджуємось з цим, це добре. У цьому випадку ми можемо просто говорити про способи використання p-значень, щоб максимізувати очікування для ставок.


Дивіться, наприклад: math.tut.fi/~piche/bayes/notes06.pdf
klumbard

13
"Якої інформації нам не вистачає" - попередня ймовірність того, що H0 буде правдивим. Це просто теорема Байєса; для того, щоб обчислити задній, потрібно мати попереднє.
амеба

1
@AdamO Я не бачу, як це випливає з правила Кромвеля, що стосується попереднього, а не заднього. Я думаю, що ви можете плутати "правду" з "певними знаннями". Якби нас цікавили певні знання, ми використовували б логіку, а не імовірнісні міркування.
Дікран Марсупіал

1
@AdamO Я не дотримуюся. ОП запитав: "Якої інформації нам не вистачає, що обмежує нас із отримання ймовірності істинної гіпотези з p-значення та пов'язаних з ними даних?" Яке значення має ймовірність 1 і знання чогось як істини?
амеба

1
У відповідь на ваш попередній коментар @Atte: добре, якщо хтось хоче прийняти до 0,5, то добре, але я не розумію, чому це завжди має бути змістовною припущенням. У будь-якому випадку, це припущення.
амеба

Відповіді:


5

Інші відповіді мають філософський характер, але я не бачу, для чого це потрібно тут. Розглянемо ваш приклад:

Наша гіпотеза - «Вітамін D впливає на настрій» (нульова гіпотеза - «немає ефекту»). Скажімо, ми проводимо відповідне статистичне дослідження на 1000 людей і знаходимо співвідношення між настроєм та рівнем вітаміну. За інших рівних випадків значення р 0,01 вказує на більш високу ймовірність істинної гіпотези, ніж значення р 0,05. Скажімо, ми отримуємо p-значення 0,05. Чому ми не можемо обчислити фактичну ймовірність істинності нашої гіпотези? Якої інформації нам не вистачає?

Для отримання відповідає коефіцієнту кореляції вибірки . Нульова гіпотеза . Альтернативна гіпотеза .н=1000p=0,05ρ^=0,062Н0:ρ=0Н1:ρ0

Значення р - і ми можемо обчислити його на основі вибірки розподіл під нулем; більше нічого не потрібно.

p-цінність=П(|ρ^|0,062|ρ=0),
ρ^

Ви хочете обчислити

P(H0|data)=P(ρ=0|ρ^=0.062),

а для цього вам потрібен цілий букет додаткових інгредієнтів. Дійсно, застосовуючи теорему Байєса, ми можемо її переписати так:

P(ρ^=0.062|ρ=0)P(ρ=0)P(ρ^=0.062|ρ=0)P(ρ=0)+P(ρ^=0.062|ρ0)(1P(ρ=0)).

Отже, для обчислення задньої ймовірності нуля потрібно мати дві додаткові речі:

  1. До того, що нульова гіпотеза вірна: .P(ρ=0)
  2. Припущення про те, як поширюється , якщо альтернативна гіпотеза є істинною. Це потрібно для обчислення терміна .ρP(ρ^=0.062|ρ0)

Якщо ви готові припустити, що ---, хоча я особисто не впевнений, чому це коли-небудь має бути вагомим припущенням, --- вам все одно потрібно буде припустити розподіл в альтернатива. У цьому випадку ви зможете обчислити щось, що називається коефіцієнтом Байєса :P(ρ=0)=0,5ρ

Б=П(ρ^=0,062|ρ=0)П(ρ^=0,062|ρ0).

Як ви бачите, байесовский фактор ніяк НЕ залежить від рівня ймовірності нуля, але це залежить від рівня ймовірності (при альтернативі).ρ

[Зверніть увагу, що номінатор у коефіцієнті Байєса не є р-значенням через рівність замість знака нерівності. Таким чином , при обчисленні коефіцієнта Байеса або ми не використовуємо р-значення сам взагалі. Але ми, звичайно, використовуємо розподіл вибірки .]П(Н0)П(ρ^|ρ=0)


Йдеться про «ймовірності того, що правди" ", Ви думаєте , що Bayesians обчислити це? Або вони обчислити" "авторитет" "з бути правда? Тобто вони обчислити ступінь їх переконання , що вірно (з урахуванням даних, які вони спостерігають) чи вони обчислюють ймовірність того, що є правдивим?Н0Н0Н0Н0

2
Я не розумію відмінності, яку ти робиш @fcop. У байєсівському світогляді ймовірність - це ступінь віри ( наприклад, дивіться тут ).
амеба

Тоді чому вони називають це "достовірністю"?

1
Вибачте @fcop, я не хочу тут філософської чи семантичної дискусії. ОП запитує, що потрібно для обчислення і я відповідав на це конкретне питання з математичної точки зору. П(Н0)
амеба


7

Quid est veritas?

Я можу прийняти відповідь @ amoeba так само легко, як оригінальний плакат. Однак я застерігаю, що у всій своїй роботі я не стикався з байєсівським аналізом, який підраховував "ймовірність того, що нульова гіпотеза є істинною". І такий висновок приверне цілу низку аргументів тих, хто рецензує вашу роботу! По-філософськи це робитьповерніть нас до питання: "що таке правда?" Можливо, "правда" є неспростовною, навіть для самих доказів. Статистика є інструментом науки для кількісної оцінки невизначеності. Я все ще стверджую, що, хоча докази можуть сильно вказувати на правду, завжди існує ризик помилкової позитивної знахідки, і Добрий статистик повинен повідомити про цей ризик. Навіть у теоретичному тестуванні рішення Баєса дається правило прийняття рішення, щоб ми могли прийняти або відхилити гіпотези, засновані на факторах Байєса, які приблизно пропорційні , але наша віра ніколи не буває або навіть коли наше рішення є. Теорія рішень дає нам засіб "рухатися вперед" з частковими знаннями та приймати ці ризики.Пr(Н0|Х)10

Частиною обґрунтування статистичного тестування гіпотез нульової гіпотези (NHST) та -значення є філософія фальсифікації Карла Поппера . У цьому: критичне припущення полягає в тому, що "правда" ніколи не відома, ми можемо лише знищити інші гіпотези. Цікаве і дійсна критика NHST є те , що ви змушені робити безглузді припущення, як , що куріння робить НЕ причина раку , коли ви дійсно зацікавлені в описовому (НЕ логічних виведення) досліджень: і ви просто описуючи , як багато рак куріння викликає .p

Зворотна критика була застосована до байєсівських досліджень, де можна вільно застосовувати пріорів: Денніс Ліндлі сказав: "З попередньою ймовірністю 0, що Місяць зроблений із сиру, космонавти, що повертаються зі зброєю, наповненою сиром, все ще не змогли переконати".

Інформація про відсутність для визначення того, чи справжня нульова гіпотеза є правдивою, - це тривіально знання про те, чи справжня нульова гіпотеза. За іронією долі, коли ми зосереджуємось на описовій статистиці, ми можемо прийняти допустимі діапазони можливих наслідків і дещо рішуче зробити висновок про те, що тенденція, ймовірно, вірна: але статистичне тестування не призводить нас до таких висновків. Навіть у байєсівському висновку жодні дані не призведуть до єдиного заднього, не маючи якихось методологічних проблем, тому включення попереднього не вирішує цю проблему.


1
"" З попередньою ймовірністю 0, що Місяць зроблений з сиру ", але з урахуванням" суммального ерго "(а може, навіть і не з цього) - це все, що ми точно знаємо, чи слід дати попередню ймовірність 0, що Місяць зроблений з сиру ? 0 і 1 повинні бути зарезервовані для логічно неможливого і певного, а eps і 1-eps для тверджень про реальний світ. Байєсівська рамка чудова, за умови, що ваші пріори точно представляють ваше попереднє знання проблеми (але саме по собі проблема)
Дикран Марсупіал

1
@DikranMarsupial Ваш аргумент проти такого використання 0/1 - саме те, що пропонує цитата. Це висміює ситуацію, щоб пояснити необхідність того, що Ліндлі називає правилом Кромвеля .
nwn

1
@watarok дякую за посилання / уточнення, здається, що згадка у відповіді трохи вводить в оману, оскільки Ліндлі насправді не критикує байєсівські дослідження, а лише надмірно впевнені пріоритети.
Дікран Марсупіал

@DikranMarsupial Я думаю, що питання надто впевнених пріорів - це питання, яке можна застосувати до всієї байєсівської статистики. Неінформативний пріоритет так чи інакше призводить до приблизного частолістського висновку та аналізу. Різниця полягає в інтерпретації: результати Байєса повинні поєднуватися з ідеєю "істини" або "істинного параметра". Це добре, якщо ми ретельно описуємо припущення та спосіб фіксації потужності та помилок.
AdamO

@watarok мій вчитель статистики шотландського байесівського цитата регулярно використовував цю цитату, але ніколи не описував її актуальності. Я вдячний, що зараз це знаю.
AdamO

6

Є дві спроби зробити саме те, що ви сказали в статистичній історії, байєсівська та фідуціальна. Р. А. Фішер заснував дві школи статистичного мислення, імовірнісну школу побудували на основі методу максимальної вірогідності, і Фідуціаліст, який закінчився невдачею, але який намагається зробити саме те, що ви хочете.

Коротка відповідь на те, чому вона не вдалася, полягає в тому, що її розподіл ймовірностей не закінчився інтеграцією до єдності. Зрештою, урок полягав у тому, що попередня ймовірність є необхідною справою, щоб створити те, що ви намагаєтесь створити. Дійсно, ви йдете прямо по шляху одного з найбільших статистиків історії, і більше кількох інших великих загинули, сподіваючись вирішити цю проблему. Якщо б його було знайдено, то це дозволило б встановити нульові методи гіпотези нарівні з баєсовими методами з точки зору типів проблем, які вони могли б вирішити. Дійсно, це підштовхне повз Байеса, за винятком випадків, коли існувала реальна попередня інформація.

Ви також хочете бути обережними зі своїм твердженням, що значення p вказує на більш високу ймовірність альтернативи. Це справедливо лише у школі філософської вірогідності. Це зовсім не так у школі Пірсона-Неймана. Ваша ставка внизу, здається, є ставкою Пірсон-Неймана, тоді як ваша p-величина несумісна, оскільки вона надходить із фішерської школи.

Щоб бути добродійним, я припускаю, що для вашого прикладу відсутність упередженості публікацій, і тому у журналах з'являються лише значні результати, що створюють високий показник помилкового виявлення. Я трактую це як випадкову вибірку всіх проведених досліджень, незалежно від результатів. Я б заперечував, що ваші шанси на ставку не будуть узгоджені з класичним сенсом цього слова де Фінетті.

У світі де Фінетті ставка є узгодженою, якщо букмекер не може грати гравцями, щоб вони зазнавали впевненої втрати. У найпростішій конструкції це як вирішення проблеми розрізання пирога. Одна людина розрізає шматок навпіл, а інша вибирає, який шматок хоче. У цій конструкції одна особа заявила б ціни на ставки за кожною гіпотезою, але інша людина вирішила б купити або продати ставку. По суті, ви можете коротко продати нуль. Щоб бути оптимальним, шанси повинні бути суворо справедливими. Р-значення не призводять до справедливих шансів.

Щоб проілюструвати це, розглянемо дослідження Wetzels та ін на веб-сайті http://ejwagenmakers.com/2011/WetzelsEtAl2011_855.pdf

Цитата до якої: Рууд Ветцельс, Дора Мацке, Майкл Д. Лі, Джефрі Н. Рундэр, Джеффрі Дж. Іверсон та Ерік-Ян Вагенмейкерс. Статистичні дані в експериментальній психології: емпіричне порівняння з використанням тестів 855 т. Перспективи психологічної науки. 6 (3) 291-298. 2011 рік

Це пряме порівняння 855 опублікованих t-тестів з використанням факторів Байєса, щоб обійти проблему попереднього розподілу. У 70% значень р. Між .05 та .01 коефіцієнти Байєса були в кращому випадку анекдотичними. Це пов’язано з математичною формою, яку застосовують частоталісти для вирішення проблеми.

Нульові методи гіпотези припускають, що модель є істинною, і при їх побудові використовують статистичний розподіл мінімакс, а не розподіл ймовірностей. Обидва ці фактори впливають на відмінності між байєсівськими та не-байесівськими рішеннями. Розглянемо дослідження, де метод Байєса оцінює задню вірогідність гіпотези як три відсотки. Уявіть, що р-значення менше п'яти відсотків. Обидва вірні, оскільки три відсотки - менше п'яти відсотків. Тим не менш, значення p не є ймовірністю. У ньому зазначається лише максимальне значення, яке могло б бути ймовірністю перегляду даних, а не фактична ймовірність, якщо гіпотеза вірна чи помилкова. Дійсно, під конструкцією p-значення ви не можете розрізнити ефекти через випадковість з істинним нулем і хибним нулем з хорошими даними.

Якщо ви подивитесь на дослідження Ветцеля, то зауважте, що цілком очевидно, що шанси, що мають на увазі р-значення, не відповідають шансам, передбаченим байєсівською мірою. Оскільки байєсівська міра є і допустимою, і узгодженою, а не-баєсівська не є когерентною, не можна безпечно вважати карту значень р істинними ймовірностями. Вимушене припущення про те, що нуль дійсний, забезпечує хороші ймовірності покриття, але це не створює приємних азартних імовірностей.

Щоб краще зрозуміти, чому, розглянемо першу аксіому Кокса, що правдоподібність гіпотези можна описати реальним числом. Це неявно означає, що всі гіпотези мають реальне число, пов'язане з їх правдоподібністю. У методах нульової гіпотези лише нуль має реальне число, пов'язане з його правдоподібністю. Альтернативна гіпотеза не проводить вимірювання, і це, звичайно, не є доповненням до ймовірності спостереження даних, враховуючи, що нуль відповідає дійсності. Дійсно, якщо нуль істинний, то доповнення є хибним за припущенням без огляду на дані.

Якщо ви побудували ймовірності, використовуючи p-значення в якості основи свого вимірювання, то байєсів, що використовує баєсовські вимірювання, завжди міг би отримати перевагу перед вами. Якби Байєсіан встановив шанси, тоді теорія рішення Пірсона та Неймана подала б заявку про ставку або не зробила ставку, але вони не змогли б визначити суму для ставки. Оскільки шанси Байєса були справедливими, очікуваний прибуток від використання методу Пірсона та Неймана буде нульовим.

Дійсно, дослідження Wetzel - це дійсно те, про що ви говорите, але зі 145 меншими ставками. Якщо ви подивитесь на таблицю третю, ви побачите деякі дослідження, в яких частотант відхиляє нуль, але байєсів виявляє, що ймовірність сприяє нулю.


5

Частіністський аналіз не може дати вам ймовірність того, що певна гіпотеза є істинною (або помилковою), оскільки вона не має частоти тривалої роботи (вона є істинною, або це не так), тому ми не можемо призначити їй ймовірність (крім, можливо, 0 або 1 ). Якщо ви хочете дізнатись про ймовірність того, що певна гіпотеза є істинною, нам потрібно прийняти байєсівські рамки (де це прямо, нам просто потрібно врахувати попередні ймовірності тощо).

Часті фахівці можуть знайти оптимальні стратегії дії на тести нульової гіпотези ( фреймворк Неймана-Пірсона ), але вони не можуть перевести це на ймовірність того, що гіпотеза є правдивою, але лише через їх визначення ймовірності.


Чи можете ви бути більш точними на темі "" не можна перекласти це на ймовірність того, що гіпотеза є правдивою, але лише через їх визначення ймовірності ", тому що я не розумію, чому це так?

Частота визначає ймовірності з точки зору частоти довгого пробігу, і правда конкретної гіпотези не має (нетривіальної) тривалості довгого пробігу, тому частофіліст не може надати їй ймовірності. en.wikipedia.org/wiki/Frequentist_probability Ось чому ми говоримо злегка криптовалюта на кшталт "ми здатні відкинути нульову гіпотезу на значущості X", а не "ймовірність того, що H0 виявиться помилковим, є p" (що форму відповіді, яку ми зазвичай хочемо).
Дікран Марсупіал

1
@fcop такі вирази, як p(Н0=тrуе), p(Н0=тrуе|D) або p(D|Н0=тrуе) не є дійсними виразами в теорії частотних імовірностей, оскільки Н0або будь-яка гіпотеза не є випадковою змінною. Дивіться також цей пост Ларрі Вассермана для більш детальної інформації.
матус

дивіться мою відповідь у цій темі, також для @matus.

@DikranMarsupial не визнав би байєсів лише щось як "правду", якщо ймовірність конкретного результату дорівнює 1, а для всіх інших можливостей - 0? Чи можете ви коли-небудь отримати це в байєсівському аналізі? Вам потрібна ймовірність, яка домінує над попередньою, але тоді і часто, і часто байсеки повинні поступитися: дані розповіли нам усе.
AdamO

1

Після того, як ви зробили ставки на всі 1000 досліджень, оракул піднімається на вас і каже вам, які гіпотези є правильними. Ця інформація дозволяє розрахувати ставки. Я стверджую, що існує оптимальна стратегія для цієї гри.

Проблема у ваших налаштуваннях - Oracle. Зазвичай, це не приходить для врегулювання ставок. Скажімо, ви робите ставку на те, що вірогідність того, що куріння викликає рак, становить 97%. Коли цей Oracle прийде, щоб врегулювати ставку? Ніколи. Тоді як би ви довели, що ваша оптимальна стратегія оптимальна?

Однак, якщо ви видалите Oracle і введете інших агентів, таких як конкуренти та клієнти, тоді буде оптимальна стратегія. Боюся, що це не буде базуватися на p-значеннях. Це було б більше схожим на підхід Госсета з функціями втрат. Наприклад, ви та ваші конкуренти у сільському господарстві робите ставку на те, що прогноз погоди є правдивим. Хто вибирає кращу стратегію, той заробляє більше грошей. В Oracle немає необхідності, і ставки встановлюються на ринках. Тут ви не можете базувати стратегію на p-значеннях, вам доведеться враховувати втрати та прибутки в доларах.


Чому ми не можемо просто припустити, що Oracle прийде врегулювати ставки негайно?
Атте Ювонен

Чому ми не можемо припустити, що колись ми оцінюємо вибірку, приходить Oracle і каже нам, що означає населення? Це те саме, якщо подумати. Це просто нереально.
Аксакал

0

У гіпотезі ви хочете перевірити деяке твердження про реальний світ, наприклад, середня довжина всіх чоловіків становить 1,75 м. Тоді ми б сформулювали тест гіпотези, наприклад,Н0:мкL=1,75 проти Н1:мкL1,75.

Це наше твердження, і ми хочемо перевірити, чи в реальному світі це факт. Але часто відвідувачі констатують, що в реальному світі це або правда, або помилка. Як у реальному світіН0 це правда, або хибність, це означає, що в реальному світі П(Н0=ТRUЕ) або 0, або 1.

Тож теоретично повинен бути результат тесту нашої гіпотези Н0є правдою чи помилкою, але, працюючи лише на вибірці, ми не можемо робити таких важких висновків, тому ми намагаємось використовувати якийсь статистичний варіант математичної методики, який називається "доказ протиріччям". Детальніше див. Що далі, якщо нам не вдасться відкинути нульову гіпотезу? .

Для потоку на p-значеннях див. Нерозуміння P-значення?

Баянці роблять щось інше; вони висловлюють переконання чи достовірність, які вони мають у своєму завершенні тесту, тому ймовірність цього не є реальноюН0 правда, але більше ступінь віри у висновок, який вони роблять після випробування Н0. Ось чому його називають "довірою".

Беручи свій приклад, ви тестуєте "Н0: Вітамін D впливає на настрій "проти"Н1: Золота вітамін D не впливає на настрій ".

На основі вибірки ви обчислюєте деяку статистику тесту та її ймовірність перевищення, коли Н0правда. Якщо це значення тестової статистики дуже низьке (нижче обраного нами рівня значущості), то припускаючи цеН0 істина призводить до чогось дуже неправдоподібного або призводить так би мовити до "статистичної суперечності" та

Часті фахівці роблять висновок, що в такому випадку Н0призводить до статистичного безглуздості. Однак у '' реальному світі '' є лише одна правдаН0 або Н1 !

Байєси обчислюють ймовірність того Н0вірно з урахуванням даних. Так і в реальному світіН0 правда або Н1 це правда, але, використовуючи дані, вони можуть виразити свою ступінь переконання (випливає з даних), що це Н0 правда.

Вони називають це "достовірністю гіпотези", але це нічого не говорить про ймовірність цього Н0 є правдою (ні про ймовірність цього Н1 правда)

Вони просто висловлюють переконання у своєму "завершенні тесту", отриманому з "доступних даних".

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.