Що означає тестування гіпотези Байєса в рамках теорії висновку та прийняття рішень?


15

В основному моє вивчення полягає в машинному навчанні, і я намагався дізнатися, що означає тестування Байєсової гіпотези. Я добре з байєсівською інтерпретацією ймовірності, і мені це добре знайоме в контексті імовірнісних графічних моделей. Однак мене бентежить те, що означає слово "Гіпотеза" в контексті статистичного висновку.

Я думаю, що в основному я плутаю лексику, до якої я звик у машинному навчанні, а також про те, що зазвичай використовується у статистиці та умовиводі.

В контексті контрольованого навчання , я зазвичай думаю , що гіпотези в якості прогностичної функції, що відображає приклади його етикетки тобто . Однак мені здається, що термін гіпотеза, в читаннях, які я роблю, не має однакового значення. Дозвольте вставити уривок прочитаних прочитаних:h:XY

введіть тут опис зображення

Якщо ви уважно читаєте, це також говорить:

існує інша модель спостережуваних даних ...

чи вони вживали слово модель. Для мене слово модель змушує мене думати про набір функцій, якщо ми вибирали конкретну функцію прогнозування. тобто клас функції гіпотези. Наприклад, Hd2 може бути класом гіпотез квадратичних функцій (поліном ступеня 2). Однак мені здається, що вони використовують словомодель та гіпотезу як синоніми у цьому витязі (де для мене вони зовсім інші слова).

Далі йдеться про те, що ми можемо поставити пріори до гіпотези (цілком розумна річ, що потрібно робити в байєсівській обстановці):

pH(Hm),     m={0,1,...,M1}

також ми можемо охарактеризувати дані за допомогою поточної гіпотези:

py|H(|Hm),     m={0,1,...,M1}

і оновіть нашу теперішню думку, враховуючи деякі дані (та правило Бає):

pH|y(Hm|y),     m={0,1,...,M1}

Однак, я думаю, я більше звик ставити байєсівську оцінку до певного параметра (скажімо, ) з класу гіпотез, а не до всього класу гіпотез. В основному, оскільки здається, що ці "гіпотези" не є тими ж гіпотезами з контексту машинного навчання, до яких я звик, мені здається, що ці гіпотези більше схожі на конкретний параметр θ, ніж на клас гіпотези.θθ

У цей момент я переконався, що "гіпотеза" означала те саме, що і в функції прогнозування (параметризована, наприклад, параметром , наприклад), але я думаю, що я помилився ...θ

Щоб зробити мою плутанину ще гіршою, пізніше ці ж читання продовжували конкретизувати певну "гіпотезу" для кожного прикладу тренінгу, який вони спостерігали. Дозвольте вставити витяжку з того, що я маю на увазі:

введіть тут опис зображення

Причина, яка мене бентежить, полягає в тому, що якщо я інтерпретую гіпотезу як параметр, то для мене немає сенсу вказувати конкретний параметр для кожного значення вибірки, яке ми бачимо. У цей момент я зробив висновок, що я дійсно не знаю, що вони розуміють під гіпотезою, тому я поставив це питання.

Однак я не повністю здався, я дослідив, що означає гіпотеза в статистиці частотистів, і знайшов наступне відео про академію хана . Це відео насправді має для мене дуже багато сенсу (можливо, ти частолюбиця! :) . Однак, схоже, що вони отримують купу даних (як-от «набір зразків») і, виходячи з властивостей набору вибірки, вони вирішують, приймати чи відхиляти нульову гіпотезу щодо даних. Однак у байєсівському контексті, який я читаю, мені здається, що для кожного вектора [точки] даних, який спостерігається, вони "позначають його" гіпотезою з "тестом коефіцієнта ймовірності":

введіть тут опис зображення

Те, як вони привласнюють гіпотези до кожного зразка даних, навіть виглядає як контрольоване навчальне завдання, якщо ми прикріплюємо етикетку до кожного навчального набору. Однак я не думаю, що це роблять у цьому контексті. Що вони роблять? Що означає присвоювати гіпотезу кожній вибірці даних? У чому сенс гіпотези? Що означає слово модель?

По суті, після цього довгого пояснення моєї плутанини хтось знає, що означає тестування гіпотези байесів у цьому контексті?


Якщо вам потрібні роз'яснення чи що-небудь, щоб покращити моє запитання чи так, щоб питання мало сенс, я з радістю допоможу :)


У пошуках відповіді я знайшов кілька корисних речей, пов’язаних із тестуванням статистичної гіпотези:

Це стосується гарного вступу до теми, якщо ви перебуваєте з фонового режиму CS (як я):

Що є хорошим вступом до тестування статистичної гіпотези для вчених-комп'ютерів?

У якийсь момент я запитав про "параметри за замовчуванням" (які я мав би визначити, що я маю на увазі. Я думав, що це стандартний термін, але це не так, ось тут я його вирішу), і я думаю, що я справді мав на увазі, як це зробити ви вказуєте параметри для кожної гіпотези, яку ви маєте. Наприклад, як ви вирішите, яка ваша нульова гіпотеза та її параметри. Є питання, пов’язане з цим:

Як вказати нульову гіпотезу при тестуванні гіпотез


@ Xi'an Я прочитав таку статтю у wikipedia: en.wikipedia.org/wiki/Statistic_model - це те, що вони означають під моделлю та гіпотезою? thnx for ур терпіння btw :)
Буратіно

3
Я не вагаюся вступати в цю дискусію, тому що я думаю, що ваша проблема насправді полягає в тому, щоб зрозуміти, що тестування гіпотез означає в принципі, а не конкретно те, що тестування гіпотез є в байєсівських рамках. Щоб допомогти у цьому, пропоную ознайомитись з книгою "Режими параметричного статистичного висновку" Гейзера. books.google.ca/…
rocinante

@rocinante Я думаю, що я з вами згоден. Я остаточно заплутався в тестуванні гіпотез взагалі (а байєсівська рамка зовсім не допомагає). Я остаточно погляну на це. Дякуємо за ваше терпіння та розуміння, його дуже цінуємо.
Буратіно

Розуміти це непросто, тому що це не просто так сформулювати стисло. Замість того, щоб думати про це в абстрактних термінах (як карти), можливо, це допоможе, якщо ви подумаєте про це з більш простим
прикладом.1

1
2/2 Припустимо, у вас є монета, і ви хочете перевірити, чи справедлива вона, тому переверніть її 50 разів. Тепер у вас є набір даних, щодо якого ви хочете зробити якийсь висновок (тобто монета упереджена чи ні). Логічно, якщо монета справедлива, приблизно половина жертов має бути головою. (Зверніть увагу, що це не статистичне виведення, а ваше власне логічне міркування). Це ваша гіпотеза. Ви можете перевірити цю гіпотезу 2-ма способами: байєсівський та частотистський.
rocinante

Відповіді:


10

Статистична модель задається сімейством імовірнісних розподілів. Коли модель параметрична, це сімейство індексується невідомим параметром : F = { f ( | θ ) ; θ Θ } Якщо потрібно перевірити гіпотезу на θθ

F={f(|θ); θΘ}
θH0:θΘ0F
F0={f(|θ); θΘ0}
Mρ0ρaπ0(θ)Θ0πa(θ)Θ
π(m=0|x)=ρ0Θ0f(x|θ)π0(θ)dθρ0Θ0f(x|θ)π0(θ)dθ+(1ρ0)Θf(x|θ)πa(θ)dθ
як Кевін Мерфі .

XN(θ,1)H0:θ=0θ=0N(0,1)θθN(0,10)ρ0=1/2

π(m=0|x)=12πexp{x2/2}12πexp{x2/2}+R12πexp{(xθ)2/2}12π×10exp{θ2/20}dθ=exp{x2/2}exp{x2/2}+111exp{x2/22}

pН(Н0)Ж0θЖ0? Наприклад, коли це говоритьpу|Н(у|Н0), чи означає це, яка ймовірність деяких конкретних даних y з огляду на те, що дані, що описують його, походять із сімейства розподілів, як зазначено Н0 або якийсь конкретний параметр, вказаний з Н0?
Буратіно

А може, гіпотеза Нм вказує на обидві (як пари) конкретну параметризацію θ від конкретної родини Жм. тобтоНм=(θ,Жм) де θЖм. Btw, я ціную твій час і дуже допомагаю. Thnx :)
Буратіно

Ви згадуєте пару (індекс моделі, значення параметра), обидва вони наділені попередніми ймовірностями. Такϱ0 - це попередня ймовірність чи віра, що модель Н0 (або Ж0) є правильним (з вибором за замовчуванням ϱ0=0) і π0(θ) - це попередній розподіл за параметром θ моделі під Н0.
Сіань

тож якщо гіпотеза є кордоном запропонованої статистичної моделі та параметром за замовчуванням, то як обраний параметр за замовчуванням?
Буратіно

Я не розумію, що ви маєте на увазі під "параметром за замовчуванням": гіпотеза - це або модель із усіма параметрами, закріпленими за відомими значеннями (наприклад, θ=0у наведеному вище прикладі) або з деякими невідомими параметрами. У подальшому випадку байєсівський підхід передбачає встановлення попередніх розподілів на ці невідомі.
Сіань

4

Відмінне запитання. Я думаю, що ваша плутанина може бути наслідком деяких основних відмінностей між "частістською" та "байєсівською" перспективами. У мене є великий досвід роботи з колишнім, і я є новим для пізніших, тому спроба декількох простих спостережень може допомогти і мені. Я відредагував ваше запитання, щоб зробити кілька чітких розрізнень - принаймні, наскільки я їх розумію. Сподіваюся, ви не заперечуєте! Якщо у мене щось не так, ви можете змінити своє запитання або додати коментар до цієї відповіді.

1) Загрожує звучати дещо елементарно: Модель - це будь-яке твердження, яке намагається пояснити реальність на кшталт "Якби у мене були млинці на сніданок, це має бути вівторок". Як така модель є гіпотезою. Відома цитата Джорджа Бокса: "Усі моделі помиляються, деякі моделі корисні". Щоб модель була корисною, повинен бути певний спосіб її перевірити. Введіть поняття конкуруючих гіпотез та відповідь на одне із ваших запитань. Я б припустив, що "... в контексті статистичного умовиводу", гіпотеза - це будь-яка модель, яка може бути корисною і може бути перевірена математично. Тож тестування гіпотез є засобом прийняття рішення про те, чи корисна модель ні. Підсумовуючи це, гіпотеза є моделлю, що розглядається. Це можуть бути різні значення параметрів однієї і тієї ж функції або різні функції.

2) Ваше відео Кана є прикладом того, що Баєсіан називає підходом "частого лікаря" до тестування гіпотез, тому він, можливо, вас збентежив, намагаючись застосувати його до ваших конспектів лекцій, які є баєсами. Я намагався придумати просте розмежування між застосуванням двох підходів (що може бути небезпечно). Я думаю, що я досить добре розумію філософську відмінність. З того, що я бачив, "Частота" бере на себе випадкові компоненти і перевіряє, наскільки ймовірно, що спостережувані дані даються не випадковими параметрами. "Баєсійський" передбачає, що дані є фіксованими та визначає найбільш ймовірне значення випадкових параметрів. Ця різниця призводить до різних методів тестування.

У тестуванні гіпотез "Частота" може бути корисною модель, яка пояснює деякий ефект, тому його порівнюють із "нульовою гіпотезою" - моделлю без ефекту. Робиться спроба встановити корисну модель, яка взаємно виключає модель без ефекту. Потім тест визначається на ймовірність спостереження за даними без припущення про відсутність ефекту. Якщо ця ймовірність виявиться низькою, нульова гіпотеза відкидається, а альтернатива - все, що залишилося. (Зауважте, що пурист ніколи не "прийме" нульову гіпотезу, лише "не спростує відхилення". Це може звучати як ангели, що танцюють на голові шпильки, але відмінність є фундаментальним філософським. Вступна статистика зазвичай починається з того, що може бути найпростішим прикладом: "Дві групи різні".настільки ж великі або більші , що вимірюються випадковим експериментом, враховуючи, що вони не відрізняються. Зазвичай це t-тест, де нульовою гіпотезою є те, що різниця засобів дорівнює нулю. Отже параметр - це середнє значення при фіксованому значенні нуля.

Байєсійський каже: "Почекай, ми зробили ці вимірювання, і вони є різними, так як велика ймовірність , що?» Вони обчислюють ймовірність для кожного значення (зараз) випадкового параметра і вибирають найвищу як найбільш вірогідну. Тож у певному сенсі кожне можливе значення параметра - це окрема модель. Але зараз їм потрібен спосіб прийняти рішення про те, чи є модель з найбільшою ймовірністю достатньо різною для значення. Тому ваші конспекти лекцій запровадили функцію витрат. Для прийняття правильного рішення потрібне певне припущення про наслідки прийняття неправильного рішення.

3) "Що означає присвоювати гіпотезу кожній вибірці даних?" Я не думаю, що вони є. Будьте уважні до того, що мається на увазі під «вибірковою точкою». Я вважаю, що вони посилаються на певний зразок вектора і хочу знати, наскільки вірогідна кожна гіпотеза для всіх векторів вибірки в просторі вибірки. Рівняння (14) та (15) показують, як порівняти дві гіпотези для конкретного вибіркового вектора. Тож вони спрощують загальний аргумент порівняння декількох гіпотез, показуючи, як порівняти лише дві.


0

Скажімо, у вас є дані з набору вікон. Дані складаються з довжини (L), ширини (W), висоти (H) та об'єму (V).

Якщо ми не знаємо багато про коробки / геометрію, ми можемо спробувати модель:

V = a*L + b*W + c*H + e

Ця модель має три параметри (a, b, c), які можна змінити, плюс термін помилки / вартості (e), який описує, наскільки добре гіпотеза відповідає даним. Кожна комбінація значень параметрів вважатиметься різною гіпотезою. Вибране значення параметра "за замовчуванням" зазвичай дорівнює нулю, що у наведеному вище прикладі відповідатиме "не має відношення" між V і L, W, H.

Що люди роблять, це перевірити цю гіпотезу "за замовчуванням", перевіривши, чи не перевищує деяке значення обрізання, як правило, обчисливши p-значення, припускаючи нормальне розподіл помилок навколо придатності моделі. Якщо цю гіпотезу буде відхилено, вони знаходять комбінацію параметрів a, b, c, яка максимально збільшує ймовірність, і це є найбільш вірогідною гіпотезою. Якщо вони байєсові, вони помножують ймовірність на попереднє для кожного набору значень параметрів і вибирають рішення, яке максимально збільшує задню ймовірність.

Очевидно, що ця стратегія є неоптимальною, оскільки модель передбачає адекватність, і буде пропускати, що правильна гіпотеза така:

V = L*W*H + e

Редагувати: @Pinocchio

Можливо, хтось не погодився з твердженням, що тестування гіпотез є неоптимальним, коли немає раціональної причини вибирати одну / кілька функцій (або, як ви сказали, «класи гіпотез») з нескінченно багатьох можливих. Звичайно, це тривіально вірно, і "оптимальне" можна використовувати в обмеженому розумінні "найкращим чином з огляду на функцію витрат та вибір, що надається". Цей коментар зробив це моєю відповіддю, оскільки мені не подобалося, як питання специфікації моделі було зафіксовано в примітках вашого класу. Це основна проблема, з якою стикається більшість наукових працівників, для яких у афаїка немає алгоритму.

Далі я не міг зрозуміти p-значення, тестування гіпотез тощо, поки я не зрозумів історію, тому, можливо, це допоможе і вам. Є багато джерел плутанини навколо тестування частої гіпотези (я не так знайомий з історією байєсівського варіанту).

Існує те, що спочатку називалося "тестуванням гіпотез" у сенсі Неймана-Пірсона, "тестуванням значимості", розробленим Рональдом Фішером, а також неправильно визначеним, ніколи не належним чином виправданим "гібридом" цих двох стратегій, широко використовуваних у науках (які можуть бути випадково використані або з використанням вищезазначеного терміна, або "перевірка значущості гіпотези"). Хоча я б не рекомендував брати сторінку вікіпедії як авторитетну, багато джерел, які обговорюють ці проблеми, можна знайти тут . Деякі основні моменти:

  1. Використання гіпотези «за замовчуванням» не є частиною оригінальної процедури тестування гіпотез, скоріше користувач повинен використовувати попередні знання для визначення моделей, що розглядаються. Я ніколи не бачив явних рекомендацій прихильників цієї моделі щодо того, що робити, якщо у нас немає конкретних причин для вибору заданого набору гіпотез для порівняння. Часто кажуть, що такий підхід підходить для контролю якості, коли відомі допуски для порівняння деяких вимірювань з.

  2. Не існує альтернативної гіпотези в парадигмі "тестування на значимість" Фішера, є лише нульова гіпотеза, яку можна відкинути, якщо вважати малоймовірними дані. З мого читання, сам Фішер став однозначним щодо використання нульових гіпотез за замовчуванням. Я ніколи не міг знайти його, коментуючи це питання прямо, проте він, безумовно, не рекомендував, щоб це було єдиною нульовою гіпотезою.

  3. Застосування нульової гіпотези за замовчуванням іноді тлумачиться як "зловживання" тестуванням гіпотез, але воно є центральним у згаданому популярному гібридному методі. Аргумент говорить, що ця практика часто є "марною попередньою":

    "Дослідник формулює теоретичне передбачення, як правило, напрямок ефекту ... Коли фактично дані показують прогнозований результат спрямованості, це, здається, підтверджує гіпотезу. Дослідник перевіряє нульову гіпотезу" солом'яної людини ", що ефект насправді Якщо останній не може бути відхилений на рівні .05 (або в якомусь варіанті), то очевидного підтвердження теорії не можна стверджувати ... Поширеною помилкою цього виду тесту є плутати фактично досягнутий рівень значущості (для відхиляючи нульову особистість соломи) з рівнем підтвердження, досягнутим для оригінальної теорії ... сила підтвердження насправді залежить від [різкості чисельних прогнозів дослідника], а не від рівня значущості, досягнутого для нуля солом'яної людини ".

    Нульова гіпотеза перевіряє полеміку в психології. Девід Н Кранц. Журнал Американської статистичної асоціації; Грудень 1999 р .; 94, 448; 1372-1381

Відео з академії Хана є прикладом цього гібридного методу і винен у вчиненні помилки, зазначеної в цій цитаті. З інформації, наявної у цьому відео, ми можемо лише зробити висновок, що утворені щури відрізняються від неін'єкційних, тоді як на відео стверджується, що ми можемо зробити висновок, що «препарат, безумовно, має певний ефект». Трохи роздумів наштовхне нас на думку про те, що, можливо, випробувані щури були старшими за неін'єкційних тощо. Нам потрібно виключити правдоподібні альтернативні пояснення, перш ніж вимагати доказів нашої теорії. Чим менш конкретний прогноз теорії , тим складніше це здійснити.

Редагувати 2:

Можливо, взяти приклад із ваших записок медичного діагнозу допоможе. Скажімо, пацієнт може бути або "нормальним", або "гіпертонічним кризом".

Ми маємо попередню інформацію про те, що лише 1% людей перебувають у гіпертонічному кризі. У людей, що перебувають у гіпертонічному кризі, спостерігається систолічний артеріальний тиск, який відповідає нормальному розподілу із середнім значенням = 180 та sd = 10. Тим часом у нормальних людей артеріальний тиск від нормального розподілу із середнім значенням = 120, sd = 10. Вартість оцінювання людини нормальною, коли вона дорівнює нулю, вартість пропуску діагнозу - 1, а вартість через побічні ефекти внаслідок лікування - 0,2, незалежно від того, переживає вони кризу чи ні. Тоді наступний код R обчислює поріг (ета) та коефіцієнт ймовірності. Якщо коефіцієнт ймовірності перевищує поріг, який ми вирішуємо лікувати, якщо він менший:

#Prior probabilities
P0=.99 #Prior probability patient is normal
P1=1-P0 #Prior probability patient is in crisis

#Hypotheses
H0<-dnorm(x=50:250, mean=120, sd=10) #H0: Patient is normal
H1<-dnorm(x=50:250, mean=180, sd=10) #H1: Patient in hypertensive crisis

#Costs
C00=0 #Decide normal when normal
C01=1 #Decide normal when in crisis
C10=.2 #Decide crisis when normal
C11=.2 #Decide crisis when in crisis

#Threshold
eta=P0*(C10-C00)/ P1*(C01-C11)

#Blood Pressure Measurements
y<-rnorm(3, 150, 20)

#Calculate Likelihood of Each Datapoint Given Each Hypothesis
L0vec=dnorm(x=y, mean=120, sd=10) #Vector of Likelihoods under H0
L1vec=dnorm(x=y, mean=180, sd=10) #Vector of Likelihoods under H1

#P(y|H) is the product of the likelihoods under each hypothesis
L0<-prod(L0vec)
L1<-prod(L1vec)

#L(y) is the ratio of the two likelihoods
LikRatio<-L1/L0


#Plot
plot(50:250, H0, type="l", col="Green", lwd=4, 
     xlab=" Systolic Blood Pressure", ylab="Probability Density Given Model",
     main=paste0("L=",signif(LikRatio,3)," eta=", signif(eta,3)))
lines(50:250, H1, col="Red", lwd=4)
abline(v=y)

#Decision
if(LikRatio>eta){
  print("L > eta  ---> Decision: Treat Patient")
}else{
  print("L < eta  ---> Do Not Treat Patient")
}

У вищеописаному сценарії поріг eta = 15,84. Якщо взяти три вимірювання артеріального тиску і отримати 139,9237, 125,2278, 190,3765, то коефіцієнт ймовірності становить 27,6 на користь Н1: Пацієнт у гіпертонічному кризі. Оскільки 27,6 перевищує поріг, який ми обрали б для лікування. На графіку показана нормальна гіпотеза зеленого кольору, а гіпертонічна - червоного кольору. Вертикальні чорні лінії вказують значення спостережень.

введіть тут опис зображення


чи може пояснити особа, яка проголосувала за це? Що не так у цій відповіді? : S
Піноккіо

@Pinocchio Я намагався пояснити речі з деякою історією у відповіді, "тестування гіпотез" є важкою темою, яка чітко обговорюється через це. Я думаю, що я відповів на питання щодо використання термінів модель / гіпотеза, але не розумію цього: "Що означає присвоювати гіпотезу кожному вибірці даних?"
Ливид

Я не можу зрозуміти, чому ця відповідь була оскаржена і чому вона не більш прихильна. Це справді чудово. Він міг би використовувати трохи більше теоретичних визначень, але він чітко орієнтований на більш широку аудиторію, ніж статистики. Перший приклад використання GLM був особливо освічуючим і повністю відповідав моїм (численним) академічним читанням. Суть полягає в тому, що головна відмінність тестування гіпотез частого періоду і байесівської мови полягає в обліку попереднього з метою обчислення ПДЧ (замість того, щоб застосовувати лише ПДВ).
габоровий

Я можу додати, що графічне зображення першого прикладу з GLM було б дивним і дуже освічуючим, можливо, використовуючи якусь схему важеля ?
габоровий
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.