Чи є якась * математична * основа для байесівських та частоцистських дебатів?


67

У Вікіпедії сказано, що:

математика [ймовірності] багато в чому не залежить від будь-якої інтерпретації ймовірності.

Питання: Тоді , якщо ми хочемо бути математично правильно, ми не повинні відкидати будь-яку інтерпретацію ймовірності? Тобто, чи баєсийський, так і частолізм математично неправильні?

Я не люблю філософію, але я люблю математику, і хочу працювати виключно в рамках аксіом Колмогорова. Якщо це моя мета, чи слід випливати з того, що написано у Вікіпедії, що я повинен відкидати і байєсіанство, і частолінізм? Якщо поняття суто філософські і зовсім не математичні, то чому вони з'являються в статистиці в першу чергу?

Передісторія / контекст:
Ця публікація в блозі не зовсім те саме говорить, але вона стверджує, що спроба класифікувати методи як "баєсівські" або "частістські" є контрпродуктивною з прагматичної точки зору.

Якщо цитата з Вікіпедії є правдивою, то, схоже, з філософської точки зору спроба класифікувати статистичні методи також є контрпродуктивною - якщо метод математично правильний, то справедливо використовувати метод, коли припущення основної математики утримуйте, в іншому випадку, якщо це не є математично правильним або якщо припущення не виконуються, використовувати його не можна.

З іншого боку, багато людей, схоже, ототожнюють «байєсівські умовиводи» з теорією ймовірностей (тобто аксіоми Колмогорова), хоча я не зовсім впевнений, чому. Деякі приклади - трактат Джейнеса про висновок Байесія під назвою "Ймовірність", а також книга Джеймса Стоуна "Правило Байєса". Тож якщо я сприйняв ці претензії за номінал, це означає, що я повинен віддавати перевагу байєсіанству.

Однак книга Казелли та Бергера здається частою, оскільки вона обговорює максимальну оцінку ймовірності, але ігнорує максимум післяоценових оцінок, але також здається, що все, що в ній є математично правильним.

Тож чи не випливало б, що єдиною математично правильною версією статистики є та, яка відмовляється бути будь-якою, але цілком агностичною щодо байєсіанства та частотизму? Якщо методи з обома класифікаціями є математично правильними, то хіба неправомірно віддати перевагу деяким, ніж іншим, бо це було б пріоритетним розпливчастою, неправильно визначеною філософією перед точною, чітко визначеною математикою?

Резюме: Коротше кажучи, я не розумію, що є математичною основою для байесівської та проти частої дискусії, і якщо немає математичної основи для дебатів (про що стверджує Вікіпедія), я не розумію, чому це допускається в все в академічному дискурсі.



1
@PeterMortensen Я вже бачив це питання, перш ніж задавати це питання; однак відповідь на це запитання не стосується мого основного джерела плутанини, а саме якої математичної різниці, якщо між ними існує; пам’ятайте, що мене не цікавлять філософські відмінності, оскільки вони не повинні мати жодного відношення до простору можливих моделей.
Chill2Macht

1
Коментарі не для розширеного обговорення; ця розмова перенесена в чат .
whuber

4
Байєська дискусія полягає в меншій мірі щодо ймовірності і набагато більше про статистичну інтерпретацію та обґрунтованість її застосування.
RBarryYoung

2
@Mehrdad Це питання не про різні підходи, що дають різні відповіді, а про можливість формалізації, за допомогою математичних аксіом, різниці між байєсіанством та частотизмом. Відповіді на відповідне запитання не пояснюють аксіоматичних відмінностей між двома підходами.
Chill2Macht

Відповіді:


14

Проміжки ймовірності та аксіоми Колмогорова

Простір ймовірностей за визначенням потрійний де - це набір результатів, - -алгебра на підмножини і є мірою ймовірності, яка відповідає аксіомам Колмогорова, тобто є функцією від до такою, що а для роз'єднаних у що ( Ω , F , P ) Ω F σ Ω P P F [ 0 , 1 ] P ( Ω ) = 1 E 1 , E 2 , F P ( j = 1 E j ) = j = 1 P ( E j )P(Ω,F,P)ΩFσΩPPF[0,1]P(Ω)=1E1,E2,FP(j=1Ej)=j=1P(Ej).

У такому просторі ймовірностей можна для двох подій в визначити умовну ймовірність якE1,E2FP(E1|E2)=defP(E1E2)P(E2)

Зауважте, що:

  1. ця "умовна ймовірність" визначається лише тоді, коли визначений на , тому нам потрібен простір ймовірностей, щоб можна було визначити умовні ймовірності.FPF
  2. Імовірність простір визначається в найзагальнішому вигляді ( безліч , - алгебра і імовірнісна міра ), єдиною вимогою є те, що деякі властивості повинні бути виконані , але крім цього ці три елементи можуть бути "будь-якими".σ F PΩ σFP

Більш детально можна ознайомитися за цим посиланням

Правило Байєса виконується в будь-якому (дійсному) просторі ймовірностей

З визначення умовної ймовірності також випливає, що . І з двох останніх рівнянь ми знаходимо правило Байєса. Отже, правило Байєса дотримується (за визначенням умовної ймовірності) у будь-якому просторі ймовірностей (щоб показати його, вивести та з кожного рівняння та рівняти їх (вони рівні, тому що перетин є комутативним)). P(E1E2)P(E2E1)P(E2|E1)=P(E2E1)P(E1)P(E1E2)P(E2E1)

Оскільки правило Байєса є основою для байєсівського висновку, можна зробити аналіз Байєса в будь-якому дійсному (тобто виконуючи всі умови, аксіоми ао Колмогорова) імовірностного простору.

Визначення ймовірності часто лікарем є "особливим випадком"

Вищезазначене має значення '' в цілому '', тобто у нас немає конкретного , , до тих пір, поки є -алгебра для підмножини і виконує аксіоми Колмогорова.F P F σ Ω PΩFPFσΩP

Тепер ми покажемо, що визначення ' частоліністичного ' визначення відповідає аксіомам Коломогорова. Якщо це так, то ймовірності "частотистів" є лише окремим випадком загальної та абстрактної ймовірності Колмогорова. P

Візьмемо приклад і розкачаємо кістки. Тоді множина всіх можливих результатів дорівнює . Нам також потрібна -алгебра на цьому множині і ми беремо безліч всіх підмножин , тобто .Ω = { 1 , 2 , 3 , 4 , 5 , 6 } σ Ω F Ω F = 2 ΩΩΩ={1,2,3,4,5,6}σΩFΩF=2Ω

Нам ще належить визначити міру ймовірності у частісторичній формі. Тому ми визначаємо як де - число , отримане в рулонах кубиків. Схоже на , ... .PP({1})P({1})=deflimn+n1nn11nP({2})P({6})

Таким чином визначається для всіх одиночних клавіш у . Для будь-якого іншого набору в , наприклад ми визначаємо часто-часто, тобто , але за лінійністю 'lim' це дорівнює , з чого випливає, що аксіоми Колмогорова дотримуються.PFF{1,2}P({1,2})P({1,2})=deflimn+n1+n2nP({1})+P({2})

Тож частістське визначення ймовірності є лише особливим випадком загального та абстрактного визначення Коломогоровим міри ймовірності.

Зауважимо, що існують й інші способи визначення міри ймовірності, які відповідають аксіомам Колмогорова, тому частофілістське визначення є не єдино можливим.

Висновок

Імовірність аксіоматичної системи Колмогорова є "абстрактною", вона не має реального значення, вона повинна виконувати лише умови, які називаються "аксіомами". Використовуючи лише ці аксіоми, Колмогоров зміг вивести дуже багатий набір теорем.

Частістське визначення ймовірності заповнює аксіоми і, таким чином, замінює абстрактні, "безглузді" ' ймовірністю, визначеною частостистським способом, всі ці теореми справедливі, тому що "частоталістична ймовірність" є лише особливою випадок абстрактної ймовірності Колмогорова (тобто він відповідає аксіомам).P

Однією з властивостей, які можна отримати в загальних рамках Колмогорова, є правило Байєса. Як це дотримується в загальній та абстрактній рамці, він також утримуватиме (cfr supra) у конкретному випадку, що ймовірності визначаються частостистським способом (оскільки частолістське визначення відповідає аксіомам, і ці аксіоми були єдиним, що потрібно для вивести всі теореми). Тож можна зробити байєсівський аналіз із частістським визначенням ймовірності.

Визначення у частістському способі не є єдиною можливістю, є й інші способи визначити це таким чином, щоб воно відповідало абстрактним аксіомам Колмогорова. Правило Байєса також буде дотримуватися в цих "конкретних випадках". Таким чином, можна також зробити байесовский аналіз з , НЕ -frequentist визначення ймовірності.P

РЕДАКТОР 23/8/2016

@mpiktas реакція на ваш коментар:

Як я вже сказав, множини і міра ймовірності не мають особливого значення в аксіоматичній системі, вони абстрактні. Ω,FP

Для того, щоб застосувати цю теорію, ви повинні дати додаткові визначення (тому те, що ви говорите у своєму коментарі "не потрібно мішати її далі з якимись химерними визначеннями", є неправильним, вам потрібні додаткові визначення ).

Давайте застосуємо це до випадку, коли викинеш чесну монету. Множина в теорії Колмогорова не має особливого значення, вона просто повинна бути "набором". Отже, ми повинні вказати, що таке набір у випадку справедливої ​​монети, тобто ми повинні визначити набір . Якщо ми представимо голова як H і хвіст , як Т, то безліч є за визначенням .ΩΩΩ Ω=def{H,T}

Ми також повинні визначити події, тобто -algebra . Ми визначаємо як . Неважко перевірити, що є -алгебра.σFF=def{,{H},{T},{H,T}}Fσ

Далі ми повинні визначити для кожної події в її міру. Тому нам потрібно визначити карту з у . Я буду визначати це часто, за справедливу монету, якщо я кидаю її величезну кількість разів, тоді частка голів буде дорівнює 0,5, тому я визначаю . Аналогічно визначаю , і . Зауважимо, що - це карта з у і що вона відповідає аксіомам Колмогорова.EFF[0,1]P({H})=def0.5P({T})=def0.5P({H,T})=def1P()=def0PF[0,1]

Для посилання з частотистським визначенням ймовірності див. Це посилання (в кінці розділу «визначення») та це посилання .


10
Можливо, десь слід зауважити, що існує часто-часто / байесівська дискусія щодо інтерпретації ймовірності, і існує часто-паралітична / байесівська дискусія щодо статистичного висновку. Це дві різні (хоч і пов'язані) дебати. Ця відповідь говорить виключно про перший, що добре (і я здогадуюсь, що @William цікавило тут, оскільки він вирішив прийняти цю відповідь), але більшість інших відповідей говорять переважно про другу. Це лише записка для майбутніх читачів, але й записка до Вільяма.
амеба

2
Я голосую проти, тому що тут немає посилання на визначення визначення "частість вірогідності", і без нього посада не має сенсу. Наприклад, дане визначення навіть не є математично правильним, оскільки визначення залежить від межі рулонів кісток. Математичні об'єкти абстрактні і не залежать від фізичних об'єктів. Крім того, щоб довести, що межа існує, вам потрібно побудувати простір ймовірностей, де визначена випадкова величина , а потім довести, що вона сходить, для чого вам потрібна теорія вимірювань і ...P({1})nn1/n
mpiktas

2
визначення ймовірності. Тож навіть якщо ми дозволяємо таке визначення, як воно є круговим, тобто перевіряти, чи відповідає об'єкт визначенню, вам потрібно визначити об'єкт. Я дуже хотів би отримати посилання на підручник, який використовує таке визначення і намагається використовувати його для отримання всіх звичайних результатів у статистиці.
mpiktas

5
Ця довга і детальна стаття в Стенфордській енциклопедії філософії про ймовірні інтерпретації містить довгий і детальний розділ про частолізм і може бути кращим посиланням, ніж ваше посилання на Вікіпедію (Стенфордська енциклопедія є досить авторитетною, на відміну від Вікіпедії). Зрозуміло, що чи часто сенсистське визначення має сенс і навіть те, що саме є частим визначенням, є питанням тривалих 150-річних дискусій, які ви та @mpiktas, здається, відновлюєте тут, у розділі коментарів.
амеба

2
@amoeba: Мені особливо подобається нагадування у вашому посиланні, що ми могли б трактувати "ймовірність" різними способами, не маючи нічого спільного з поняттям, як зазвичай розуміють - наприклад, нормалізованою довжиною - і все ще залишаються узгодженими з аксіомами Колмогорова.
Scortchi

66

Статистика - це не математика

По-перше, я вкрав слова @ whuber з коментаря в статистиці, це не математика? (застосовується в іншому контексті, тому я краду слова, не цитую):

Якби ви замінили "статистику" на "хімію", "економіку", "інженерію" або будь-яку іншу сферу, в якій використовується математика (наприклад, домашня економіка), схоже, жоден ваш аргумент не зміниться.

Усі ці поля дозволяють існувати і мати питання, які не вирішуються лише перевіряючи, які теореми є правильними. Хоча деякі відповіді в статистиці не є математикою? не погоджуюсь, я думаю, зрозуміло, що статистика - це не (чиста) математика. Якщо ви хочете займатися теорією ймовірностей, галуззю (чистої) математики, ви можете ігнорувати всі дебати такого типу, про які ви питаєте. Якщо ви хочете застосувати теорію ймовірностей при моделюванні деяких реальних питань, вам потрібно щось більше, аніж просто аксіоми та теореми математичної бази. Залишок відповіді суперечить цьому питанню.

Твердження, "якщо ми хочемо бути математично правильними, чи не повинні ми забороняти будь-яку інтерпретацію ймовірності", також видається невиправданою. Розміщення інтерпретації поверх математичних рамок не робить математику неправильною (до тих пір, поки інтерпретація не вважатиметься теоремою в математичних рамках).

Дебати не (в основному) про аксіоми

Хоча існують деякі альтернативні аксіоматизації *, дискусія (?) Не стосується спірних аксіом Колмогорова. Ігнорування деяких тонкощів з умовами нульової міри, що призводять до регулярної умовної ймовірності тощо, про які я недостатньо знаю, аксіоми Колмогорова та умовна ймовірність передбачають правило Байєса, яке ніхто не оскаржує. Однак якщо не є навіть випадковою змінною у вашій моделі (модель у сенсі математичної установки, що складається з простору ймовірностей або їх сімейства, випадкових змінних тощо), звичайно, неможливо обчислити умовну розподіл . Ніхто також не заперечує, що властивості частоти, якщо правильно обчислити, є наслідками моделі. Наприклад, умовні розподілиXP(XY)p(yθ)у байєсівській моделі визначають індексовану сімейство розподілів ймовірностей , просто пускаючи і якщо деякі результати мають місце для всіх в останньому, вони також утримуються для всіх в попередньому.p(y;θ)p(yθ)=p(y;θ)θθ

Дебати про те, як застосовувати математику

Дебати (настільки, наскільки це існує **), натомість стосуються того, як вирішити, яку модель імовірності встановити для (реальної, нематематичної) проблеми та які наслідки моделі мають значення для малювання (реальні -життя) висновки. Але ці питання існували б, навіть якщо всі статистики погодились. Для цитування з публікації в блозі, з якою ви пов’язані [1], ми хочемо відповісти на такі питання

Як я повинен розробити рулетку, щоб моє казино заробляло $? Чи збільшує це добриво урожайність? Чи лікує стрептоміцин туберкульоз легень? Чи викликає куріння рак? Який фільм сподобався б цьому користувачеві? На якого бейсболіста повинен укласти контракт з Red Sox? Чи повинен цей пацієнт отримувати хіміотерапію?

Аксіоми теорії ймовірностей навіть не містять визначення бейсболу, тому очевидно, що "Ред Сокс повинен дати контракт бейсболісту X" не є теоремою теорії ймовірностей.

Зверніть увагу на математичні обгрунтування байєсівського підходу

Існують "математичні обгрунтування" для розгляду всіх невідомих як імовірнісних, таких як теорема Кокса, на яку посилається Джейнес, (хоча я чую, що у нього є математичні проблеми, які можуть бути або не виправлені, я не знаю, див. [2] та посилання на них) або (суб'єктивний байєсівський) підхід Савадж (я чув, що це є в [3], але я ніколи не читав книгу), який доводить, що за певних припущень раціональний приймаючий рішення матиме розподіл вірогідності за станами світу та виберіть його дію на основі максимізації очікуваного значення функції утиліти. Однак, чи повинен менеджер Red Sox приймати припущення, чи слід приймати теорію, що куріння викликає рак, не може бути виведено з жодної математичної бази,

Виноски

* Я цього не вивчав, але чув, що у Де Фінті є підхід, коли умовні ймовірності - це примітиви, а не отримані з (безумовної) міри шляхом обумовлення. [4] згадує дискусію між (байєсцями) Хосе Бернардо, Деннісом Ліндлі та Бруно де Фінетті в затишному французькому ресторані про те, чи потрібна -адативність.σ

** Як згадується у публікації на блозі, на яку ви посилаєтесь [1], може бути чітких дискусій із кожним статистиком, який належить до однієї команди та зневажає іншу команду. Я чув, як це говорило, що ми сьогодні всі прагматики і марні дебати закінчилися. Однак, на мій досвід, ці відмінності існують, наприклад, чи є хтось перший підхід моделювати всі невідомі як випадкові змінні чи ні, і наскільки хтось зацікавлений у гарантіях частоти.

Список літератури

[1] Просто статистика, статистичний блог Рафа Ірізаррі, Роджера Пенга та Джеффа Ліка, "Я оголошую байесівську та частоту дискусію для науковців даних", 13 жовтня 2014 року, http://simplystatistics.org/2014/10 / 13 / як-застосований-статистик-я-знаходжу-часто-ветеранів-проти-байесів-дебатів - абсолютно невластивий /

[2] Dupré, MJ, & Tipler, FJ (2009). Нові аксіоми для суворої байєсівської ймовірності. Байєсівський аналіз, 4 (3), 599-606. http://projecteuclid.org/download/pdf_1/euclid.ba/1340369856

[3] Savage, LJ (1972). Основи статистики. Кур'єрська корпорація.

[4] Бернардо, Дж. М. Історія Валенсії - Деякі подробиці виникнення та розвитку Міжнародних зустрічей Валенсії з байєсівської статистики. http://www.uv.es/bernardo/ValenciaStory.pdf


13
+1, зокрема для "Аксіоми теорії ймовірностей навіть не містять визначення бейсболу".
амеба

5
@William: параметр не вірив , що постійна випадкова величина - це не факт, вивести або спостерігається. Питання полягає в тому, чи слід представляти епістемічну невизначеність щодо справжнього значення параметра з використанням розподілу ймовірностей. (Частовий аналіз представляє лише алеаторний процес генерації даних, використовуючи розподіл ймовірностей.)
Scortchi

4
@ У Вілліамі класичний Монти Холл не має нічого, що розумно трактується як параметр або як дані, це ймовірність проблеми. Байєсівський / частістський підхід буде грати лише в тому випадку, якщо ви хочете оцінити, скажімо, параметр параметризованого варіанту, описаний тут en.wikipedia.org/wiki/Monty_Hall_problem#Variants , переглядаючи кілька епізодів ігрового шоу. Я, як баєц, мабуть, поставив б, наприклад, бета-версію до і почав оновлення. Чи добре це буде працювати в комп'ютерному моделюванні, може сильно залежати від того, яким чином комп'ютерне моделювання вибирає . qqq
Juho Kokkala

8
Я превентивно зазначаю, що мені не цікаво продовжувати будь-які дебати з цього приводу в розділі коментарів, оскільки це (ані цей сайт взагалі) не є місцем для дебатів.
Juho Kokkala

2
Я повністю згоден "статистика - це не математика". Вігнер написав есе під назвою "Нерозумна ефективність математики у фізиці", в якому стверджував, що оскільки між абстрактним світом математики і конкретним світом фізики не було властивого зв'язку. Дивно (і чудово), що математика так добре працювала в описі фізики. Я вважаю, що це саме стосується статистики. Я з нетерпінням чекаю, коли хтось напише "Нерозумна ефективність математики в статистиці". Мені особисто дивно, що абстрактна математика так добре працює в описі статистичних явищ.
агіненський

32

Математична основа для байесівських та частофілістських дебатів дуже проста. У статистиці Баєса невідомий параметр трактується як випадкова величина; у частотистській статистиці це трактується як фіксований елемент. Оскільки випадкова величина є набагато складнішим математичним об'єктом, ніж простий елемент множини, математична різниця цілком очевидна.

Однак виявляється, що фактичні результати щодо моделей можуть бути напрочуд подібними. Візьмемо, наприклад, лінійну регресію. Байєсова лінійна регресія з неінформативними пріорами призводить до розподілу оцінки регресійного параметра, середнє значення якого дорівнює оцінці параметра частотистської лінійної регресії, що є рішенням задачі щонайменше квадратів, що навіть не є проблемою з теорії ймовірностей . Тим не менш, математика, яка використовувалася для досягнення подібного рішення, зовсім інша, із зазначеної вище причини.

Природно, через різницю трактування невідомого параметра до математичних властивостей (випадкова величина проти елемента множини) як баєсова, так і частолістська статистика потрапляють у випадки, коли може здатися, що вигідніше використовувати конкуруючий підхід. Інтервали довіри - це головний приклад. Не потрібно покладатися на MCMC, щоб отримати просту оцінку - інше. Однак зазвичай це більше питання смаку, а не математики.


5
Хоча константа є особливим випадком випадкової величини, я б вагався з висновком, що байєсіанство є більш загальним. Ви не отримаєте частолістських результатів від байєсівських, просто згорнувши випадкову змінну на константу. Різниця більш глибока. Якщо ви припускаєте, що ваш параметр - невідома константа, то фокусним центром дослідження стає оцінка, яка є випадковою змінною (оскільки це вимірювана функція вибірки) і наскільки вона близька до справжнього значення параметра, або яким чином отримати оцінку, щоб вона була близькою до істинної оцінки.
mpiktas

6
Оскільки оцінка є випадковою величиною, ви не можете її вивчити, ігноруючи теорію мір, тому я вважаю, що ваші твердження про те, що багато статистиків демонструють дивовижну кількість незнання та зневаги до теорії вимірювань, досить дивно. Чи читали ви асимптотичну статистику А. ван дер Ваарта? Я вважав би цю книгу дуже хорошим оглядом особливостей частотистської статистики та особливостей теорії вимірювань.
mpiktas

3
Баєсівська статистика, з іншого боку, виводить розподіл параметра майже відразу, і тоді виникає питання, як насправді його обчислити (багато досліджень різних алгоритмів вибірки, Метрополіс-Гастінгс тощо) і в чому важливість пріорів. Я не такий знайомий з дослідженнями байєсівської статистики, тому моє узагальнення може бути трохи відключеним. Переходячи до особистих уподобань, не розуміючи того, що мене тренували більш-менш часто, але мені не подобається, що байєсівська статистика використовує досить обмежений
підбірки

3
Це завжди починається з нормального розподілу та його кон'югатів, і наскільки це ви отримуєте. Оскільки майже всі дані, якими я працюю, зазвичай не поширюються, я одразу підозріло і вважаю за краще працювати з методами, які є агностичними. Однак це є особистим уподобанням, і я вважаю, що в роботі, яку я роблю, я ще не знайшов проблеми, для якої частістський підхід провалився б настільки ефектно, що мені потрібно було б перейти на байєсівський.
mpiktas

4
"Це завжди починається з нормального розподілу та його кон'югатів, і наскільки це ви отримуєте ..." - ось чому використовуються методи Монте-Карло для вибірки з розподілу задніх параметрів; ці роботи також для загальних дистрибутивів (програмне забезпечення BUGS та його варіанти).
Джон Донн

25

Я не люблю філософію, але люблю математику, і хочу працювати виключно в рамках аксіом Колмогорова.

Як саме ви застосували аксіоми Колмогорова самостійно без будь-якої інтерпретації? Як би ви інтерпретували ймовірність? Що б ви сказали тому, хто запитав вас: "Що означає ваша оцінка ймовірності ?" 0.5Ви б сказали, що ваш результат - це число0.5, що правильно, оскільки воно слідує за аксіомами? Без будь-якого тлумачення ви не можете сказати, що це говорить про те, як часто ми очікували б побачити результат, якщо повторимо наш експеримент. Ви також не можете сказати, що цей номер говорить вам про те, наскільки ви впевнені у шансі на те, що подія станеться. Ви також не можете відповісти, що це говорить про те, наскільки вірогідні ви вірите в подію. Як би ви інтерпретували очікуване значення - як деякі числа, помножені на деякі інші числа і підсумовані разом, що є дійсними, оскільки вони слідують за аксіомами та кількома іншими теоремами?

Якщо ви хочете застосувати математику до реального світу, то вам потрібно її інтерпретувати. Тільки цифри без тлумачень - це ... числа. Люди не обчислюють очікуваних значень для оцінки очікуваних значень, а щоб дізнатися щось про реальність.

Більше того, ймовірність є абстрактною, тоді як ми застосовуємо статистику (та ймовірність як такої) до подій у реальному світі. Візьмемо найосновніший приклад: справедлива монета. У частістській інтерпретації, якби ви кидали таку монету велику кількість разів, ви очікували б однакової кількості голів та хвостів. Однак в реальному експерименті цього майже ніколи не відбудеться. Тож ймовірності насправді не мають відношення до будь-якої конкретної монети, кинутої певну кількість разів.0.5

Ймовірності не існує

- Бруно де Фінетті


3
"Якщо ви кидали таку монету велику кількість разів, ви очікували б однакової кількості голів та хвостів" - це неправильне розуміння закону великої кількості. Див. Розділ III тома 1 « Вступ до теорії ймовірностей Феллера» . Наприклад, на стор.67 "У популяції нормальних монет більшість обов'язково виправляється".
Chill2Macht

1
@William, що б саме ви відповіли на питання "що означає p = 0,5?" де р - оцінка ймовірності експерименту, що підкидає монету ...?
Тім

1
Ви також цитуєте Феллера, який згадує "більшість" - більшість, що саме, якщо ви не робите частолістських тлумачень ймовірності ..?
Тім

7
Речі, що спрощують: у періодичній точці імовірність пов'язана з пропорціями подій, що відбуваються між можливими подіями; в байесівській інтерпретації йдеться про те, наскільки щось є правдоподібним (див. en.wikipedia.org/wiki/Probability#Interpretations ). Розповідаючи про пробний простір і т. Д. Ви припустили, що є щось, окрім одного майбутнього кидання монети - це ваша інтерпретація ймовірності, оскільки тут буде лише одне кидання, тому весь аргумент про пробний простір не стосується це. Ви абсолютно правильні зі своєю інтерпретацією, але це
Тім

5
інтерпретація. Щоб застосувати ймовірність до реальних подій, вам потрібно зробити такі інтерпретації. Яка ймовірність того, що Трамп виграє американські вибори у 2016 році? Це питання не відповідає, якщо ви не будете робити припущення щодо того, що таке ймовірність.
Тім

10

Мій погляд на контраст між байесівськими та частофілістськими висновками полягає в тому, що перше питання - це вибір події, для якої ви хочете вірогідності. Часті фахівці припускають, що ви намагаєтесь довести (наприклад, нульова гіпотеза), а потім обчислюєте ймовірність спостереження за тим, що ви вже спостерігали, за цим припущенням. Існує точна аналогія між такою ймовірністю порядку подачі зворотної інформації та чутливістю та специфічністю в медичній діагностиці, які спричинили величезні непорозуміння і їх потрібно усунути за правилом Байєса, щоб отримати ймовірності вперед ("ймовірності після тесту"). Байєси обчислюють ймовірність події, і абсолютні ймовірності неможливо обчислити без якоря (попереднього). Байєсівська ймовірність правдивості твердження сильно відрізняється від частопелістичної ймовірності спостереження даних за певним невідомим припущенням. Відмінності більш виражені, коли частоліст повинен налаштовуватися на інші аналізи, які були зроблені або могли бути зроблені (кратність; послідовне тестування тощо).

Тож обговорення математичної основи є дуже цікавим та дуже доречним для обговорення. Але треба зробити принциповий вибір форвардів проти зворотних імовірностей. Отже, те, що обумовлено, а це не зовсім математика, є надзвичайно важливим. Байєси вважають, що повне кондиціонування того, що ви вже знаєте, є ключовим. Частіше фахівці констатують, що робить математику простою.


9

Я розділю це на два окремих запитання і відповім на кожне.

1.) Враховуючи різні філософські погляди на те, що означає ймовірність у перспективі частотолога та баєса, чи існують математичні правила ймовірності, які застосовуються до однієї інтерпретації та не стосуються іншої?

Ні. Правила вірогідності залишаються абсолютно однаковими між двома групами.

2.) Чи використовують баєси та частотанти однакові математичні моделі для аналізу даних?

Взагалі кажучи, ні. Це тому, що дві різні інтерпретації припускають, що дослідник може отримати розуміння з різних джерел. Зокрема, часто вважається, що рамки частотологів дозволяють зробити висновок про параметри, що цікавлять, лише із спостережуваних даних, тоді як байєсівська перспектива передбачає, що слід також включати незалежні експертні знання з цього питання. Різні джерела даних означають, що для аналізу будуть використовуватися різні математичні моделі.

Також слід зазначити , що існує безліч вододіли між моделями використовуються два табори , які в більшій мірі пов'язана з тим, що вже було зроблено , ніж те , що можеробити (тобто багато моделей, які традиційно використовуються одним табором, можуть бути виправдані іншим табором). Наприклад, моделі BUGs (байєсівські умовиводи з використанням вибірки Гіббса, ім'я, яке з багатьох причин вже не точно описує набір моделей) традиційно аналізуються методами Байєса, переважно через наявність великих програмних пакетів для цього (JAG, Стен, наприклад). Однак ніщо не говорить про те, що ці моделі повинні бути суто байесівськими. Насправді я працював над проектом NIMBLE, який будує ці моделі в рамках BUGs, але дозволяє користувачеві набагато більше свободи в тому, як робити висновок про них. Незважаючи на те, що переважна більшість запропонованих нами інструментів були налаштованими методами Байєсового МКМК, можна також використовувати максимальну оцінку ймовірності, традиційно частого методу, і для цих моделей. Аналогічно пріорів часто думають як те, що ти можеш зробити з Байесіаном, чого не можна робити з моделями частота. Однак пеніалізована оцінка може передбачати ті самі моделі, використовуючи регуляторні оцінки параметрів (хоча байєсівська рамка забезпечує простіший спосіб обгрунтування та вибору параметрів регуляризації, тоді як у частотантів залишається, в кращому випадку сценарій безлічі даних, "ми вибрали ці параметри регуляризації, оскільки за великої кількості перехресних перевірених зразків вони знизили оцінену помилку вибірки "... для кращого або гіршого).


1
Я дещо заперечую проти цієї цитати: "Зокрема, часто вважається, що частотурна рамка дозволяє зробити висновок про параметри, що цікавлять, лише із спостережуваних даних, тоді як байєсівська перспектива передбачає, що слід також включати незалежні експертні знання про предмет ". Передусім для того, що відвідувачі з будь-якої причини не зацікавлені незалежними експертними знаннями з цього питання. Різниця між відвідувачами та байєсами не в тому, що колишні вперто відмовляються від використання попередніх знань або контексту ... (1/2)
Ryan Simmons

1
... а скоріше, щоб дві школи думки використовували це попереднє знання / контекст по-різному. Ви можете стверджувати, що байєсівська перспектива застосовує більш принциповий підхід до включення цих попередніх знань безпосередньо у модель (хоча, я заперечую, що широко розповсюджене використання неінформативних пріорів швидше розводить цей аргумент). Але я не вважаю, що справедливо характеризувати це як питання про те, що часто відвідувачі НЕ використовують цю інформацію. (2/2)
Райан Сіммонс

1
@RyanSimmons: вірно, саме тому я заявив, що "часто вважають, що це пропонує ...". Наприклад, якщо дослідник зауважує, що регуляризація оцінок параметрів навколо думки експерта, як правило, призводить до кращих прогнозів у довгостроковій перспективі, не виникає проблем із включенням цього в рамку частота ("на основі частотних заходів, цей розширений оцінювач має кращі результати) довготривалі експлуатаційні характеристики, ніж оцінювач лише для даних "). Але це не так прямо, як у байесівських рамках.
Кліф АВ

1
Досить справедливо! Я погоджуюсь.
Райан Сіммонс

5

Байєси і часті лікарі вважають, що ймовірності представляють різні речі. Часто вважають, що вони пов'язані з частотами і мають сенс лише в контекстах, де можливі частоти. Байєси розглядають їх як способи представити невизначеність. Оскільки будь-який факт може бути непевним, можна говорити про ймовірність чого-небудь.

Математичний наслідок полягає в тому, що частоталісти думають, що основні рівняння ймовірності застосовуються лише іноді, а баєси вважають, що вони завжди застосовуються. Тож вони вважають ті самі рівняння правильними, але відрізняються від того, наскільки вони загальні.

Це має такі практичні наслідки:

(1) Байєси виводять свої методи з основних рівнянь теорії ймовірностей (з яких теорема Байєса - лише один приклад), а частоталісти вигадують один інтуїтивний спеціальний підхід за іншим для вирішення кожної проблеми.

(2) Існують теореми, які вказують на те, що якщо ви міркуєте над неповною інформацією, вам краще використовувати послідовні основні рівняння теорії ймовірностей, інакше у вас виникнуть проблеми. У багатьох людей є сумніви щодо того, наскільки значущі такі теореми, але це те, що ми бачимо на практиці.

Наприклад, реально невинно виглядаючи 95% Інтервали довіри можуть складатися цілком із значень, які неможливо (з тієї ж інформації, яка використовується для отримання інтервалу довіри). Іншими словами, методи частота можуть суперечити простої дедуктивної логіці. Баєсові методи, виведені повністю з основних рівнянь теорії ймовірностей, не мають цієї проблеми.

(3) Баєсіан суворо загальніший за частотолога. Оскільки може бути невизначено будь-який факт, будь-якому факту може бути призначена ймовірність. Зокрема, якщо факти, над якими ви працюєте, пов’язані з частотами реального світу (як щось, що ви прогнозуєте, або як частина даних), то байєсівські методи можуть розглянути і використовувати їх так само, як і будь-який інший факт реального світу.

Отже, будь-яка проблема, яку лікарі-лікарі вважають, що їхні методи застосовуються до байесів, також можуть працювати природним шляхом. Однак зворотне часто не відповідає дійсності, якщо часто лікарі не вигадують підмовок, щоб інтерпретувати їхню ймовірність як "частоту", наприклад, уявляючи кілька всесвітів, або вигадуючи гіпотетичні повтори до нескінченності, які ніколи не виконуються і часто не можуть бути в принципі .


7
Чи можете ви надати кілька посилань на викладені вами сміливі твердження? Наприклад, "Часто говорять про те, що основні рівняння ймовірності лише іноді застосовуються"? А які основні рівняння ймовірності?
mpiktas

6
Набагато цікавіше, ніж дискусія між B та F, - ваше зауваження про інтервали довіри, що містять неможливі значення. Чи можете ви навести або посилатися на конкретний приклад 95% ІС, що містить лише неможливі значення? Це може бути однією з тих речей, які кожен статистик повинен бачити хоча б раз у своєму житті (як застереження), але я цього не зробив.
Вінсент

9
Те, що CI може містити всі "неможливі" значення, зовсім не "суперечить простої дедуктивної логіці". Це звучить як нерозуміння визначення ІС - або, можливо, плутанина між інтерпретаціями КІ та достовірними інтервалами.
whuber

7
Це здається скоріше філософським розлюченням, ніж відповіддю на питання ОП (що суворо не стосувалося філософії).
Cliff AB

5
"Можливо, для висновку, який зробив би кожен статистик із КІ (без якого у КІ немає практичної мети чи контакту з реальним світом) суперечити тому, що можна зробити з тих же доказів". Це все ще жодним чином не підкріплює ваші твердження, що часто лікарі ігнорують правила ймовірності. І я боюся, що це йде добре протоптаною траєкторією "Байєса проти частотників: воюй!" що більшість читачів тут воліє уникати.
Кліф АВ

3

Питання: Тоді, якщо ми хочемо бути математично правильними, чи не повинні ми забороняти тлумачення ймовірності? Тобто, чи баєсийський, так і частолізм математично неправильні?

Так, і саме цим займаються люди і з філософії науки, і з математики.

  1. Філософський підхід. Вікіпедія пропонує збірник інтерпретацій / визначень вірогідності .

  2. Математики не безпечні. У минулому колмогорівська школа мала монополію вірогідності: ймовірність визначається як кінцева міра, яка призначає 1 усьому простору ... Ця гегемонія більше не діє, оскільки з'являються нові тенденції щодо визначення ймовірності, такі як квантова ймовірність та Вільна вірогідність .


Ви розумієте, що мається на увазі під послабленням припущень щодо комутативності випадкових величин? (що стосується вільної ймовірності - я не знаю достатньої якості QM, щоб зрозуміти ідеї квантової ймовірності) Чи означає це, що або ? Я думаю, що обговорення алгебр фон Неймана та алгебри увазі останнє. X Y Y X C X+YY+XXYYXC
Chill2Macht

7
@William алгебри неправильно моделюють більшість статистичних даних. (За аналогією, винахід складних чисел жодним чином не вплинуло на будь-яке застосування натуральних чисел до явищ. Не можливе розширення математичного поняття ймовірності ніколи не змінило би те, як застосовується ймовірність - як зараз зрозуміло). Тім ця відповідь викликає спантеличення: єдине суто математичне питання щодо будь-якого застосування ймовірності полягає в тому, чи відповідають її аксіоми, і це легко довести за допомогою простих моделей. C
whuber

2

Дебати Байєса / частість засновані на численних підставах. Якщо ви говорите про математичну основу, я не думаю, що є багато.

Їм обом потрібно застосовувати різні приблизні методи для складних проблем. Два приклади: "завантажувальний" для частолістського і "mcmc" для байесівського.

Вони обидва мають ритуали / процедури, як їх використовувати. Прикладом частотистів є "запропонувати оцінювач чогось і оцінити його властивості при повторному відборі", тоді як байєсівський приклад - "обчислити розподіли ймовірностей для того, чого ти не знаєш, залежно від того, що ти знаєш". Немає математичної основи для використання ймовірностей таким чином.

Дебати - це більше про застосування, інтерпретацію та здатність вирішувати реальні проблеми.

Насправді цим часто користуються люди, які обговорюють "свою сторону", де вони будуть використовувати специфічний "ритуал / процедуру", який використовує "інша сторона", щоб стверджувати, що всю теорію слід викинути за свою. Деякі приклади включають ...

  • використання дурних пріорів (а не перевірка їх)
  • використання дурних КІ (а не перевірка їх)
  • плутати обчислювальну техніку з теорією (байєс не є mcmc !! Те саме стосується прирівнювання перехресної перевірки з машинним навчанням)
  • говорити про проблему конкретної програми з однією теорією, а не про те, як інша теорія вирішила б конкретну проблему "краще"

Ха-ха, це дуже правда, я думаю. Мені довелося слухати професора, який триває півгодини про те, як байєсіанізм страшний, тому що підходити до пріорів суб'єктивно не має сенсу, і я весь час думав "добре, так, так що ти не вибрав би до цього ". Я висловлюю думку, що я згоден з тим, що аргументи на соломеннику мають багато.
Chill2Macht

1

Тож чи не випливало б, що єдиною математично правильною версією статистики є та, яка відмовляється бути будь-якою, але цілком агностичною щодо байєсіанства та частотизму? Якщо методи з обома класифікаціями є математично правильними, то хіба неправомірно віддати перевагу деяким, ніж іншим, бо це було б пріоритетним розпливчастою, неправильно визначеною філософією перед точною, чітко визначеною математикою?

Ні. Це не випливає. Люди, які не в змозі відчути свої емоції, біологічно не здатні приймати рішення, включаючи рішення, які, як видається, мають лише одне об'єктивне рішення. Причина полягає в тому, що раціональне прийняття рішень залежить від наших емоційних можливостей та наших переваг як пізнавальних, так і емоційних. Хоча це страшно, це емпірична реальність.

Гупта Р, Костік ТР, Бечара А, Транель Д. Амігдала та прийняття рішень. Нейропсихологія. 2011; 49 (4): 760-766. doi: 10.1016 / j.neuropsychologia.2010.09.029.

Людина, яка віддає перевагу яблукам апельсинам, не може захистити це, оскільки це є перевагою. І навпаки, людина, яка вважає за краще апельсини перед яблуками, не може захищати це раціонально, оскільки це є перевагою. Люди, які віддають перевагу яблукам, часто їдять апельсини, оскільки вартість яблук занадто велика порівняно з вартістю апельсинів.

Значна частина дебатів Байєса і Частота, а також імовірнісних і частотаністських дебатів була зосереджена на помилках розуміння. Тим не менш, якщо ми уявляємо, що у нас є людина, яка добре навчена всім методам, включаючи незначні або вже не застосовувані методи, такі як ймовірність Карнапа чи фідуціальна статистика, то для них лише раціонально віддавати перевагу деяким інструментам, ніж іншим інструментам.

Раціональність залежить лише від переваг; поведінка залежить від переваг та витрат.

Може статися так, що з чисто математичної точки зору один інструмент кращий за інший, де краще визначається за допомогою певної функції вартості чи корисності, але якщо немає єдиної відповіді, де міг би працювати лише один інструмент, то і витрати, і переваги слід зважити.

Розглянемо проблему букмекера, розглядаючи пропозицію про складну ставку. Зрозуміло, що в цьому випадку букмекери повинні використовувати методи Байєса, оскільки вони є когерентними та мають інші приємні властивості, але також уявіть, що в букмекера є лише калькулятор і навіть не олівець та папір. Може статися так, що букмекер, використовуючи свій калькулятор і відслідковуючи речі в голові, може обчислити рішення Частого лікаря і не має шансів на Землі розрахувати байесів. Якщо він готовий ризикнути «голландською бронюванням», а також вважає, що потенційна вартість є досить малою, тоді для нього раціонально пропонувати ставки, використовуючи методи частоти.

Це раціонально для вас , щоб бути агностиком , тому що ваші емоційні переваги вважають , що краще для вас. Це не раціонально, щоб поле було агностиком, якщо ви не вірите, що всі люди поділяють ваші емоційно-когнітивні уподобання, що, як ми знаємо, не так.

Коротше кажучи, я не розумію, що є математичною основою для байесівської та проти частої дискусії, і якщо немає математичної основи для дебатів (про що стверджує Вікіпедія), я не розумію, чому це взагалі допускається академічний дискурс.

Мета академічної дискусії - висвітлити і старі, і нові ідеї. Значна частина дебатів Байєса проти Частоліанців та Демократизму ймовірностей проти Частоліанців випливала з нерозуміння та неохайності думок. Деякі з них вийшли з того, що не змогли викликати переваги щодо того, що вони є. Обговорення достоїнств того, що оцінювач є неупередженим і галасливим проти, і оцінювач є упередженим і точним, - це обговорення емоційних уподобань, але поки хтось цього не має, цілком ймовірно, що мислення на ньому залишатиметься каламутним у всьому полі.

Я не люблю філософію, але люблю математику, і хочу працювати виключно в рамках аксіом Колмогорова.

Чому? Тому що ви віддаєте перевагу Колмогорову перед Коксами, де Фінетті чи Сайджесом? Це прихильність підкрадається? Також ймовірність та статистика не є математикою, вони використовують математику. Це галузь риторики. Щоб зрозуміти, чому це може мати значення, врахуйте вашу заяву:

якщо метод є математично правильним, то його можна використовувати, коли припущення основної математики мають місце, інакше, якщо він не є математично правильним або якщо припущення не відповідають умовам, його використовувати не можна.

Це не правда. Є чудова стаття про довірчі інтервали та їх зловживання цитуванням:

Морі, Річард; Hoekstra, каток; Рудер, Джефрі; Лі, Майкл; Wagenmakers, Eric-Jan, Помилковість довіри до інтервалів довіри, Психономічний вісник та огляд, 2016, Vol.23 (1), pp.103-123

Якщо ви читаєте різні потенційні інтервали довіри в статті, кожен з них є математично достовірним, але якщо потім оцінити їх властивості, вони дуже суттєво відрізняються. Дійсно, деякі надані інтервали довіри можна вважати такими, що мають "погані" властивості, хоча вони відповідають усім припущенням проблеми. Якщо ви відміните байєсівський інтервал зі списку і зосередитесь лише на чотирьох інтервалах частот, то якщо ви зробите більш глибокий аналіз щодо того, коли інтервали широкі чи вузькі чи постійні, то ви виявите, що інтервали можуть бути не "рівними "хоча кожен відповідає припущенням та вимогам.

Мало того, щоб це було математично справедливим, щоб воно було корисним або, як альтернатива, максимально корисним. Так само це може бути математично правдивим, але шкідливим. У статті є інтервал, який є в найменшій мірі саме тоді, коли є найменший обсяг інформації про справжнє місце розташування та найширший, коли про розташування параметра існує досконале знання або майже досконале знання. Незалежно від того, він відповідає вимогам покриття та задовольняє припущення.

Математики ніколи не може бути достатньо.


Мені дуже подобається друга стаття. (Висновок першої статті був чимось, що я вже чув, аргументував так, що мене переконував, тому мені здавалося непотрібним читати.) Я здебільшого згоден з тим, що ви говорите. Якщо чесно, то, кажучи про математику, я мав більше на увазі значення "прикладної математики", а також неявне розуміння того, що предмети та напрямки математичних досліджень, а також вибір математичних аксіом призначені для моделювання спостережень Реальний світ. Крім того, я не думаю, що друга стаття суперечить тому, що я говорю - автори приймають загальні помилки, фразу
Chill2Macht

їх математично (тобто точно, суворо), а потім надають контрприклади, що показують, що вони помилкові. Що я намагався сказати (якщо добре пам’ятаю про свої наміри багато місяців тому), це те, що якщо ваша «філософія» чи «філософська ідея» або щось інше не можна сформулювати / звузити до точного твердження, тобто викладене однозначно, тоді марно кидатись. Наприклад, часто відвідувачі, які розмежовують MLE (MAP з рівнем попереднього) та іншими типами об'єктивних пріорів з невиразних причин - якщо ваше заперечення не можна викласти у вигляді математичної аксіоми, тоді є
Chill2Macht

це не є вагомою причиною спочатку висловлювати своє заперечення, оскільки ваше заперечення занадто розпливчасте, щоб бути фальсифікованим. Тільки тому, що статистика "використовує математику", на мою думку, не означає, що статистики виправдані, що мислителі хитріші, ніж математики. Математики весь час сперечаються щодо того, які математичні аксіоми "варті" чи "цікаво" враховувати, як ви вказуєте, виходячи зрештою лише на емоційних уподобаннях. Але ці аргументи насправді здатні мати речовину і рухати поля вперед, тому що позиції кожної сторони чіткі та однозначні
Chill2Macht

Так сказано - наприклад, можна чітко сказати, що інтуїціоністи відкидають, використовуючи Закон виключеного Середовища, а інші математики із задоволенням використовують його. Зверніть увагу також на запеклі дискусії щодо вибору Аксіоми. Але і Закон Виключеного Середовища, і Аксіома Вибору є точними твердженнями, які, зважаючи на інші точні припущення, можуть бути фальсифікованими, показаними фальсифікованими, доведеними тощо (залежить від інших припущень). Тобто те, що я намагався стверджувати, - це те, що "філософія" / "емоція" повинна грати лише у відповідності до державних уподобань для різних однозначних / точних аксіом . Як
Chill2Macht

порівняно з тим, хто сказав, що "пріори погані", і не даючи математичної аксіоми, якій вони вважають, що висновок повинен задовольняти, і який вибір попереднього могла бути логічно порушеним. Перший є марним, в той час як другий є конструктивним, оскільки дає опонентам щось конкретне для роботи, наприклад, можливість запропонувати альтернативну аксіому, яка їм "здається більш розумною вважати для цієї проблеми". Ось чому мені дуже подобається друга стаття, з якою ви посилаєтесь, адже вона робить саме це - вона "математизує" помилкові інтерпретації КІ та доводить, що вони є помилковими.
Chill2Macht
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.