Чому часто передбачається поширення Гаусса?


14

Цитуючи статтю у Вікіпедії про оцінку параметрів для наївного класифікатора Байєса : "типовим припущенням є те, що безперервні значення, пов'язані з кожним класом, розподіляються відповідно до розподілу Гаусса".

Я розумію, що розподіл Гаусса зручно з аналітичних причин. Однак чи є якась інша причина в реальному світі, щоб зробити це припущення? Що робити, якщо населення складається з двох підгруп (розумні / тупі люди, великі / маленькі яблука)?


5
Можливо, через теорему про центральну межу гауссові розподіли підходять до багатьох, хоча далеко не всіх вимірювань фізичних явищ? З підгрупами можна отримати змішані гауссові розподіли.
Діліп Сарват

1
У тому ж розділі (я припускаю, що ви переглядаєте статтю Naive Bayes) вказується, що бінінг - це, мабуть, краща ідея, якщо ви не знаєте розподілу. Хтось, мабуть, повинен редагувати статтю вікіпедії, щоб зрозуміти, що слід вважати гауссана лише тоді, коли він може аргументувати, чому це гаусс (наприклад, описуйте дані, чи це відповідає адитивній схемі CLT).
rm999

Відповіді:


6

Принаймні для мене припущення про нормальність виникає з двох (дуже потужних) причин:

  1. Центральна гранична теорема.

  2. Розподіл Гаусса - це максимальна ентропія (щодо безперервної версії ентропії Шеннона).

Я думаю, що ви знаєте перший пункт: якщо ваш зразок є сумою багатьох процесів, то, якщо деякі легкі умови будуть задоволені, розподіл є досить сильним гауссом (є узагальнення CLT, де ви насправді не робите треба припустити, що rvs суми однаково розподілені, див., наприклад, CLT Ляпунова).

Другий момент - той, який для деяких людей (особливо фізиків) має більше сенсу: з огляду на перший і другий моменти розподілу, поширення яких передбачає менше інформації (тобто найбільш консервативне) щодо безперервної міри ентропії Шеннона (що є дещо довільне щодо безперервного випадку, але, принаймні для мене, цілком об'єктивне в дискретному випадку, але це вже інша історія) - це гауссова розподіл. Це форма так званого "принципу максимальної ентропії", яка не настільки поширена, оскільки фактичне використання форми ентропії дещо довільне ( детальну інформацію про цей захід див. У цій статті у Вікіпедії ).

Звичайно, це останнє твердження справедливо також для багатовимірного випадку, тобто максимального розподілу ентропії (знову ж таки, стосовно безперервної версії ентропії Шеннона), даного першого ( ) та другого порядку порядку ( тобто матриця коваріації ) може бути показана як багатоваріантна гаусса. ΣμΣ

ПД: Я повинен додати до принципу максимальної ентропії те, що згідно з цим документом , якщо вам трапляється відомий діапазон змін вашої змінної, ви повинні внести корективи в розподіл, який ви отримуєте за принципом максимальної ентропії.


3

Моя відповідь погоджується з першим респондентом. Центральна гранична теорема говорить вам про те, що якщо ваша статистика є сумою чи середнім показником, вона буде приблизно нормальною за певних технічних умов незалежно від розподілу окремих вибірок. Але ви маєте рацію, що іноді люди переносять це занадто далеко лише тому, що це здається конвенційним. Якщо ваша статистика - це відношення, а знаменник може бути нульовим або близьким до нього, співвідношення буде занадто важким для нормального. Госсет встановив, що навіть при вибірці з нормального розподілу нормалізоване середнє значення, де стандартне відхилення вибірки використовується для константи нормалізації, розподіл є t розподілом з n-1 градусами свободи, коли n - розмір вибірки. У своїх польових експериментах на пивоварні «Гінесс» він має розміри зразків, які можуть бути в межах 5-10. У цих випадках розподіл t подібний до звичайного нормального розподілу тим, що він симетричний приблизно 0, але має набагато важчі хвости. Зауважте, що розподіл t збігається до стандартного нормального, коли n стає великим. У багатьох випадках розподіл у вас може бути бімодальним, оскільки це суміш двох груп. Інколи такі розподіли можуть бути сумішшю звичайних розподілів. Але вони, безумовно, не виглядають як нормальний розподіл. Якщо ви подивитесь на основний підручник зі статистикою, ви знайдете безліч параметричних безперервних і дискретних розподілів, які часто виникають при проблемах з висновками. Для дискретних даних ми маємо двочленний, пуассонівський, геометричний, гіпергеометричний та негативний двочлен. Безперервні приклади включають квадрат чі, лонормальне, Коші, негативну експоненцію, Вейбул і Гумбель.


2

Використання CLT для обгрунтування використання гауссового розподілу є звичайною помилкою, оскільки CLT застосовується до середньої вибірки, а не до окремих спостережень. Отже, збільшення розміру вибірки не означає, що вибірка наближається до норми.

Гауссова розподіл зазвичай використовується, оскільки:

  1. Максимальна оцінка ймовірності проста.
  2. Байєсівський висновок простий (з використанням спряжених пріорів або пріорів типу Джеффріса).
  3. Він реалізований у більшості числових пакетів.
  4. Існує багато теорій щодо цього розподілу з точки зору тестування гіпотез.
  5. Відсутність знань про інші варіанти (більш гнучкі). ...

Звичайно, найкращий варіант - використовувати розподіл, який враховує характеристики вашого контексту, але це може бути складним. Однак це те, що люди повинні робити

"Все повинно бути максимально простим, але не простішим". (Альберт Ейнштейн)

Я сподіваюся, що це допомагає.

Найкращі побажання.


Чому потік? який контраргумент для цього пояснення?
lmsasu

4
Переконання, що "використання CLT для обгрунтування використання гауссового розподілу є звичайною помилкою, оскільки CLT застосовується до вибіркової середньої", є самою помилкою. Наприклад, електрони в провіднику рухаються навмання. Мал заряд на кожен електрон вносить свій внесок чистого шуму напруги ( так званий теплової шум) , яке може бути виміряна на висновках провідника. Кожен внесок невеликий, є багато електронів, і тому через CLT шум моделюється як випадковий процес Гаусса. Ця модель була схвалена у численних експериментальних дослідженнях.
Діліп Сарват

1
Цей перший пункт заплутаний і здається поза темою. Застосовуючи CLT, ми часто говоримо, що розподіл є гауссовим, оскільки кожне окреме спостереження є сумою / середньою кількістю багатьох процесів. Якби перший абзац був знятий, я думаю, це буде гарною відповіддю.
rm999

1
@ rm999 "Якби перший абзац було видалено, я думаю, це було б гарною відповіддю". Насправді перший абзац є сутністю відповіді, оскільки решта лише вказує на те, наскільки гауссова модель корисна аналітично - яку вже розуміє ОП - і не відповідає на поставлене запитання.
Діліп Сарват

1
@Dilip: (+1) Ядро дуже хорошої відповіді присутнє у вашому першому коментарі. Просимо розширити його окремим дописом.
кардинал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.