Яка відстань між кінцевою гауссовою сумішшю і гауссовою?


12

Припустимо, у мене є суміш кінцево багатьох гасівців із відомими вагами, засобами та стандартними відхиленнями. Засоби не рівні. Середнє та стандартне відхилення суміші можна зрозуміти, звичайно, оскільки моменти є середньозваженими середніми моментами компонентів. Суміш не є нормальним розподілом, але наскільки це далеко від нормального?

Суміш гауссів розділена двома стандартними відхиленнями проти Гаусса з однаковим середнім значенням та дисперсією

Наведене вище зображення показує щільність ймовірності для гауссової суміші із компонентними засобами, розділеними на стандартні відхилення (компонентів) та одним гауссом з однаковим середнім значенням та дисперсією.2

Суміш гауссів розділена на 1 стандартне відхилення проти Гаусса з однаковим середнім значенням та дисперсією

Тут засоби відокремлюються на стандартне відхилення і важче відокремити суміш від гауссівської на очі.1


Мотивація: Я не погоджуюся з деякими ледачими людьми щодо деяких фактичних розподілів, які вони не оцінювали, які, на їхню думку, є близькими до нормальних, тому що це було б добре. Я теж ледачий. Я також не хочу вимірювати розподіли. Я хочу сказати, що їхні припущення суперечать, оскільки вони говорять про те, що кінцева суміш гауссів з різними засобами є гауссом, що не вірно. Я не просто хочу сказати, що асимптотична форма хвоста неправильна, тому що це лише наближення, які повинні бути лише досить розумними в межах декількох стандартних відхилень середнього значення. Мені хотілося б сказати, що якщо компоненти добре наближені до нормальних розподілів, то суміш не є, і я хотів би мати можливість це кількісно оцінити.


Я не знаю правильної відстані від нормальності для використання: суперему різниць між CDF, відстань, відстань земляного двигуна, розбіжність KL і т. Д. Я був би радий отримати межі в плані будь-якого з них, або інші заходи. Я був би радий знати відстань до гаусса з тим же середнім і стандартним відхиленням, що і суміш, або мінімальною відстані до будь-якого гаусса. Якщо це допоможе, ви можете обмежитися випадком, що суміш складається з гауссів, щоб менша вага була більше . 2 1 / 4L121/4


2
Якщо суміш дуже близька до норми, то використання нормального наближення не лінь, це спрощення і може бути корисним. Але у вашому прикладі ви показуєте суміш, яка в центрі більш плоска, ніж нуромальна, більше поширена в середині і коротша в хвості, порівняно з найкращою наближеною до норми. Я думаю, ви хочете подивитися на якусь інтегральну різницю між цими cdf-кодами. Не міра KS, тому що максимальна компенсація може бути не дуже великою, але середня компенсація по регіону може бути відносно великою.
Майкл Р. Черник

Чи можна припустити, що є статистично значущі докази суміші гауссів над нормальним наближенням? Ми повинні хвилюватися лише чи різниця має практичне значення, якщо різниця, як відомо, є статистично значимою. Пропозиція Майкласа про щось на зразок статистики Андерсона-Дарлінга було б розумним місцем для початку.
Дікран Марсупіал

@Dikran Marsupial: Населення розбито на підгрупи, які, як відомо, мають різні способи. Компонентні засоби відомі з високою точністю. Співвідношення між різницею між компонентними засобами та стандартними відхиленнями компонента змінюється, але може становити від до у деяких цікавих випадках, на жаль, недостатньо для того, щоб загальний розподіл був бимодальним. 21/22
Дуглас Заре

3
Це здається, що ви справді задаєте питання щодо вибору моделі: з огляду на деякі дані для моделювання, коли слід віддати перевагу нормальному розподілу порівняно із сумішшю (або загальніше, як слід вибрати кількість компонентів суміші)? Перефразовуючи таке питання, ви отримаєте доступ до, о, кількох сотень запитань на цьому веб-сайті :-).
whuber

@whuber: відстань до норми потім може бути виражена як (середня) потужність тесту, спрямований на відділення суміші від одинарного Гаусса.
Сіань

Відповіді:


9

Дивергенція KL була б природною, оскільки ви маєте природний розподіл основи, єдиний Гаусс, від якого ваша суміш розходиться. З іншого боку, дивергенція KL (або її симетрична форма «відстань») між двома гауссовими сумішами, серед яких ваша проблема є окремим випадком, здається, взагалі непереборною. Hershey та Olson (2007) виглядає як розумний підсумок доступних наближень, включаючи варіативні методи, які, можливо, пропонують простіші межі.

Однак, якщо ви хочете мати аргументи щодо поганих наслідків припускати щось гауссове, коли це дійсно суміш, то краще мати гарне уявлення про наслідки, які вас насправді цікавлять - щось більш конкретне, ніж просто «помилятися» '(це точка @ Майкла-Черника). Наприклад, наслідки для тесту, або інтервал, або дещо. Два очевидних ефекту суміші - це наддисперсія, що майже гарантується, і багатомодальність, яка заплутає максимізатори.


1

Дозвольте мені продовжити розгляд наслідків неправильної специфікації розподілу. Замість того, щоб використовувати загальну міру відстані, наприклад, KL Divergence, ви можете оцінити індивідуальну міру "різниці", що відповідає наслідкам.

Наприклад, якщо розподіл буде використовуватися для розрахунку ризику, наприклад, для визначення того, що ймовірність виходу з ладу є досить низькою, то єдине, що має значення в придатності, - це обчислення ймовірності в крайньому хвості. Це може бути доречно для прийняття рішень щодо багатомільярдних програм і стосується питань життя та смерті.

Де нормальне припущення може бути найбільш неточним? У багатьох випадках, в крайніх хвостах, єдине місце, яке має значення для цих вирішальних розрахунків ризику. Якщо, наприклад, ваш справжній розподіл - це суміш нормалей, що мають однакове середнє значення, але різні стандартні відхилення, то хвости розподілу суміші жирніше, ніж хвости звичайного розподілу, що мають однакове середнє та стандартне відхилення. Це може легко призвести до порядку різниці величин (заниження ризику) для ймовірностей в крайньому хвості.

UП(ХМiхтуrе>U)-П(ХNоrмал>U)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.