Різні непараметричні методи оцінки розподілу ймовірності даних


10

У мене є деякі дані, і я намагався прилаштувати до неї плавну криву. Однак я не хочу застосовувати занадто багато попередніх переконань або занадто сильних попередніх уявлень (за винятком тих, які маються на увазі в решті мого запитання) щодо цього чи будь-яких конкретних розподілів.

Мені просто хотілося встановити його з якоюсь гладкою кривою (або добре оцінити розподіл ймовірностей, з якого вона могла походити). Єдиний метод, який я знаю для цього - це оцінка щільності ядра (KDE). Мені було цікаво, чи знають люди про інші методи оцінки такої речі. Я просто хотіла їх переліку, і з цього я можу зробити власне дослідження, щоб з’ясувати, які з них я хочу використовувати.

Надання будь-яких посилань або хороших посилань (або інтуїцій, на яких корисні) завжди вітається (і рекомендується)!


3
" Я не хотів дотримуватися жодної попередньої думки з цього приводу " - тоді ви не можете припустити, що це гладко або навіть безперервно (це були б попередні переконання). У такому випадку ecdf стосується вашого єдиного звернення.
Glen_b -Встановіть Моніку

1
Щоб переконатись, мій кращий спосіб сформулювати моє запитання. Я мав на увазі, що я не хочу припускати його слова, Бернуллі чи щось таке, що може бути обмежувальним. Я не знаю, що таке PDF у форматі btw. Якщо у вас є хороша пропозиція або список пропозицій, сміливо опублікуйте її.
Буратіно

Я оновив своє запитання. Це краще? Більш зрозуміло? До речі, на моє запитання немає правильної відповіді, лише хороші та менш корисні. :)
Піноккіо

2
ecdf = емпіричний cdf , вибачте. Ми можемо відповісти лише на запитання, яке ви задаєте, а не на те, про яке ви хотіли задати, тому ви повинні бути обережними, щоб бути зрозумілим, коли ви висловлюєте свої припущення.
Glen_b -Встановіть Моніку

Нормалізовану гістограму можна розглядати як оцінку щільності
Дейсон

Відповіді:


5

Ви не вказуєте, що ви говорите про безперервні випадкові змінні, але я припускаю, оскільки ви згадуєте KDE, що ви маєте намір це зробити.

Два інші способи пристосування гладкої щільності:

1) Оцінка щільності журналу сплайна. Тут крива сплайна підганяється до щільності журналу.

Приклад паперу:

Kooperberg and Stone (1991),
"Дослідження оцінки щільності лонглінії,"
Обчислювальна статистика та аналіз даних , 12 , 327-347

Kooperberg надає посилання на pdf свого документу тут , під "1991".

Якщо ви використовуєте R, для цього є пакет . Приклад породженого нею пристосування тут . Нижче наведена гістограма журналів набору даних, а також репродукції оцінок щільності логічної лінії та ядра з відповіді:

гістограма журнальних даних

Оцінка щільності вихідної лінії:

сюжетний логотип

Оцінка щільності ядра:

оцінка щільності ядра

2) Моделі кінцевих сумішей . Тут вибирається якесь зручне сімейство розподілів (у багатьох випадках нормальне), а щільність вважається сумішшю кількох різних членів цієї родини. Зауважте, що оцінки щільності ядра можна розглядати як таку суміш (з ядрами Гаусса, вони є сумішшю гауссів).

Більш загально це може бути встановлено через ML або алгоритм ЕМ, або в деяких випадках за допомогою моменту узгодження, хоча в конкретних обставинах можливі й інші підходи.

(Є безліч пакетів R, які роблять різні форми моделювання суміші.)

Додано в редагуванні:

3) Усереднені зміщені гістограми
(які не є буквально рівними, але, можливо, досить гладкими для нестандартних критеріїв):

Уявіть собі, як обчислюють послідовність гістограм за деякою фіксованою шириною bin ( ), через джерело біна, яке щоразу зміщується на на деяке ціле , а потім усереднюється. На перший погляд це виглядає як гістограма, зроблена на ширині bin , але значно гладша .bb/kkb/k

Наприклад, обчисліть 4 гістограми на кожній з шириною binw 1, але зміщуйте на + 0, + 0,25, + 0,5, + 0,75, а потім середнє висоти на будь-якому даному . Ви закінчуєте щось подібне:x

Усереднена зміщена гістограма

Діаграма, взята з цієї відповіді . Як я там кажу, якщо ви докладете до цього рівня зусиль, ви також можете зробити оцінку щільності ядра.


Щоб додати до цього. Для моделі суміші - я думаю, ви могли б помістити суміш з 2, потім 3, потім 4 розподілу і зупинитись після того, як не буде значного збільшення ймовірності журналу чи чогось подібного ...
waferthin

4

З урахуванням вищезазначених коментарів щодо припущень, таких як гладкість і т. Д. Ви можете зробити байєсівську непараметричну оцінку щільності, використовуючи моделі сумішей з попереднім процесом Діріхле.

На малюнку нижче показані контури густини ймовірності, отримані за результатами оцінки MCMC біваріантної нормальної моделі DP-суміші для даних "старого вірного". Точки пофарбовані IIRC відповідно до кластеризації, отриманої на останньому кроці MCMC.

введіть тут опис зображення

Teh 2010 забезпечує хороший досвід.


1

Популярним вибором є випадковий ліс (див. Конкретно розділ п'ятий " Ліси прийняття рішень: Єдина рамка для класифікації, регресії, оцінювання щільності, навчання в колективі та навчання з наглядом ").

Він докладно описує алгоритм і оцінює його по відношенню до інших популярних варіантів, таких як k-засоби, GMM та KDE. Випадкові ліси реалізовані в R та scikit-learn.

Випадковий ліс - це розумно укуповані дерева рішень.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.