Визначення оптимальної дискретизації даних від безперервного розподілу


11

Припустимо , що у вас є набір даних Y1,...,Yn від безперервного розподілу з щільністю підтримуваної на що невідомо, але досить велика, тому оцінка щільності ядра (наприклад), , є досить точний. Для конкретного застосування мені потрібно перетворити спостережувані дані в кінцеву кількість категорій, щоб отримати новий набір даних з масованою функцією маси .[ 0 , 1 ] п р ( у ) Z 1 , . . . , Z n g ( z )p(y)[0,1]нp^(у)Z1,...,Zнг(z)

Простим прикладом може бути коли і коли . У цьому випадку функція індукованої маси була бY я1 / 2 Z я = 1 Y я > 1 / 2Zi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

Два "параметри настройки" тут - кількість груп, та вектор довжини порогів . Позначимо індуковану функцію маси через .( м - 1 ) λ г м , λ ( у )m(m1)λg^m,λ(y)

Я хотів би процедури, яка відповідає, наприклад, "Який найкращий вибір щоб збільшення кількості груп до (і вибір оптимального там) призвело б до незначного поліпшення?" . Я відчуваю, що, можливо, може бути створена тестова статистика (можливо, з різницею в розбіжності KL або щось подібне), розподіл якого можна отримати. Якісь ідеї чи відповідна література?m + 1 λm,λm+1λ

Редагувати: Я рівномірно розподіляв часові вимірювання неперервної змінної і використовую неоднорідний ланцюг Маркова для моделювання тимчасової залежності. Відверто кажучи, з дискретними державними ланцюгами markov набагато простіше впоратися, і це моя мотивація. Дані, що спостерігаються, є відсотками. Наразі я використовую спеціальну дискрецію, яка мені дуже добре виглядає, але я думаю, що це цікава проблема, коли можливе формальне (і загальне) рішення.

Редагування 2: Насправді мінімізація розбіжності KL була б рівнозначною, ніж взагалі не дискретизувати дані, тому ця ідея повністю відсутня. Я відповідно редагував тіло.


1
У більшості випадків потреби подальших заявок визначатимуть користь будь-якого рішення. Можливо, щоб дати нам кілька порад, ви могли б сказати більше про це.
whuber

Спочатку визначте, що ви маєте на увазі під незначним . Це, здається, пов'язане з проблемою спотворення швидкості . Текст обкладинки та Томаса дає приємне для читання ознайомлення з такими темами.
кардинал

Я думаю про дискретизацію з рівнями, як модель з параметрами k - 1 (для порогів). Під цим налаштуванням, коли я кажу незначно, я маю на увазі "не варто додавати додатковий параметр" у статистичному сенсі. kk1
Макрос

Я не впевнений, чи дискретизація насправді хороший крок. Ви не зможете узагальнити межі, які створюють дискретні значення в оригінальному просторі ваших спостережень.
bayerj

Відповіді:


3

Я буду ділитися рішенням, з яким я придумав цю проблему ще раз - це не офіційний статистичний тест, але може надати корисну евристику.


Розглянемо загальний випадок , коли у вас є безперервні спостереження ; не втрачаючи загальності, припустимо, пробним простором кожного спостереження є інтервал [ 0 , 1 ] . Схема категоризації залежатиме від ряду категорій, m та порогів розташування, які розділяють категорії, 0 < λ 1 < λ 2 < < λ m - 1 < 1 .Y1,Y2,...,Yn[0,1]м0<λ1<λ2<<λм-1<1

Позначимо категоризовану версію через Z i ( m , λ ) , де . Розмірковуючи про дискретизацію даних як про розподіл вихідних даних на класи, дисперсію можна розглядати як комбінацію варіацій всередині і між групами для фіксованого значення :YiZi(м,λ)Y i m , λλ={λ1,λ2,,λм-1}Yiм,λ

vаr(Yi)=vаr(Е(Yi|Zi(м,λ)))+Е(vаr(Yi|Zi(м,λ))).

Дана категоризація є успішною при створенні однорідних груп, якщо в груповій дисперсії є відносно мало, кількісно визначена . Тому ми шукаємо парсимоністичну групування, яка надає більшу частину варіація Y i до v a r ( E (Е(vаr(Yi|Zi(м,λ))Yi . термін зокрема, ми хочемощоб вибрати м , так що шляхом додавання додаткових рівнів ми не додаємо суттєво до однорідності всередині групи. Зважаючи на це, ми визначаємо оптимальний λvаr(Е(Yi|Zi(м,λ))мλдля фіксованого значення бутим

λм=аrгмiнλЕ(vаr(Yi|Zi(м,λ)))

Приблизною діагностикою для визначення того, який вибір є адекватним, є огляд дропфу в E ( v a r ( Y i | Z i ( m , λ мяк функціїm- ця траєкторія є монотонно не- зростаючи, і після того, як він різко зменшується, то ви можете бачити, що ви набираєте порівняно меншу точність, включаючи більше категорій. Цей евристичний за духом схожий на те, щоіноді використовується"Екран екрану", щоб побачити, скільки основних компонентів пояснюють "достатньо" варіації.Е(vаr(Yi|Zi(м,λм)))м

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.