Припустимо , що у вас є набір даних від безперервного розподілу з щільністю підтримуваної на що невідомо, але досить велика, тому оцінка щільності ядра (наприклад), , є досить точний. Для конкретного застосування мені потрібно перетворити спостережувані дані в кінцеву кількість категорій, щоб отримати новий набір даних з масованою функцією маси .[ 0 , 1 ] п р ( у ) Z 1 , . . . , Z n g ( z )
Простим прикладом може бути коли і коли . У цьому випадку функція індукованої маси була бY я ≤ 1 / 2 Z я = 1 Y я > 1 / 2
Два "параметри настройки" тут - кількість груп, та вектор довжини порогів . Позначимо індуковану функцію маси через .( м - 1 ) λ г м , λ ( у )
Я хотів би процедури, яка відповідає, наприклад, "Який найкращий вибір щоб збільшення кількості груп до (і вибір оптимального там) призвело б до незначного поліпшення?" . Я відчуваю, що, можливо, може бути створена тестова статистика (можливо, з різницею в розбіжності KL або щось подібне), розподіл якого можна отримати. Якісь ідеї чи відповідна література?m + 1 λ
Редагувати: Я рівномірно розподіляв часові вимірювання неперервної змінної і використовую неоднорідний ланцюг Маркова для моделювання тимчасової залежності. Відверто кажучи, з дискретними державними ланцюгами markov набагато простіше впоратися, і це моя мотивація. Дані, що спостерігаються, є відсотками. Наразі я використовую спеціальну дискрецію, яка мені дуже добре виглядає, але я думаю, що це цікава проблема, коли можливе формальне (і загальне) рішення.
Редагування 2: Насправді мінімізація розбіжності KL була б рівнозначною, ніж взагалі не дискретизувати дані, тому ця ідея повністю відсутня. Я відповідно редагував тіло.