Обчислення режиму вибірки даних від безперервного розподілу


12

Які найкращі методи пристосування "режиму" даних, вибірених із безперервного розповсюдження?

Оскільки режим є технічно невизначеним (правда?) Для безперервного розповсюдження, я справді запитую "як ти знаходиш найпоширеніше значення"?

Якщо ви припускаєте, що батьківський розподіл є гауссовим, ви можете поповнити дані і знайти, скажімо, що режим - це місце біна з найбільшою кількістю. Однак як визначити розмір контейнера? Чи є надійні реалізації? (тобто, надійний для людей, що втратили лих). Я використовую python/ scipy/ numpy, але, мабуть, можу перекласти Rбез особливих труднощів.


8
Я не впевнений, чи такий спосіб технічно визначений таким чином, але глобальний режим безперервного розподілу прийнято означати точку з найвищою щільністю.
Макрос

1
@Macro - це корисно. Потім ви можете прочитати моє запитання: "Які найкращі методи визначення (пікової) щільності?"
кефлавич

1
Можливо, підходить оцінка щільності ядра для ваших даних і оцініть режим як пік цього? Це здається розумним підходом, але я не знайомий з літературою з цієї проблеми.
Макрос

1
Якщо ви не вважаєте, що батьківський розподіл є гауссовим, чи все-таки можливо поповнити дані та прийняти режим, який буде місцем біна з найбільшою кількістю? Чому чи чому б ні? На більш серйозну увагу, чому б не знайти децилів щоб зразків в інтервалі , і тому ймовірно, що режим знаходиться в найкоротшому інтердецильному інтервалі ? Тоді візьміть розмір відра, який, скажімо, становить одну чверть цього найкоротшого інтердецильного інтервалу. x0=xmin,x1,x2,,x9,x10=xmax10%xi+1ximin1j10xj+1xj
Діліп Сарват

2
Які припущення ви можете зробити щодо батьківського розподілу, кефлавичу? Якщо вони є параметричними, найкраще оцінити параметри, а потім оцінити режим з цих параметрів. (Наприклад, середнє значення вибірки оцінює режим нормального розподілу.) Якщо цього немає, метод бінінгу може бути поганим методом. Натомість послідовність оцінювачів ядра з різною половиною ширини може бути використана для забезпечення послідовності оцінювачів; як правило, якщо базовий розподіл не є одномодальним, моменти гладких ядер, схоже, збігаються до унікального режиму, оскільки половина ширини стає великою, і це може бути вашою оцінкою.
whuber

Відповіді:


4

У R застосовується метод, який не ґрунтується на параметричному моделюванні базового розподілу та використовує за замовчуванням оцінювач ядра щільності до 10000 гамма-розподілених змінних:

x <- rgamma(10000, 2, 5)
z <- density(x)
plot(z) # always good to check visually
z$x[z$y==max(z$y)]

повертає 0,199, тобто значення x, за оцінками, має найбільшу щільність (оцінки щільності зберігаються як "z $ y").


3
Єдине, що я би зробив інакше, ніж це - використовувати іншу пропускну здатність. Ширина смуги за промовчанням для щільності () не є особливо хорошою. щільність (x, bw = "SJ") краща. Ще краще було б використовувати смугу пропускання, призначену для оцінки режиму. Див. Sciencedirect.com/science/article/pii/0167715295000240 для деякої дискусії.
Роб Хайндман

2

Припустимо, ви складете гістограму розміром бін b, а найбільший бін містить k записів із загальної вибірки розміру n. Тоді середній PDF-код у цьому біні може бути оцінений як b * k / n.

Проблема полягає в тому, що інший контейнер, що має менше загальних членів, може мати високу щільність плями. Про це ви можете дізнатися, лише якщо маєте обґрунтовані припущення щодо швидкості зміни PDF-файлу. Якщо ви це зробите, то ви можете оцінити ймовірність того, що другий найбільший бін насправді містить режим.

Основна проблема полягає в цьому. Зразок дає хороші знання CDF за теоремою Колмогорова-Смірнова, а також хорошу оцінку медіани та інших квантових показників. Але знання наближення функції до L1 не дає приблизних знань про її похідну. Тому жоден зразок не забезпечує хорошого знання PDF-файлу без додаткових припущень.


0

Ось декілька загальних ескізів рішення, які також працюють для розмірних розподілів:

  • Тренуйте f-GAN із зворотним розбіжністю KL, не даючи генератору випадкових входів (тобто змушуйте його бути детермінованим).

  • Навчіть f-GAN з зворотним розбіжністю KL, перемістіть вхідний розподіл на генератор у напрямку дельти Дірака в міру прогресування навчання і додайте градієнтну штраф до функції втрат генератора.

  • Навчіть (диференційовану) генеративну модель, яка дозволяє простежити оцінку апроксимації pdf у будь-якій точці (я вважаю, що, наприклад, VAE, модель на основі потоку або авторегресивна модель). Потім скористайтеся деяким типом оптимізації (якщо аромат градієнта може бути диференційованим), можна знайти максимум цього наближення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.