Обчислювально ефективна оцінка багатоваріантного режиму

14

Коротка версія: Який найбільш обчислювально ефективний метод оцінювання режиму багатовимірного набору даних, відібраний з безперервного розподілу?

Довга версія: У мене є набір даних, необхідний для оцінки режиму. Режим не збігається із середнім чи середнім. Зразок показаний нижче, це двовимірний приклад, але рішення ND було б краще: введіть тут опис зображення

В даний час мій метод є

Обчисліть оцінку щільності ядра в сітці, рівну бажаній роздільній здатності режиму
Шукайте найбільшу розрахункову точку

Очевидно, що це обчислює KDE у багатьох неправдоподібних точках, що особливо погано, якщо є багато точок даних високих розмірів або я очікую гарного дозволу в режимі.

Альтернативою було б використання модельованого відпалу, генетичного алгоритму тощо, щоб знайти глобальний пік у KDE.

Питання в тому, чи існує розумніший метод виконання цього розрахунку?

— tkw954
джерело

Я не знаю відповіді, але, думаю, це чудове питання. Мені важко думати про кращі підходи, ніж ті, про які ти згадав. я думаю, що існують відмінності між підходом до одновимірної оцінки ядра порівняно з багатофакторною. Ця книга Девіда Скотта може бути корисною щодо багатоваріантного підходу до ядра, хоча я не впевнений, що він обговорює полювання на піки. amazon.com/…

— Майкл Р. Черник

7

$K'$ $K$ $f(x)$ $K$ $\nabla f(x)$ $K'$

Дуже детальне опис алгоритму також подано у цій статті .

— Той самий
джерело

3

Приємні посилання, Ларрі Вассерман також нещодавно опублікував коротший пост з описом техніки менш детально, «Алгоритм дивовижного середнього зсуву» .

— Енді Ш

1

@AndyW Добрий дзвінок! Пост Ларрі Вассермана (і його блог загалом) чудовий. Переглядаючи коментарі, я знайшов цю ілюстративну посилання на середній зсув, середній зсув та варіант, QuickShift.

— Саммер

2

Дякую. Не можу сказати, чи це найшвидший, але він, безумовно, знаходить локальний максимум. Ось деякі графіки траєкторії та рівня навчання на деяких синтетичних даних .

— tkw954

9

Якщо ваш головний інтерес - це двовимірні проблеми, я б сказав, що оцінка щільності ядра є хорошим вибором, оскільки він має приємні асимптотичні властивості (зауважте, що я не кажу, що це найкраще). Див. Наприклад

Парзен, Е. (1962). Про оцінку функції та режиму щільності ймовірності . Анали математичної статистики 33: 1065–1076.

де Валпіне, П. (2004). Вірогідність простору штату Монте-Карло за допомогою зваженої оцінки щільності заднього ядра . Журнал Американської статистичної асоціації 99: 523-536.

Для більш високих розмірів (4+) цей спосіб дійсно повільний через загальновідомі труднощі в оцінці оптимальної матриці пропускної здатності, див .

Тепер, як ви сказали, проблема з командою ksв пакеті KDEполягає в тому, що вона оцінює щільність конкретної сітки, яка може бути дуже обмежуючою. Цю проблему можна вирішити, якщо ви використовуєте пакет KDEдля оцінки матриці пропускної здатності, наприклад Hscv, застосувавши оцінювач щільності ядра, а потім оптимізуйте цю функцію за допомогою команди optim. Це показано нижче за допомогою імітованих даних та ядра Гаусса в R.

rm(list=ls())

# Required packages
library(mvtnorm)
library(ks)

# simulated data
set.seed(1)
dat = rmvnorm(1000,c(0,0),diag(2))

# Bandwidth matrix
H.scv=Hlscv(dat)

# [Implementation of the KDE](http://en.wikipedia.org/wiki/Kernel_density_estimation)
H.eig = eigen(H.scv)
H.sqrt = H.eig$vectors %*% diag(sqrt(H.eig$values)) %*% solve(H.eig$vectors)
H = solve(H.sqrt)
dH = det(H.scv)

Gkde = function(par){
return( -log(mean(dmvnorm(t(H%*%t(par-dat)),rep(0,2),diag(2),log=FALSE)/sqrt(dH))))
}

# Optimisation
Max = optim(c(0,0),Gkde)$par
Max

Наприклад, оцінювачі з обмеженою формою, як правило, швидші

Cule, ML, Samworth, RJ та Stewart, MI (2010). Максимальна оцінка ймовірності багатовимірної логічно-увігнутої щільності . Журнал Королівського статистичного товариства B 72: 545–600.

Але вони занадто пікові для цієї мети.

$4$

Інші методи, які ви можете розглянути, як це: встановлення багатоваріантної кінцевої суміші нормалей (або інших гнучких розподілів) або

Abraham, C., Biau, G. and Cadre, B. (2003). Просте оцінювання режиму багатоваріантної щільності . Канадський статистичний журнал 31: 23–34.

Я сподіваюся, що це допомагає.

— Громада
джерело

0

Нещодавно ми опублікували документ, в якому пропонують швидкий послідовний оцінювач режимів.

П. С. Рузанкін та А. В. Логачов (2019). Швидкий оцінювач режиму в багатовимірному просторі. Статистика та ймовірнісні листи

$O(dn)$ $d$ $n$

Я б також запропонував нові оцінці режиму мінімальної дисперсії з моєї недавньої роботи

П. С. Рузанкін (2020). Клас оцінок непараметричного режиму. Комунікації в статистиці - моделювання та обчислення

$O(dn^2)$ $n$ ${\mathbb R}^d$

— Павло Рузанкін
джерело