Чи можете ви пояснити оцінку щільності вікна Парсена (ядра) з точки зору непростої людини?


24

Оцінка щільності вікна Парзен описується як

p(x)=1ni=1n1h2ϕ(xixh)

де - кількість елементів у векторі, - вектор, - щільність вірогідності , - розмірність вікна Парцен, а - функція вікна.nxp(x)xhϕ

Мої запитання:

  1. Яка основна відмінність між функцією вікна Парцена та іншими функціями щільності, такими як Гауссова функція тощо?

  2. Яка роль Віконної функції ( ) у знаходженні щільності ?ϕx

  3. Чому ми можемо підключити інші функції щільності замість функції Window?

  4. Яка роль у пошуку щільності ?hx

Відповіді:


44

Оцінка щільності вікна Парзен - інша назва для оцінки щільності ядра . Це непараметричний метод оцінки функції безперервної щільності з даних.

Уявіть, що у вас є кілька точок даних x1,,xn які походять від загального невідомого, імовірно, безперервного розподілу f . Ви зацікавлені в оцінці розподілу з урахуванням ваших даних. Одне, що ви могли зробити, - це просто подивитися на емпіричний розподіл і розглянути його як зразок-еквівалент справжнього розподілу. Однак якщо ваші дані є безперервними, то, швидше за все, ви бачили б кожну xiточка з'являється лише один раз у наборі даних, тому виходячи з цього, ви б зробили висновок, що ваші дані надходять з рівномірного розподілу, оскільки кожне зі значень має однакову ймовірність. Сподіваємось, ви зможете зробити краще, ніж це: ви можете запакувати свої дані через деяку кількість інтервалів, що однаково розташовані, і підрахувати значення, що потрапляють у кожен інтервал. Цей метод базувався б на оцінці гістограми . На жаль, за допомогою гістограми ви отримуєте деяку кількість бункерів, а не постійний розподіл, тож це лише приблизне наближення.

Оцінка щільності ядра є третьою альтернативою. Основна ідея полягає в тому , що ви приблизна f з допомогою суміші безперервних розподілів K (використовуючи позначення ϕ ), званих ядра , які з центром в точці xi точки даних і має шкалу ( пропускну здатність ) , рівна h :

fh^(x)=1nhi=1nK(xxih)

Це проілюстровано на малюнку нижче, де нормальний розподіл використовується як ядро K а різні значення для пропускної здатності h використовуються для оцінки розподілу з урахуванням семи точок даних (позначених кольоровими лініями у верхній частині графіків). Кольорові густини на ділянках є ядрами з центром у точках xi . Зауважте, що h - відносний параметр, його значення завжди вибирається залежно від ваших даних, і те саме значення h може не дати подібних результатів для різних наборів даних.

Чотири щільності ядра, оцінені за тими ж даними

Ядро K можна розглядати як функцію щільності ймовірності, і його потрібно інтегрувати до одиниці. Він також повинен бути симетричним, щоб K(x)=K(x) і, що випливає далі, був зосереджений у нулі. Стаття Вікіпедії про ядра перераховує багато популярних ядер, таких як Гауссан (звичайний розподіл), Епанечников, прямокутний (рівномірний розподіл) тощо. В основному будь-який дистрибутив, що відповідає цим вимогам, може використовуватися як ядро.

Очевидно, остаточна оцінка буде залежати від вашого вибору ядра (але не дуже багато) і від параметра пропускної здатності h . Наступний потік Як інтерпретувати значення пропускної здатності в оцінці щільності ядра? більш детально описує використання параметрів пропускної здатності.

Якщо говорити це простою англійською мовою, то, що ви припускаєте тут, полягає в тому, що спостережувані точки xi є лише зразком і слідують деякому розподілу f який слід оцінити. Оскільки розподіл є безперервним, ми припускаємо, що навколо близького сусідства xi точок є якась невідома, але ненулева щільність (сусідство визначається параметром h ), і для його обліку використовуємо ядра KЧим більше точок знаходиться в якомусь районі, тим більше щільності накопичується навколо цього регіону і так, тим вище загальна щільність fh^ . Отриману функцію fh^ тепер можна оцінити для будь-якоїточка x (без підпису), щоб отримати для неї оцінку щільності, саме таким чином ми отримали функцію fh^(x) яка є наближенням невідомої функції щільності f(x) .

Приємна річ у щільності ядра полягає в тому, що, як і гістограми, вони є безперервними функціями і що вони самі є дійсною щільністю ймовірності, оскільки вони є сумішшю дійсних щільності ймовірності. У багатьох випадках це наближається до наближення f .

Різниця між щільністю ядра та іншою щільністю, як звичайним розподілом, полягає в тому, що "звичайні" щільності - це математичні функції, тоді як щільність ядра - це наближення до справжньої щільності, оціненої за допомогою ваших даних, тому вони не є "окремими" розподілами.

Я б порекомендував вам дві приємні вступні книги на цю тему: Сільверман (1986) та "Паличка та Джонс" (1995).


Сільверман, BW (1986). Оцінка щільності для статистики та аналізу даних. CRC / Chapman & Hall.

Паличка, депутат та Джонс, МС (1995). Згладжування ядра. Лондон: Chapman & Hall / CRC.


x

xix

1
@anonymous Я додав редагування, посилаючись на ваше запитання в коментарі наприкінці пункту "Сказати це простою англійською ...".
Тім

4

ϕ

xϕh(xix)xx1=1x2=2σ=1ϕhxN1,1(x)+N2,1(x)2

3) Ви можете підключити будь-яку функцію щільності, яка вам подобається як функція вікна.

h

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.