Оцінка щільності вікна Парзен - інша назва для оцінки щільності ядра . Це непараметричний метод оцінки функції безперервної щільності з даних.
Уявіть, що у вас є кілька точок даних x1,…,xn які походять від загального невідомого, імовірно, безперервного розподілу f . Ви зацікавлені в оцінці розподілу з урахуванням ваших даних. Одне, що ви могли зробити, - це просто подивитися на емпіричний розподіл і розглянути його як зразок-еквівалент справжнього розподілу. Однак якщо ваші дані є безперервними, то, швидше за все, ви бачили б кожну xiточка з'являється лише один раз у наборі даних, тому виходячи з цього, ви б зробили висновок, що ваші дані надходять з рівномірного розподілу, оскільки кожне зі значень має однакову ймовірність. Сподіваємось, ви зможете зробити краще, ніж це: ви можете запакувати свої дані через деяку кількість інтервалів, що однаково розташовані, і підрахувати значення, що потрапляють у кожен інтервал. Цей метод базувався б на оцінці гістограми . На жаль, за допомогою гістограми ви отримуєте деяку кількість бункерів, а не постійний розподіл, тож це лише приблизне наближення.
Оцінка щільності ядра є третьою альтернативою. Основна ідея полягає в тому , що ви приблизна f з допомогою суміші безперервних розподілів K (використовуючи позначення ϕ ), званих ядра , які з центром в точці xi точки даних і має шкалу ( пропускну здатність ) , рівна h :
fh^(x)=1nh∑i=1nK(x−xih)
Це проілюстровано на малюнку нижче, де нормальний розподіл використовується як ядро K а різні значення для пропускної здатності h використовуються для оцінки розподілу з урахуванням семи точок даних (позначених кольоровими лініями у верхній частині графіків). Кольорові густини на ділянках є ядрами з центром у точках xi . Зауважте, що h - відносний параметр, його значення завжди вибирається залежно від ваших даних, і те саме значення h може не дати подібних результатів для різних наборів даних.
Ядро K можна розглядати як функцію щільності ймовірності, і його потрібно інтегрувати до одиниці. Він також повинен бути симетричним, щоб K(x)=K(−x) і, що випливає далі, був зосереджений у нулі. Стаття Вікіпедії про ядра перераховує багато популярних ядер, таких як Гауссан (звичайний розподіл), Епанечников, прямокутний (рівномірний розподіл) тощо. В основному будь-який дистрибутив, що відповідає цим вимогам, може використовуватися як ядро.
Очевидно, остаточна оцінка буде залежати від вашого вибору ядра (але не дуже багато) і від параметра пропускної здатності h . Наступний потік
Як інтерпретувати значення пропускної здатності в оцінці щільності ядра? більш детально описує використання параметрів пропускної здатності.
Якщо говорити це простою англійською мовою, то, що ви припускаєте тут, полягає в тому, що спостережувані точки xi є лише зразком і слідують деякому розподілу f який слід оцінити. Оскільки розподіл є безперервним, ми припускаємо, що навколо близького сусідства xi точок є якась невідома, але ненулева щільність (сусідство визначається параметром h ), і для його обліку використовуємо ядра KЧим більше точок знаходиться в якомусь районі, тим більше щільності накопичується навколо цього регіону і так, тим вище загальна щільність fh^ . Отриману функцію fh^ тепер можна оцінити для будь-якоїточка x (без підпису), щоб отримати для неї оцінку щільності, саме таким чином ми отримали функцію fh^(x) яка є наближенням невідомої функції щільності f(x) .
Приємна річ у щільності ядра полягає в тому, що, як і гістограми, вони є безперервними функціями і що вони самі є дійсною щільністю ймовірності, оскільки вони є сумішшю дійсних щільності ймовірності. У багатьох випадках це наближається до наближення f .
Різниця між щільністю ядра та іншою щільністю, як звичайним розподілом, полягає в тому, що "звичайні" щільності - це математичні функції, тоді як щільність ядра - це наближення до справжньої щільності, оціненої за допомогою ваших даних, тому вони не є "окремими" розподілами.
Я б порекомендував вам дві приємні вступні книги на цю тему: Сільверман (1986) та "Паличка та Джонс" (1995).
Сільверман, BW (1986). Оцінка щільності для статистики та аналізу даних. CRC / Chapman & Hall.
Паличка, депутат та Джонс, МС (1995). Згладжування ядра. Лондон: Chapman & Hall / CRC.