Пропускна здатність ядра: правила Скотта проти Сільвермена


14

Чи може хто-небудь пояснити простою англійською мовою, в чому різниця між правилами Скотта та Сільвермана для вибору пропускної здатності? Зокрема, коли один кращий за іншого? Це пов’язано з базовим розподілом? Кількість зразків?

PS Я маю на увазі код у SciPy .


1
Я також не хочу знати пітона. Я просто хочу допомогти зрозуміти, коли використовувати яке правило і чому.
xrfang

Відповіді:


11

Зауваження до коду, схоже, в кінцевому підсумку визначають два по суті однаково (окрім порівняно невеликої різниці константи).

Обидва мають форму , як із тим, що схоже на (оцінка шкали), так і дуже близьким до 1 (близьке відносно типової невизначеності в оцінці оптимальної пропускної здатності. ).cAn1/5 грAc

[Оцінка binwdith, що зазвичай, здається, асоціюється зі Скоттом, - це той, який виходить з його статті 1979 [1] ( ) - наприклад, див. Вікіпедію - трохи прокручуємо вниз - або R. ]3.49sn1/3nclass.scott

1.059, що називається кодом "оцінка Скотта", міститься в (попередній) книзі Сільвермена (див. P45 посилання на Сільвермана за вашим посиланням. Виведення цього Скотта знаходиться на p130-131 книги, на яку вони посилаються). Він походить від нормально-теоретичної оцінки.

Оптимальна пропускна здатність (в інтегрованому середньому квадратичному помилці) є функцією інтегрованого другого похідного квадрата, і виходить з цього обчислення для нормального, але в багатьох випадках це набагато ширше, ніж є оптимальним для інших розподілів .1.059σ

Термін є оцінкою (свого роду robustified оцінки, таким чином, зменшує тенденцію для того , щоб бути занадто великим , якщо є що випадають / асиметрії / важкі хвости). Див. Екв. 3.30 на стр. 47, виправданий на стр.Aσ

З аналогічних причин, які я запропонував раніше, Сільверман продовжує запропонувати зменшити 1,059 (адже він фактично використовує 1,06 впродовж, а не 1,059 - як це робить Скотт у своїй книзі). Він вибирає зменшене значення, яке втрачає не більше 10% ефективності для IMSE за нормальної норми, звідки походить 0,9.

Таким чином, обидві ці ширини бін базуються на оптимальній біншировій ширині, що відповідає IMSE, у нормі, одна права на оптимальній, інша (приблизно на 15% менша, щоб отримати в межах 90% ефективності оптимальної при нормальній). [Я би назвав їх обох оцінками "Сільвермена". Я поняття не маю, чому вони називають 1.059 для Скотта.]

На мою думку, обох набагато більше. Я не використовую гістограми для отримання оптимальних для IMSE оцінок щільності. Якби це (отримання оцінок щільності, оптимальної в сенсі IMSE) було те, що я хотів зробити, я не хотів би використовувати для цього гістограми.

Гістограми мають бути помилковими на більш шумній стороні (нехай око зробить необхідне розгладження). Я майже завжди подвоюю (або більше) типову кількість бункерів, які дають такі правила. Тож я б не використовував 1,06 або 0,9, я б схильний використовувати щось близько 0,5, а можливо менше при дійсно великих розмірах вибірки.

Вибирати між ними насправді дуже мало, оскільки вони обидва дають занадто мало бункерів, щоб значно використати для пошуку того, що відбувається в даних (про що, принаймні, при невеликих розмірах вибірки, дивіться тут .

[1]: Скотт, DW (1979), "Про оптимальні та засновані на даних гістограми", Biometrika , 66 , 605-610.


Згідно з документом SciPy тут , правило Скотта: n ** (- 1./(d+4)). Переглянувши код, я виявив, що я неправильно зрозумів правило як "scotts_factor". Ви праві, що пропускна здатність занадто велика. Я відкрию нове питання про чисельний вибір пропускної здатності. Спасибі.
xrfang

Коли ви робите одноманітні дані ( ), це частина у наведених вище формулах. Але це не враховує мінливість даних (як вимірюється вище), ні термін для того, який розподіл ви намагаєтеся оптимізувати поблизу (те, що я назвав вище, як коефіцієнт 1,095). Це як саме пропускна здатність повинна змінюватися в залежності від розміру вибірки, а не константи, на які слід помножити. п - 1 / 5 грd=1n1/5Ac
Glen_b -Встановіть Моніку

@ Glen_b-ReinstateMonica Чи можете ви подивитись на запитання, яке я розмістив тут ? Я показую проблеми, які можуть спричинити правило Сільвермена, коли використовується великий розмір вибірки. Чи можете ви відповісти, що відбувається докладно?
користувач269666
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.