Зауваження до коду, схоже, в кінцевому підсумку визначають два по суті однаково (окрім порівняно невеликої різниці константи).
Обидва мають форму , як із тим, що схоже на (оцінка шкали), так і дуже близьким до 1 (близьке відносно типової невизначеності в оцінці оптимальної пропускної здатності. ).c A n- 1 / 5 грАc
[Оцінка binwdith, що зазвичай, здається, асоціюється зі Скоттом, - це той, який виходить з його статті 1979 [1] ( ) - наприклад, див. Вікіпедію - трохи прокручуємо вниз - або R. ]3,49 с н- 1 / 3nclass.scott
1.059, що називається кодом "оцінка Скотта", міститься в (попередній) книзі Сільвермена (див. P45 посилання на Сільвермана за вашим посиланням. Виведення цього Скотта знаходиться на p130-131 книги, на яку вони посилаються). Він походить від нормально-теоретичної оцінки.
Оптимальна пропускна здатність (в інтегрованому середньому квадратичному помилці) є функцією інтегрованого другого похідного квадрата, і виходить з цього обчислення для нормального, але в багатьох випадках це набагато ширше, ніж є оптимальним для інших розподілів .1,059 σ
Термін є оцінкою (свого роду robustified оцінки, таким чином, зменшує тенденцію для того , щоб бути занадто великим , якщо є що випадають / асиметрії / важкі хвости). Див. Екв. 3.30 на стр. 47, виправданий на стр.Аσ
З аналогічних причин, які я запропонував раніше, Сільверман продовжує запропонувати зменшити 1,059 (адже він фактично використовує 1,06 впродовж, а не 1,059 - як це робить Скотт у своїй книзі). Він вибирає зменшене значення, яке втрачає не більше 10% ефективності для IMSE за нормальної норми, звідки походить 0,9.
Таким чином, обидві ці ширини бін базуються на оптимальній біншировій ширині, що відповідає IMSE, у нормі, одна права на оптимальній, інша (приблизно на 15% менша, щоб отримати в межах 90% ефективності оптимальної при нормальній). [Я би назвав їх обох оцінками "Сільвермена". Я поняття не маю, чому вони називають 1.059 для Скотта.]
На мою думку, обох набагато більше. Я не використовую гістограми для отримання оптимальних для IMSE оцінок щільності. Якби це (отримання оцінок щільності, оптимальної в сенсі IMSE) було те, що я хотів зробити, я не хотів би використовувати для цього гістограми.
Гістограми мають бути помилковими на більш шумній стороні (нехай око зробить необхідне розгладження). Я майже завжди подвоюю (або більше) типову кількість бункерів, які дають такі правила. Тож я б не використовував 1,06 або 0,9, я б схильний використовувати щось близько 0,5, а можливо менше при дійсно великих розмірах вибірки.
Вибирати між ними насправді дуже мало, оскільки вони обидва дають занадто мало бункерів, щоб значно використати для пошуку того, що відбувається в даних (про що, принаймні, при невеликих розмірах вибірки, дивіться тут .
[1]: Скотт, DW (1979), "Про оптимальні та засновані на даних гістограми", Biometrika , 66 , 605-610.