Завантажувальний інструмент: питання про оснащення


14

Припустимо, виконується так звана непараметрична завантажувальна програма шляхом складання зразків розміром кожна з вихідних спостережень із заміною. Я вважаю, що ця процедура рівнозначна оцінці функції кумулятивного розподілу за емпіричним cdf:Bnn

http://en.wikipedia.org/wiki/Empirical_distribution_function

а потім отримання зразків завантажувальної машини шляхом імітації спостережень із розрахункового cdf разів підряд.nB

Якщо я маю рацію в цьому, то треба вирішити питання щодо придатності, оскільки емпіричний cdf має приблизно N параметрів. Звичайно, асимптотично воно сходиться до популяційного cdf, але як бути з кінцевими зразками? Наприклад, якби я сказав вам, що у мене є 100 спостережень, і я буду оцінювати cdf як з двома параметрами, ви б не занепокоїлися. Однак, якщо кількість параметрів повинна перевищувати 100, це взагалі не здавалося б розумним.N(μ,σ2)

Так само, коли використовується стандартна множинна лінійна регресія, розподіл члена помилки оцінюється як . Якщо хтось вирішить перейти на завантаження залишків, він повинен усвідомити, що зараз існує приблизно параметрів, які використовуються просто для обробки розподілу помилок.nN(0,σ2)n

Чи можете ви, будь ласка, направити мене до якихось джерел, які явно вирішують це питання, або скажіть, чому це не проблема, якщо ви вважаєте, що я зрозумів це неправильно.


Одним із способів перегляду цього «непараметричного» завантажувального пристрою є те, що він перетворює параметричне припущення про нормальність у «кількість інтересів» у великої, кінцевої сукупності (наприклад, середнього переліку записів). Насправді можна показати, що ця версія завантажувальної програми базується на оцінках "максимальної ймовірності" багаточленної моделі з 1 категорією для кожного окремого "типу" у сукупності.
ймовірністьлогічний

Відповіді:


2

я не зовсім впевнений, що я правильно розумію ваше питання ... я припускаю, що вас цікавить порядок зближення?

оскільки емпіричний cdf має приблизно N параметрів. Звичайно, асимптотично воно сходиться до популяційного cdf, але як бути з кінцевими зразками?

Чи читали ви якісь основи теорії завантаження? Проблема полягає в тому, що вона досить швидко (математично) стає дикою.

У будь-якому разі, я рекомендую подивитися

van der Vaart "Асимптотична статистика" глава 23.

Зал "Розширення Bootstrap і Edgeworth" (тривалий, але стислий і менш ручний, ніж я б сказав Ван дер Ваарт)

для основ.

Черник "Методи завантаження" більше орієнтований на користувачів, а не на математиків, але має розділ про те, "де завантажується помилка".

Класичний Efron / Tibshirani має мало того, чому фактично працює завантажувальний ...


4

N(μ,σ2)

Інтуїтивно зрозуміле, завантаження з кінцевих зразків недооцінює важкі хвости базового розподілу. Це зрозуміло, оскільки кінцеві зразки мають обмежений діапазон, навіть якщо діапазон їх справжнього розподілу нескінченний або, що ще гірше, має важкі хвости. Тож поведінка завантажувальної статистики ніколи не буде такою ж "дикою", як початкова статистика. Так схоже на те, щоб уникнути перевиконання через занадто багато параметрів у (параметричній) регресії, ми могли б уникнути перевиконання, використовуючи нормальний розподіл за кількома параметрами.

Редагувати у відповідь на коментарі: Пам’ятайте, що вам не потрібна завантажувальна програма для оцінки файлу PDF. Зазвичай ви використовуєте завантажувальний інструмент, щоб отримати розподіл (у широкому сенсі, включаючи кванти, моменти, все, що потрібно) певної статистики. Таким чином, у вас не обов'язково виникає проблема придатності (з точки зору "оцінка завдяки моїм кінцевим даним виглядає занадто приємно порівняно з тим, що я повинен бачити при справжньому дикому розповсюдженні"). Як виявилося (цитованим документом та коментарем Френка Харрела нижче), отримання такої неповторної проблеми пов'язана з проблемами параметричної оцінки тієї ж статистики.

Отже, як випливали з вашого питання, завантажувальна програма не є панацеєю від проблем з параметричною оцінкою. Сподівання, що завантажувальна програма допоможе вирішити проблеми з параметрами, контролюючи весь розподіл, є помилковою.


1
Досі незрозуміло, як управляє завантажувальна програма з огляду на те, що кількість ефективних параметрів, що беруть участь у завантажувальній програмі, приблизно така ж, як і розмір вибірки. Я маю одну здогадку: кінцева мета завантажувальної програми - не оцінити весь розподіл, а оцінити 1-2 статистику розподілу. Тому, не дивлячись на те, що емпіричний cdf, вбудований у завантажувальну програму, є надмірно доповненим, 1-2 оцінені статистичні дані якось добре закінчуються. Я правильно зрозумів?
Джеймс

4
Кількість ефективних параметрів не збігається з розміром вибірки. Варіантність емпіричної функції кумулятивного розподілу приблизно така ж, як дисперсія параметричного пристосування до розподілу, коли розподіл має 4 невідомі параметри для оцінки. Однією з причин є те, що емпіричні оцінки CDF змушені бути у порядку зростання.
Френк Харрелл

Гарна думка. Не могли б ви надати посилання?
Джеймс

Я б хотів, щоб він мав. Я це показав у минулому за допомогою моделювання в Монте-Карло.
Френк Харрелл

L2Ж^-ЖЖ^(х)-Ж(х)

0

Одним із джерел інтуїції може бути порівняння коефіцієнтів конвергенції для параметричних CDF та ECDF для даних iid.

н-1/2

н-1/2σ відомі, і ми просто потрібно оцінитимк, Я думаю, що показники конвергенції повинні бути однаковими для CDF даних, як для середнього показника CDF?)

Отже, у певному сенсі швидкість, з якою вам потрібно придбати більше зразків, однакова, незалежно від того, чи оцінюєте ви CDF за допомогою емпіричного CDF, чи ви безпосередньо оцінюєте параметр за допомогою оцінювача вибірки середнього типу. Це може допомогти виправдати коментар Френка Харрелла про те, що "Кількість ефективних параметрів не збігається з розміром вибірки".

Звичайно, це ще не вся історія. Хоча ставки не відрізняються, постійні. І непараметричного завантажувального інструменту є набагато більше, ніж ECDF --- вам все одно потрібно робити щось із ECDF, як тільки ви його оцінюєте.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.