Які приклади, коли "наївний завантажувальний пристрій" не вдається?


86

Припустимо, у мене є набір вибіркових даних з невідомого або складного розподілу, і я хочу виконати деякий висновок на статистичній даних. Моя схильність по замовчуванням є просто генерувати купу зразків бутстраповскіх з заміною, і обчислити мою статистику на кожен зразок початкового завантаження , щоб створити оцінне розподіл для .TTT

Які приклади, коли це погана ідея?

Наприклад, один випадок, коли наївне виконання цієї завантажувальної програми буде невдалим, - якщо я намагаюся використовувати завантажувальний інструмент на даних часових рядів (скажімо, щоб перевірити, чи є у мене значна автокореляція). Описаний вище наївний завантажувальний пристрій (генерування ї точки даних n-ї серії зразка завантажувальної машини шляхом вибірки із заміною з моєї оригінальної серії) був би (я думаю) нераціональним, оскільки він ігнорує структуру в моєму первісному часовому ряду, і тому ми отримати більш фантазійні методи завантаження, як блок завантаження.i

Якщо говорити по-іншому, що тут є завантажувальному пристрою, окрім "вибірки із заміною"?


Якщо ви хочете зробити висновок для середнього значення даних iid, завантажувальний інструмент - чудовий інструмент. Все інше викликає сумніви і вимагає доказів про окремі випадки слабкої конвергенції.
Стаск

Відповіді:


67

Якщо кількість зацікавлених сторін, як правило, функціонал дистрибуції, є досить рівною, а ваші дані - це, як правило, ви перебуваєте на досить безпечній території. Звичайно, є й інші обставини, коли завантажувальна програма також буде працювати.

Що означає завантажувальний засіб "провалити"

Загалом, мета завантажувальної програми - побудувати приблизний розподіл вибірки для статистики, що цікавить. Йдеться не про фактичну оцінку параметра. Отже, якщо статистика, що представляє інтерес (за деяким масштабуванням та центруванням), є та у розподілі, ми хотіли б, щоб наш розподіл завантажувального сходяться до розподілу . Якщо у нас цього немає, то ми не можемо довіряти зробленим висновкам.X^nX^nXX

Канонічний приклад , коли самозавантаження можуть зазнати невдачі, навіть в н.о.р. каркаса при спробі наблизити розподіл вибірки екстремальної статистики порядку. Нижче коротке обговорення.

Максимальний порядок статистики випадкової вибірки з РозподілU[0,θ]

Нехай є послідовністю iid однорідних випадкових величин на . Нехай . Розподіл є (Зауважте, що дуже простим аргументом це фактично також показує, що вірогідно, і навіть, майже напевно , якщо всі випадкові величини визначені в одному просторі.)X1,X2,[0,θ]X(n)=max1knXkX(n)

P(X(n)x)=(x/θ)n.
X(n)θ

Елементарний обчислення дає або, іншими словами, переходить в розподілі до експоненціальної випадкової величини із середнім .

P(n(θX(n))x)=1(1xθn)n1ex/θ,
n(θX(n))θ

Тепер формуємо (наївну) завантажувальну оцінку розподілу шляхом перекомпонування із заміною, щоб отримати і використовуючи розподіл з залежать від .n(θX(n))X1,,XnX1,,Xnn(X(n)X(n))X1,,Xn

Але зауважте, що з вірогідністю , і тому розподіл завантажувальної стрічки має точкову масу в нулі навіть асимптотично, незважаючи на той факт, що фактичний обмежувальний розподіл є безперервним.X(n)=X(n)1(11/n)n1e1

Більш чітко, хоча справжній обмежувальний розподіл є експоненціальним із середнім , обмежуючий розподіл завантажувальної програми розміщує точкову масу під нулем розміром незалежно від фактичного значення . Беручи достатньо великим, ми можемо зробити ймовірність справжнього обмеження розподілу довільною малою для будь-якого фіксованого інтервалу , але завантажувальна програма ( все-таки !) Повідомляє, що в цьому інтервалі є хоча б 0,632 ймовірність! З цього повинно бути зрозуміло, що завантажувальна машина може вести себе довільно погано в цій обстановці.θ1e10.632 θθ[0,ε)

Підсумовуючи це, завантажувальний пристрій в цьому випадку виходить з ладу (нещасно). Якщо справа стосується параметрів на краю простору параметрів, то, як правило, йде не так.

Приклад з вибірки нормальних випадкових величин

Є й інші подібні приклади виходу з ладу завантажувального пристрою в дивно простих обставинах.

Розглянемо зразок з де простір параметрів для обмежений . MLE в цьому випадку - . Знову ми використовуємо оцінку завантаження . Знову ж таки, можна показати, що розподіл (умовний на спостережуваному зразку) не збігається з тим самим обмежуючим розподілом, що і .X1,X2,N(μ,1)μ[0,)X^n=max(X¯,0)X^n=max(X¯,0)n(X^nX^n)n(X^nμ)

Обмінні масиви

Мабуть, один із найдраматичніших прикладів - це обмінний масив. Нехай - масив випадкових змінних, такий, що для кожної пари матриць перестановки і масиви і мають однаковий спільний розподіл. Тобто, permuting рядки та стовпці зберігають розподіл інваріантним. (Як приклад можна придумати двосторонню модель випадкових ефектів з одним спостереженням на клітинку, хоча модель є набагато більш загальною.)Y=(Yij)PQYPYQY

Припустимо, ми хочемо оцінити інтервал довіри для середнього (через припущення про обмінність, описане вище про засоби всіх комірки повинні бути однаковими).μ=E(Yij)=E(Y11)

Мак-Каллаг (2000) розглядав два різні природні (тобто наївні) способи завантаження такого масиву. Жодна з них не отримує асимптотичну дисперсію для середньої вибірки правильною. Він також розглядає деякі приклади однобічного обмінного масиву та лінійної регресії.

Список літератури

На жаль, тема нетривіальна, тому жодне з них не читається особливо легко.

П. Бікель та Д. Фрідман, Деякі асимптотичні теорії для завантажувальної машини . Енн. Стат. , т. 9, ні. 6 (1981), 1196–1217.

DWK Andrews, Невідповідність завантажувальної стрічки, коли параметр знаходиться на межі простору параметрів , Econometrica , vol. 68, ні. 2 (2000), 399–405.

P. McCullagh, Resampling та змінний масив , Bernoulli , vol. 6, ні. 2 (2000), 285–301.

Е. Л. Леманн та JP Романо, Тестування статистичних гіпотез , 3-е. ред., Спрингер (2005). [Глава 15: Загальні методи великих зразків]


Поведінка завантажувальної статистики замовлень здається мені розумною, враховуючи, що експоненціальний розподіл має аналогічну "точкову масу" при нулі. Режим експоненціального розподілу дорівнює 0, тому здається розумним, що ймовірність повинна бути не нульовою при швидше за все цінність! Завантажувальний інструмент, ймовірно, буде чимось більш подібним до геометричного розподілу, який є дискретним аналогом експоненціалу. Я б не сприймав це як "провал" завантажувальної програми - оскільки передбачувана кількість завжди лежить у відповідному інтерваліθθX(n)
ймовірністьлогічний

1
@cardinal - асимптотичний розподіл не є відповідним орієнтиром - якщо у вас є нескінченний зразок. Розподіл завантажувальної стрічки слід порівнювати з кінцевим розподілом вибірки, яке було розроблено для наближення. Що ви хочете показати, це те, що, коли кількість ітерацій завантажувальної програми переходить до нескінченності, розподіл завантажувальної програми переходить до розподілу кінцевої вибірки . дозволити - приблизне рішення, а не точне. n
ймовірністьлогічний

5
@cardinal +1, я вже схвалив це питання, але просто хочу подякувати за дуже гарну відповідь, приклади та посилання на статті.
mpiktas

@ probabilityislogic, звичайно, загалом застосування асимптотичної теорії залежить від швидкості конвергенції, якщо вона повільна, то вона не застосовується. Але ви повинні продемонструвати, що швидкість повільна, тому що я підозрюю, що, наприклад, при рівномірному розподілі з розміром вибірки 100 ви зіткнетесь із проблемами, які окреслили @cardinal.
mpiktas

3
@probabilityislogic, спочатку я бачив лише останнє з двох ваших останніх коментарів. Щоб звернутися до попереднього, ви можете побачити перші два речення вищевказаного розділу з заголовком "Що означає завантажувальний засіб" провалитись ", де це чітко вирішено. Запуск завантаження не полягає в оцінці параметра. Ми припускаємо, що у нас є хороший спосіб оцінити бажаний параметр (у цьому випадку працює нормально). Запуск завантаження - це щось знати про розподіл параметра, щоб ми могли робити висновки. Тут завантажувальний трафік помиляється з розподілом ( дуже! ). X(n)
кардинал

8

У наступній книзі є глава (гл.9), присвячена "Коли завантажувальна помилка не вдається разом із засобами усунення несправностей":

М. Р. Черник, методи Bootstrap: Посібник для практиків і дослідників , 2-е видання. Hoboken NJ: Wiley-Interscience, 2008.

Теми:

  1. Занадто малий розмір вибірки
  2. Розподіл з нескінченними моментами
  3. Оцінка екстремальних цінностей
  4. Вибірковий опитування
  5. Послідовності даних, які залежать від М- залежних
  6. Нестабільні авторегресивні процеси
  7. Залежність далекої дальності

1
Ви бачили цей коментар до відповіді в цій темі? До речі, цей коментар посилається на сторінку Амазонки для книги Черника; відгуки читачів просвічують.
whuber

@whuber Ну, я не помітив цього коментаря. Чи потрібно видалити свою відповідь?
Садегд

1
Оскільки ваша відповідь більш детальна, ніж посилання в коментарі, вона потенційно має значення: але відповідно до політики та цілей ПП, було б непогано побачити, що вона посилюється з деяким поясненням, чому ви рекомендуєте цю книгу, або - ще краще --включити в нього зведення інформації. В іншому випадку він додає мало, і його слід видалити або перетворити на коментар до питання.
whuber

1

Наївна завантажувальна програма залежить від того, що розмір вибірки є великим, так що емпіричний CDF для даних є хорошим наближенням до "справжнього" CDF. Це гарантує, що вибірки з емпіричного CDF дуже схожі на вибірку з "справжнього" CDF. Крайній випадок, коли ви відібрали лише одну точку даних - завантажувальна програма тут нічого не досягає. Він стане все більш марним, коли наближатиметься до цієї виродженої справи.

Наївне завантаження наївно не обов'язково провалюється в аналізі рядів разів (хоча це може бути неефективним) - якщо ви моделюєте серію, використовуючи базові функції безперервного часу (такі легендарні поліноми) для компонента тренду, а також синусоїдальні та косинусні функції безперервного часу для циклічного компоненти (плюс нормальний термін помилки шуму). Тоді ви просто вкладаєте те, що коли-небудь траплялось, ви взяли вибірки на функцію ймовірності. Тут немає катастрофи для завантаження.

Будь-яка модель автокореляції або ARIMA має представлення в цьому форматі вище - цю модель просто простіше у використанні, і я думаю, що це зрозуміти та інтерпретувати (легкі для розуміння цикли в синусоїдних і косинусних функціях, важко зрозуміти коефіцієнти моделі ARIMA). Наприклад, функція автокореляції - це обернене перетворення Фур'є в силовому спектрі часового ряду.


@probabilityislogic -1, я випадково відхилив відповідь раніше (звинувачую Opera mini), тому мені довелося відредагувати її, щоб мати змогу звернути увагу, мені дуже шкода, що використовую таку тактику. Я зробив це лише тому, що спочатку мені не сподобалась відповідь, але я не спростував, тому що хотів підготувати свої аргументи, про які я дам у наступному коментарі.
mpiktas

1
@probabilityislogic, для процесів часових рядів час відіграє важливу роль, тому розподіл вектора відрізняється від . Перестановка, виконана в наївній завантажувальній програмі, руйнує цю структуру, тому, наприклад, якщо ви спробуєте пристосувати модель AR (1), після перекомпонування ви можете зрозуміти, що ви намагаєтесь помістити як , що є не здається природним. Якщо ви переглядаєте "часовий ряд завантаження", друга стаття наводить приклад того, як оцінюється дисперсія часового ряду ...(Xt,Xt+1)(Xt+1,Xt)Y10ρY15
mpiktas

2
@probabilityislogic, чи можна було б продемонструвати свою ідею у відповіді на наївну оцінку завантаження в моделі AR (1) ? Я не вважаю, що це можливо, звідси основна причина протидії. Я був би радий визнати себе неправильним. ρYt=ρYt1+ut
mpiktas

1
@probabilityislogic, і? Що буде оцінка в цьому випадку? Мені дуже шкода, що я мотаю за приборкання, але я справді не бачу, як ти можеш показати, що наївна завантажувальна машина не вийде з ладу в цьому випадку. rho
mpiktas

4
Моя книга тут є глава про те, коли бутстраповскіе зазнає невдачі , а також главу про те , як застосовуються бутстраповскім у тимчасових рядах. Для часових рядів завантажувальний пристрій може бути застосований до залишків з моделі в модельному підході. Інший непараметричний підхід із часовою областю - це блокове завантаження, якого існує багато типів.
Майкл Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.