Розрахунок довірчих інтервалів за допомогою завантажувальної програми на залежних спостереженнях


12

У стандартній формі завантажувальний інструмент може бути використаний для обчислення довірчих інтервалів оціночної статистики за умови, що спостереження є ідентичними. І. Віссер та ін. в " Інтервали довіри для прихованих параметрів моделі Маркова " використовували параметричний завантажувальний інструмент для обчислення ІС для параметрів HMM. Однак, коли ми поміщаємо HMM на послідовність спостереження, ми вже вважали, що спостереження залежні (на відміну від моделей сумішей).

У мене є два питання:

  1. Що робить припущення про Айд із завантажувальним інструментом?
  2. Чи можемо ми ігнорувати вимогу iid у параметричному завантажувальному рядку?

Visser та ін. Спосіб коротко такий:

  1. Припустимо, у нас є послідовність спостереження результаті вибірки HMM з реальним, але невідомим набором параметрів .Y=o1,o2,...,onθ=θ1,θ2,...,θl
  2. Параметри можна оцінити за допомогою алгоритму ЕМ:θ^=θ^1,θ^2,...,θ^l
  3. Використовуйте передбачуваний HMM, щоб створити зразок завантажувальної програми розміром :nY=o1,o2,...,on
  4. Оцініть параметри HMM за зразком завантажувальної програми:θ^=θ^1,θ^2,...,θ^l
  5. Повторіть кроки 3 та 4 для разів (наприклад, = 1000), у результаті чого оцінюють завантажувальну систему:BBBθ^(1),θ^(2),...,θ^(B)
  6. Обчисліть CI кожного оціночного параметра використовуючи розподіл в оцінках завантажувальної програми.θ^iθ^i

Примітки (мої висновки):

  1. Метод відсотків повинен бути використаний для обчислення ІС, щоб мати правильне покриття (нормальність є поганим припущенням).
  2. Схильність розподілу завантажувального пристрою повинна бути виправлена. Це означає, що середнє значення розповсюдження слід змістити наθ^iθ^i

Перше запитання іншими словами: Який вплив припущення IID на завантажувальну систему? Це спрощене припущення, яке можна усунути, дотримуючись складнішого алгоритму чи формули?
Садегд

Відповіді:


11

Короткі відповіді: 1. Це спрощує її. (Чесно кажучи, у мене не виникло питання). 2. Ні, ви ніколи не можете ігнорувати це, оскільки відсутність iid має негайні наслідки для варіацій того, що ви оцінюєте.

Середня відповідь: Досить головною проблемою завантажувальної програми є: "Чи запропонована процедура відтворює особливості даних?" . Порушення припущення про iid - це велика справа: ваші дані залежать, ви (швидше за все) маєте менше даних у своїх даних, ніж ви мали б у зразок iid такого ж розміру, і якщо ви запускаєте наївну завантажувальну програму (перевпорядковуйте особу повторно спостереження), типових помилок, які ви отримуєте від цього, буде занадто мало. Запропонована процедура обходить проблему нестачі незалежності, фіксуючи (або принаймні намагаючись захопити) залежність у структурі та параметрах моделі. У разі успіху кожен зразок завантажувального програмного забезпечення за необхідності відтворює особливості даних.

Довга відповідь:Існує кілька шарів припущень щодо завантажувальної програми, і навіть у найпростішому можливому випадку (iid дані, оцінка середнього значення), ви повинні зробити щонайменше три припущення: (1) статистика, що цікавить, є плавною функцією даних (вірно у випадку середнього значення, не так правдиво навіть у відсотках, що повністю відхиляється від оцінювачів, що відповідають найближчому сусідові); (2) розподіл, з якого ви завантажуєте, "близький" до розподілу населення (працює нормально у випадку даних iid; може не працювати нормально у випадку залежних даних, де у вас по суті є лише одна траєкторія = одне спостереження в випадок часових рядів, і вам доведеться посилатись на додаткові припущення, такі як стаціонарність та змішування, щоб перенести це єдине спостереження в квазінаселеність); (3) відбір проб завантаження в Монте-Карло є достатньо хорошим наближенням до повного завантажувального коду з усіма можливими підпробами (неточність використання Монте-Карло проти повної завантажувальної програми набагато менша, ніж невизначеність, яку ви намагаєтеся зафіксувати). У випадку параметричного завантажувального пристрою ви також робите припущення, що (4) ваша модель чудово пояснює всі особливості даних.

Як попередження про те, що може піти не так (4), подумайте про регресію з гетерокедастичними помилками: , Var , скажімо. Якщо ви підходите до OLS-моделі та повторно впорядковуєте залишки так, ніби вони були ідентичними, ви отримаєте неправильну відповідь (якийсь де є середня , замість відповідноїy=xβ+ϵ[ϵ]=exp[xγ]σ¯2(XX)1σ¯21/niexp[xiγ](XX)1exp[xiγ]xixi(XX)1). Отже, якби ви хотіли мати повністю параметричне рішення для завантаження, вам доведеться підходити до моделі гетерокедастичності разом із середньою моделлю. І якщо ви підозрюєте серійну чи іншу кореляцію, вам також доведеться відповідати моделі. (Дивіться, неапараметричний аромат завантажувального апарату без розповсюдження на даний момент вже майже пропав, оскільки ви замінили голос даних синтезованим голосом вашої моделі.)

Описаний вами метод працює навколо припущення про iid, створюючи абсолютно новий зразок. Найбільша проблема із завантажувальним пристроєм залежних даних полягає у створенні вибірки, яка б мала шаблони залежності, які були б достатньо близькими до тих, що є в початкових даних. За допомогою часових рядів ви можете використовувати блокові завантажувачі; за допомогою кластерних даних ви завантажуєте цілі кластери; з гетероскедастичною регресією вам доведеться з дикими завантажувальними системами (що є кращою ідеєю, ніж завантажувальна частина залишків, навіть якщо ви прилаштували до неї гетероскідастиктичну модель). У блоковому завантажувальному інструменті потрібно зробити освіту здогадуватися (або, іншими словами, мати вагомі підстави вважати), що віддалені частини часових рядів є приблизно незалежними, так що вся кореляційна структура захоплюється суміжними 5 або 10 спостереження, що утворюють блок. Отже, замість перекомпонування спостережень одне за одним, яке повністю ігнорує кореляційну структуру часових рядів, ви перекомпонуєте їх у блоки, сподіваючись, що це поважатиме структуру кореляції. Параметричний завантажувальний вантаж, про який ви посилалися, говорить: "Замість того, щоб поспілкуватися з даними та збирати нові ляльки зі шматочків старих, чому я просто не наклею на вас цілу ліпну Барбі? Я зрозумів, який вид Барбі, яка вам подобається, і я обіцяю, що я зроблю вас такою, яку вам теж сподобається ". Замість того, аби не поспішати з даними та збирати нові ляльки зі шматочків старих, чому б я просто не наклеїти на тебе всю ліпну Барбі? Я з'ясував, які тобі Барбі подобаються, і я обіцяю, що зроблю тебе такою, яку тобі теж хотілося ". Замість того, аби не поспішати з даними та збирати нові ляльки зі шматочків старих, чому б я просто не наклеїти на тебе всю ліпну Барбі? Я з'ясував, які тобі Барбі подобаються, і я обіцяю, що зроблю тебе такою, яку тобі теж хотілося ".

У випадку описаного вами параметричного завантажувального пристрою ви повинні бути майже чортово впевнені, що ваша модель HMM є майже ідеальною, інакше ваш параметричний завантажувальний пристрій може призвести до неправильних результатів (Barbies, які не можуть рухати руками). Подумайте над наведеним вище прикладом гетероскедастичної регресії; або подумайте про пристосування моделі AR (1) до даних AR (5): що б ви не робили з параметрично модельованими даними, вони не матимуть структури, яку мали раніше вихідні дані.

Редагувати : коли Садегд уточнив своє запитання, я також можу відповісти на це. Існує велика кількість різноманітних процедур завантаження, кожна з яких стосується конкретної привабливості в статистиці, розмірі вибірки, залежності або будь-якій проблемі з завантажувальною стрічкою. Наприклад, немає єдиного способу вирішити залежність. (Я працював із завантажувальними програмами для опитування, існує близько 8 різних процедур, хоча деякі з них мають переважно методологічний, а не практичний інтерес; а деякі явно поступаються тим, що вони застосовні лише у спеціальних, не легко узагальнених випадках.) загальне обговорення питань, з якими ви могли зіткнутися із завантажувальним завантаженням, див. Кенті, Девісон, Хінклі та Вентура (2006). Діагностика та засоби завантаження. Канадський журнал статистики, 34 (1), 5-27 .


Просто щоб додати трохи до вашої заяви про те, що ви маєте менше інформації, коли у вас є залежні кластери даних (у розділі " Середній "), я вважаю, що це справедливо там, де є позитивна внутрішньокласова кореляція всередині кластера, але навпаки справедливо, коли є негативна внутрішньокласова кореляція. Звичайно, здається, що у більшості реальних додатків даних внутрішньокласні кореляції є позитивними.
Макрос

@Macro: ти, безумовно, маєш рацію в обох аспектах (що це технічно можливо, і що це практично не має значення). Те ж саме буде, якщо ви оціните середній рівень процесу AR (1) з від'ємною кореляцією, але я знову роздумую над реальними процесами, які можуть мати цю особливість. На відміну від позитивної автокореляції, яка самовідтворюється в різні часові масштаби, негативна кореляція повинна зникнути, якщо подвоїти тривалість вашого еталонного періоду. (Дані ділових циклів, як і ВВП США, мають негативні кореляції при тривалості відставання близько трьох років.)
Стаск

Дякуємо за детальну відповідь. Я зробив висновок, що параметричне повторне відбір проб може зменшити ефект залежності. Однак параметричний розподіл повинен бути в значній мірі репрезентативним для справжньої сукупності, а закономірності залежності відновлюються при повторній вибірці.
Садегд
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.