Короткі відповіді:
1. Це спрощує її. (Чесно кажучи, у мене не виникло питання). 2. Ні, ви ніколи не можете ігнорувати це, оскільки відсутність iid має негайні наслідки для варіацій того, що ви оцінюєте.
Середня відповідь: Досить головною проблемою завантажувальної програми є: "Чи запропонована процедура відтворює особливості даних?" . Порушення припущення про iid - це велика справа: ваші дані залежать, ви (швидше за все) маєте менше даних у своїх даних, ніж ви мали б у зразок iid такого ж розміру, і якщо ви запускаєте наївну завантажувальну програму (перевпорядковуйте особу повторно спостереження), типових помилок, які ви отримуєте від цього, буде занадто мало. Запропонована процедура обходить проблему нестачі незалежності, фіксуючи (або принаймні намагаючись захопити) залежність у структурі та параметрах моделі. У разі успіху кожен зразок завантажувального програмного забезпечення за необхідності відтворює особливості даних.
Довга відповідь:Існує кілька шарів припущень щодо завантажувальної програми, і навіть у найпростішому можливому випадку (iid дані, оцінка середнього значення), ви повинні зробити щонайменше три припущення: (1) статистика, що цікавить, є плавною функцією даних (вірно у випадку середнього значення, не так правдиво навіть у відсотках, що повністю відхиляється від оцінювачів, що відповідають найближчому сусідові); (2) розподіл, з якого ви завантажуєте, "близький" до розподілу населення (працює нормально у випадку даних iid; може не працювати нормально у випадку залежних даних, де у вас по суті є лише одна траєкторія = одне спостереження в випадок часових рядів, і вам доведеться посилатись на додаткові припущення, такі як стаціонарність та змішування, щоб перенести це єдине спостереження в квазінаселеність); (3) відбір проб завантаження в Монте-Карло є достатньо хорошим наближенням до повного завантажувального коду з усіма можливими підпробами (неточність використання Монте-Карло проти повної завантажувальної програми набагато менша, ніж невизначеність, яку ви намагаєтеся зафіксувати). У випадку параметричного завантажувального пристрою ви також робите припущення, що (4) ваша модель чудово пояснює всі особливості даних.
Як попередження про те, що може піти не так (4), подумайте про регресію з гетерокедастичними помилками: , Var , скажімо. Якщо ви підходите до OLS-моделі та повторно впорядковуєте залишки так, ніби вони були ідентичними, ви отримаєте неправильну відповідь (якийсь де є середня , замість відповідноїy=xβ+ϵ[ϵ]=exp[xγ]σ¯2(X′X)−1σ¯21/n∑iexp[xiγ](X′X)−1∑exp[xiγ]xix′i(X′X)−1). Отже, якби ви хотіли мати повністю параметричне рішення для завантаження, вам доведеться підходити до моделі гетерокедастичності разом із середньою моделлю. І якщо ви підозрюєте серійну чи іншу кореляцію, вам також доведеться відповідати моделі. (Дивіться, неапараметричний аромат завантажувального апарату без розповсюдження на даний момент вже майже пропав, оскільки ви замінили голос даних синтезованим голосом вашої моделі.)
Описаний вами метод працює навколо припущення про iid, створюючи абсолютно новий зразок. Найбільша проблема із завантажувальним пристроєм залежних даних полягає у створенні вибірки, яка б мала шаблони залежності, які були б достатньо близькими до тих, що є в початкових даних. За допомогою часових рядів ви можете використовувати блокові завантажувачі; за допомогою кластерних даних ви завантажуєте цілі кластери; з гетероскедастичною регресією вам доведеться з дикими завантажувальними системами (що є кращою ідеєю, ніж завантажувальна частина залишків, навіть якщо ви прилаштували до неї гетероскідастиктичну модель). У блоковому завантажувальному інструменті потрібно зробити освіту здогадуватися (або, іншими словами, мати вагомі підстави вважати), що віддалені частини часових рядів є приблизно незалежними, так що вся кореляційна структура захоплюється суміжними 5 або 10 спостереження, що утворюють блок. Отже, замість перекомпонування спостережень одне за одним, яке повністю ігнорує кореляційну структуру часових рядів, ви перекомпонуєте їх у блоки, сподіваючись, що це поважатиме структуру кореляції. Параметричний завантажувальний вантаж, про який ви посилалися, говорить: "Замість того, щоб поспілкуватися з даними та збирати нові ляльки зі шматочків старих, чому я просто не наклею на вас цілу ліпну Барбі? Я зрозумів, який вид Барбі, яка вам подобається, і я обіцяю, що я зроблю вас такою, яку вам теж сподобається ". Замість того, аби не поспішати з даними та збирати нові ляльки зі шматочків старих, чому б я просто не наклеїти на тебе всю ліпну Барбі? Я з'ясував, які тобі Барбі подобаються, і я обіцяю, що зроблю тебе такою, яку тобі теж хотілося ". Замість того, аби не поспішати з даними та збирати нові ляльки зі шматочків старих, чому б я просто не наклеїти на тебе всю ліпну Барбі? Я з'ясував, які тобі Барбі подобаються, і я обіцяю, що зроблю тебе такою, яку тобі теж хотілося ".
У випадку описаного вами параметричного завантажувального пристрою ви повинні бути майже чортово впевнені, що ваша модель HMM є майже ідеальною, інакше ваш параметричний завантажувальний пристрій може призвести до неправильних результатів (Barbies, які не можуть рухати руками). Подумайте над наведеним вище прикладом гетероскедастичної регресії; або подумайте про пристосування моделі AR (1) до даних AR (5): що б ви не робили з параметрично модельованими даними, вони не матимуть структури, яку мали раніше вихідні дані.
Редагувати : коли Садегд уточнив своє запитання, я також можу відповісти на це. Існує велика кількість різноманітних процедур завантаження, кожна з яких стосується конкретної привабливості в статистиці, розмірі вибірки, залежності або будь-якій проблемі з завантажувальною стрічкою. Наприклад, немає єдиного способу вирішити залежність. (Я працював із завантажувальними програмами для опитування, існує близько 8 різних процедур, хоча деякі з них мають переважно методологічний, а не практичний інтерес; а деякі явно поступаються тим, що вони застосовні лише у спеціальних, не легко узагальнених випадках.) загальне обговорення питань, з якими ви могли зіткнутися із завантажувальним завантаженням, див. Кенті, Девісон, Хінклі та Вентура (2006). Діагностика та засоби завантаження. Канадський журнал статистики, 34 (1), 5-27 .