Чи можливо розкласти встановлені залишки на зміщення та дисперсію після встановлення лінійної моделі?


9

Я б хотів класифікувати точки даних як або потребують більш складної моделі, або не потребують більш складної моделі. Моє сучасне мислення полягає в тому, щоб підключити всі дані до простої лінійної моделі та дотримуватися розмір залишків, щоб зробити цю класифікацію. Потім я почитав про зміщення та вкладення дисперсії в помилку і зрозумів, що якщо я можу розрахувати зміщення безпосередньо, це може бути кращим показником, ніж робота з загальною помилкою (залишковою або стандартизованою залишковою).

Чи можливо оцінити зміщення безпосередньо за допомогою лінійної моделі? З тестовими даними або без них? Чи допоможе перехресне підтвердження тут?

Якщо ні, чи можна використати усереднений ансамбль завантаження лінійних моделей (я думаю, це називається мішковиною) для приблизного зміщення?


1
Може бути, вони еквівалентні (залишкові проти упередженості), оскільки відхилення в постійному?
kmace

1
Чи можете ви уточнити, що вам подобається в першій заяві вашої посади? У тому, що ви хочете класифікувати "точки даних" (індивідуальні спостереження?) Як "потрібні більш складні, або не потребують більш складної моделі". Мені не зовсім зрозуміло, що це означає (хоча це звучить як виявлення зовнішньої структури чи інша проблема придатності типу "придатність"), або як це стосується пізніших питань щодо оцінки упередженості.
Райан Сіммонс

Я маю на увазі те, що є підмножина моїх зразків, які мають різну цільову функцію f(х). Тож скажімо, що для більшості зразків справжня цільова функція така:f1(х)=3х1+2х2 а для меншості зразків цільовою функцією є: f2(х)=3х1+2х2+х1х2. Якщо я не допускаю термінів взаємодії у своїй моделі (мій набір гіпотез не містить їх), я повинен відповідати всім даним і бачити, що зразки з великою помилкою, ймовірно, мають цільову функціюf2
kmace

2
Як уже зазначав Райан, питання не дуже чітко визначене. Ваш коментар вказує на напрямок "доброго пристосування". Але перевернути це неможливо. Здається, ви маєте на увазі попередню концепцію, яка вводить в оману. Ви можете обчислити багато речей, якщо поєднати модель та деякі дані та визначити параметри моделі. Але з огляду на те, що ви завжди починаєте зі статистично обмеженого набору даних, немає правди, яку ви зможете розкрити, копаючи сильніше або за допомогою більшої кількості лопат. Жоден застосований вами метод не принесе правди, але це може означати, наскільки ви можете помилитися.
херувим

Відповіді:


12

Зазвичай ви не можете розкласти помилки (залишки) на компоненти зміщення та дисперсії. Проста причина полягає в тому, що ви, як правило, не знаєте справжньої функції. Нагадаємо, щобiас(f^(х))=Е[f^(х)-f(х)], і це f(х) це невідома річ, яку ви хочете оцінити.

Що з завантажувальним? Можливо оцінити упередженість оцінювача шляхом завантаження, але мова не йде про моделі мішків, і я не вірю, що існує спосіб використовувати завантажувальний інструмент для оцінки зміщення вf^(х), тому що завантажувальна програма все ще заснована на якомусь понятті Істини і не може, незважаючи на походження назви, створити щось із нічого.

Для уточнення: оцінка завантажувальної завантажуваності зміщення в оцінювачі θ^ є

бiас^Б=θ^()-θ^,

з θ^() будучи середнім показником вашої статистики, обчисленої на Б зразки завантажувальної програми . Цей процес наслідує вибірку з певної сукупності та обчислення кількості вашої зацікавленості. Це працює лише якщоθ^в принципі можна було б обчислити безпосередньо з населення. Оцінка завантажувальної завантажувальної здатності визначає, чи є упередженою оцінка плагіну, тобто просто те саме обчислення на вибірці, а не в сукупності.

Якщо ви просто хочете використовувати свої залишки для оцінки відповідності моделі, це цілком можливо. Якщо ви, як ви говорите в коментарях, хочете порівняти вкладені моделіf1(х)=3х1+2х2 і f2(х)=3х1+2х2+х1х2, ви можете зробити ANOVA, щоб перевірити, чи більша модель значно зменшує суму помилок у квадраті.


8

Одна з ситуацій, коли можна отримати оцінку декомпозиції - це якщо ви повторили точки (тобто мати більше, ніж одну відповідь на різні комбінації предикторів).

Це здебільшого обмежене ситуаціями, коли ви маєте контроль над незалежними змінними (наприклад, в експериментах) або де всі вони дискретні (коли не так багато x-комбінацій, і ви можете взяти достатньо великий зразок, який поєднує значення x отримати кілька балів).

Повторені бали дають безмодельний спосіб оцінки умовного середнього. У таких ситуаціях існує можливість декомпозиції залишкової суми квадратів на чисту помилку та відсутність придатності , але ви також маєте прямі (хоча обов'язково галасливі) оцінки зміщення при кожній комбінації значень x, на які у вас є кілька відповідей.


Я не думаю, що це спрацює. Розглянемо випадок, коли ви пропустили важливу пояснювальну змінну зі своєї моделі. Якщо ця пояснювальна змінна є ортогональною для всіх інших пояснювальних змінних, я вважаю, що її ефект (або відсутність) не може бути виявлений за допомогою цієї чи будь-якої іншої методології, запропонованої в інших відповідях.
Cagdas Ozgenc

2
@Cagdas Це не працює за будь-яких обставин; він виявляє упередженість від неправильно визначеної моделі форми, не обов'язково відсутньої провісників
Glen_b -Встановити Моніку

1

У дещо складнішій області фільтрування Кальмана люди іноді випробовують залишки (спостережувані вимірювання мінус прогнозовані вимірювання), щоб шукати зміни моделі чи умов несправності. Теоретично, якщо модель ідеальна, а шум гауссова, то залишки також повинні бути гауссовими з нульовим середнім значенням, а також відповідати прогнозованій матриці коваріації. Люди можуть перевірити наявність ненульового значення за допомогою послідовних тестів, як тест послідовних коефіцієнтів ймовірності (SPRT). Ваша ситуація інша, оскільки у вас є фіксований пакет даних, а не постійний потік нових даних. Але основна ідея перегляду вибіркового розподілу залишків все ж може застосовуватися.

Ви вказуєте, що процес, який ви моделюєте, може періодично змінюватися. Потім, щоб зробити більше даних, які ви маєте, вам, ймовірно, потрібно буде визначити інші фактори, що викликають цю зміну. Розглянемо 2 можливості: (1) можливо, вам потрібні локальні моделі, а не одна глобальна модель, наприклад, тому що існують суворі нелінійності лише в деяких діючих регіонах, або (2), можливо, процес змінюється з часом.

Якщо це фізична система, а ваші зразки не розбираються величезні часові проміжки, можливо, ці зміни процесу зберігаються протягом значних часових періодів. Тобто, справжні параметри моделі можуть періодично змінюватися, зберігаючись протягом певного періоду часу. Якщо ваші дані мають печатку часу, ви можете переглянути залишки з часом. Наприклад, припустимо, що ви підходили y = Ax + b, використовуючи всі свої дані, знаходячи A і b. Потім поверніться назад і випробуйте залишкову послідовність r [k] = y [k] - Ax [k] - b, де k - індекс, відповідний разів у послідовному порядку. Шукайте шаблони в часі, наприклад, періоди, коли зведена статистика на зразок || r [k] || деякий час залишається вище норми. Послідовні тести були б найбільш чутливими до виявлення стійких помилок упереджень, таких як SPRT або навіть CUSUM для окремих векторних індексів.


1

Відповідь - ні , оскільки зміщення та дисперсія - це атрибути параметрів моделі, а не дані, що використовуються для їх оцінки. Є часткове виняток із цього твердження, яке стосується зміщення та різниці (га!) Через прогностичний простір; докладніше про це нижче. Зауважте, що це абсолютно не має нічого спільного з знанням деякої "справжньої" функції, що стосується прогнозів та змінних відповідей.

Розглянемо оцінку β в лінійній регресії, β^=(ХТХ)-1ХТY, де Х є N×П матриця предикторів, β^ є П×1 вектор оцінок параметрів та Y є N×1вектор відповідей. Припустимо задля аргументу, що у нас є нескінченна сукупність даних, з яких можна черпати (до речі, це не зовсім смішно - якщо ми активно записували дані з якогось фізичного процесу, ми могли б швидко записувати дані прогнозування та відповіді. , таким чином практично задовольняючи це припущення). Тож ми малюємоN спостереження, кожне з яких складається з одного значення відповіді та значення для кожного з них Ппровісники Потім ми обчислюємо нашу оцінкуβ^і записувати значення. Давайте тоді візьмемо весь цей процес і повторимо йогоNiтеr разів, щоразу роблячи Nнезалежні розіграші від населення. Ми накопичимоNiтеr кошторисів β^над яким ми можемо обчислити дисперсію кожного елемента у векторі параметрів. Зауважимо, що дисперсія оцінок цих параметрів обернено пропорційнаN і пропорційний П, припускаючи ортогональність предикторів.

Зміщення кожного параметра можна оцінити аналогічно. Хоча ми можемо не мати доступу до "справжньої" функції, припустимо, ми можемо зробити довільно велику кількість нічиїх для населення, щоб обчислитиβ^бест, який буде виконувати функцію проксі-сервера для значення "true". Будемо вважати, що це неупереджена оцінка (звичайні найменші квадрати) і що кількість використаних спостережень була достатньо великою, щоб відхилення цієї оцінки було незначним. Для кожного зП параметри, ми обчислюємо β^бестj-β^j, де j варіюється від 1 до Niтеr. Середнє значення цих різниць приймаємо за оцінку зміщення у відповідному параметрі.

Існують відповідні способи пов’язання зміщення та відмінності з самими даними, але вони трохи складніші. Як бачите, зміщення та дисперсію можна оцінити для лінійних моделей, але вам знадобиться зовсім небагато даних про затримку. Більш підступною проблемою є той факт, що як тільки ви почнете працювати з фіксованим набором даних, ваші аналізи будуть забруднені вашою особистою дисперсією, оскільки ви вже почали блукати по саду розгалужуючих шляхів, і немає ніякого способу знати, як це буде повторюватись поза вибіркою (якщо тільки ви не придумали єдину модель і не запустили цей аналіз і погодилися залишити його в спокої після цього).

Що стосується питання самих точок даних, то найбільш правильна (і тривіальна) відповідь полягає в тому, що якщо є якась різниця між Y і Y^, вам потрібна більш складна модель (якщо припустити, що ви могли правильно визначити всі відповідні прогнози; ви не можете). Не вдаючись до нудного трактату про філософський характер "помилки", суть полягає в тому, що щось сталося, що змусило вашу модель пропустити свій слід. Проблема полягає в тому, що додавання складності збільшує дисперсію, що, ймовірно, призведе до пропуску позначки в інших точках даних. Отже, турбуватися про віднесення помилок на рівні окремих точок даних, ймовірно, не буде плідною справою. Виняток (згаданий у першому абзаці) випливає з того, що зміщення та дисперсія - це фактично функції самих передбачувачів, тому у вас може бути велике зміщення в одній частині простору передбачувача та менші зміщення в іншій (те саме для варіації). Ви можете оцінити це шляхом обчисленняY-Y^ багато разів (де Y^=Хβ^ і β^ не оцінювались на основі Y) та побудова графіку його зміщення (середнього) та дисперсії як функції значень Х. Однак я думаю, що це досить спеціалізоване питання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.