Варіантний термін у зміщенно-дисперсійному розкладі лінійної регресії


9

У "Елементах статистичного навчання" вираз для розкладання дисперсійної дисперсії лінійної моделі дається як де - фактична цільова функція, - дисперсія випадкової помилки в моделі і - лінійний оцінювач .

Err(x0)=σϵ2+E[f(x0)Ef^(x0)]2+||h(x0)||2σϵ2,
f(x0)σϵ2y=f(x)+ϵf^(x)f(x)

Термін дисперсії мене тут хвилює, оскільки з рівняння випливає, що дисперсія буде нульовою, якщо цілі безшумні, тобтоАле для мене це не має сенсу, оскільки навіть при нульовому шумі я все ще можу отримати різні оцінювачі для різних навчальних наборів, що означає, що відхилення не є нульовим.σϵ2=0.f^(x0)

Наприклад, припустимо, що цільова функція є квадратичною, і дані тренувань містять дві точки, відібрані навмання з цієї квадратики; Очевидно, що я отримуватиму різну лінійну підгонку щоразу, коли відбираю дві точки випадковим чином із квадратичної цілі. Тоді як може бути дисперсія нульовою?f(x0)

Чи може хто-небудь допомогти мені з’ясувати, що не так у моєму розумінні розв язання зміщення дисперсії?

Відповіді:


6

Завжди є прихована тонкощі в трактуванні зміщення та дисперсії, і важливо приділяти їй ретельну увагу під час навчання. Якщо ви перечитаєте перші кілька слів ESL у розділі з цієї глави, автори віддячать йому певною повагою.

Обговорення оцінки коефіцієнта помилок може бути заплутаним, оскільки ми повинні чітко визначити, які величини є фіксованими, а які - випадковими

Тонкість - це те, що фіксується, а що - випадково .

У традиційних методах лінійної регресії дані трактуються як фіксовані та відомі. Якщо дотримуватися аргументів у ESL, ви виявите, що автори також роблять це припущення. У цих припущеннях, ваш приклад не входить в гру, як тільки залишився джерело випадковості від умовного розподілу даного . Якщо це допоможе, можливо, ви захочете замінити позначення у своєму розумі на .XyXErr(x0)Err(x0X)

Це не означає, що ваше занепокоєння є недійсним, це, безумовно, правда, що підбір навчальних даних дійсно вносить випадковість в наш модельний алгоритм, і старанний практикуючий спробує кількісно оцінити вплив цієї випадковості на їх результати. Насправді ви можете досить чітко бачити, що загальні практики завантаження та перехресної перевірки явно включають ці джерела випадковості у свої умовиводи.

Щоб отримати чіткий математичний вираз для зміщення та дисперсії лінійної моделі в контексті випадкового набору даних тренувань, потрібно було б зробити деякі припущення щодо структури випадковості в данихЦе буде включати деякі припущення про розподіл . Це можна зробити, але не стало частиною основних експозицій цих ідей.XX


Велике спасибі за те, що з'ясували той факт, що автори припустили, що є виправленим, тому очікування тут wrt не . Але ми можемо написати , що означає, що трактуючи X як випадковий, отримаємо . Ще буде нуль, якщо дорівнює нулю. У мене виникли подібні сумніви щодо цього рівняння, ви можете дізнатися моє виведення в цій публікації: stats.stackexchange.com/questions/307110/…XY|X(X,Y)E=EXEY|XVar(f^(x0))=EX[||h(x0)||2σϵ2]σϵ2
Гупта

Я думаю, що автори припускають, що модель вказана правильно, тобто включає всі і лише відповідні прогнози з правильними перетвореннями. Мені доведеться повернутися до книги, а не покладатися на свою пам’ять, щоб підтвердити.
Меттью Друрі

Якщо під "правильно вказаним" ви маєте на увазі, що цільова функція справді лінійна, то я розумію, що нульовий шум означатиме нульове зміщення. Але виходить, навіть якщо цільова функція не є лінійною, ми отримаємо абсолютно однаковий вираз для дисперсії.
Абхінав Гупта

1
Це правда, але в цьому випадку "правильно вказано" означало б, що ви використовували лінійну регресію для підгонки до моделі, що включає правильні прогнози. Отже, якщо справжнє відношення є квадратичним, то ви припускаєте, що ваша модель включає квадратичні терміни.
Меттью Друрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.