Чи є графічне зображення компромісу дисперсії зміщення в лінійній регресії?


18

Я страждаю від затемнення. Мені було подано наступне зображення, щоб продемонструвати компроміс-відхилення в контексті лінійної регресії:

Поліноміальна модель для даних, простий і складний випадок

Я можу бачити, що жодна з двох моделей не підходить. "Прості" не оцінюють складність XY-відношення, а "комплекс" - це просто надмірно, в основному вивчаючи дані тренувань напам'ять. Однак я цілком не бачу упередженості та розбіжності у цих двох картинах. Може хтось мені це покаже?

PS: Відповідь на інтуїтивне пояснення компромісного відхилення? мені не дуже допомогли, я був би радий, якби хтось міг запропонувати інший підхід, виходячи із наведеної картини.

Відповіді:


11

Зменшення дисперсії зміщення базується на розбитті середньої квадратичної помилки:

MSE(y^)=E[yy^]2=E[yE[y^]]2+E[y^E[y^]]2

Один із способів побачити торгівлю дисперсії зміщення - це те, які властивості набору даних використовуються у відповідності моделі. Для простої моделі, якщо припустити, що регресія OLS була використана для встановлення прямої лінії, то для розміщення прямої лінії використовуються лише 4 числа:

  1. Коваріація вибірки між x і y
  2. Дисперсія вибірки x
  3. Середнє значення вибірки x
  4. Середнє значення вибірки y

Отже, будь-який графік, який веде до тих самих 4 чисел вище, призведе до точно такої самої підходящої лінії (10 балів, 100 балів, 100000000 балів). Тож у певному сенсі він нечутливий до конкретної вибірки, що спостерігається. Це означає, що він буде "упередженим", оскільки ефективно ігнорує частину даних. Якщо ця ігнорована частина даних виявилася важливою, то прогнози будуть постійно помилятися. Це ви побачите, якщо порівнювати пристосовану лінію, використовуючи всі дані, з пристосованими лініями, отриманими після видалення однієї точки даних. Вони будуть, як правило, досить стабільними.

Тепер друга модель використовує кожен фрагмент даних, які він може отримати, і відповідає максимально наближеним даним. Отже, точне положення кожного пункту даних має значення, і тому ви не можете перенести дані тренувань навколо, не змінюючи пристосовану модель, як можна для OLS. Таким чином, модель дуже чутлива до конкретного навчального набору, який ви маєте. Встановлена ​​модель буде сильно відрізнятися, якщо ви будете робити один і той же графік точки в одному крапці.


Зміщення і дисперсія параметрів моделі оцінки & thetas або передбачене вихідне значення у ? Деякі люди кажуть мені, що терміни зміщення та дисперсії можна використовувати лише для опису параметру моделі θθ^y^θx,y

Я не думаю , що це правда, я думаю , ви говорите про пророкування ( у ) проти оцінки (y^θ^

θ^bias(θ^)=θE[θ^]θf(x)=a+bx+cx2h(x)=d+ex(a,b,c)(d,e)bias(d)bias(e)

@loganecolss - це не парадокс, оскільки поняття упередженості існує лише "локально" - тобто стосовно даної статистичної моделі. "Парадокс" існує для людини, яка: 1) знає "справжню модель", і 2) вирішує не використовувати її. Ця людина - ідіот у моїй книзі. Якщо ви не знаєте "справжню модель", тоді немає проблеми - якщо ви не знайшли гарну модель і не вирішили її використовувати ...
ймовірністьлогічний

1
f(x,z1,z2,,zK)ziK

5

Підсумовуючи те, що, на мою думку, я знаю нематематичним чином:

  • упередженість - ваш прогноз буде невірним, коли ви використовуєте просту модель, і це станеться в будь-якому наборі даних, на якому ви використовуєте модель. Очікується, що ваш прогноз буде неправильним
  • дисперсія - якщо ви будете використовувати складну модель, ви отримаєте дуже різні прогнози на основі того, який би набір даних ви не використовуєте

На цій сторінці є досить гарне пояснення з діаграмами, схожими на те, що ви розмістили. (Я пропустив верхню частину , хоча, тільки що прочитала частину з діаграмами) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htm (показує наведення курсору миші іншого прикладу , в разі , якщо ви не зробили зауваження!)


Це цікава сторінка та хороші ілюстрації, але я вважаю їх більш заплутаними, ніж корисними, оскільки (a) "упередженість" та "дисперсія", що обговорюються в контексті регресії, не виглядають як упередженість та відхилення, як визначено на початку цього сторінка та (б) зовсім не зрозуміло, що зроблені твердження (про те, як зміщення та відхилення змінюються за кількістю параметрів) є правильними.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.