Інтуїтивне пояснення компромісного відхилення?


46

Я шукаю інтуїтивно зрозуміле пояснення зміщення дисперсії, як загалом, так і конкретно в контексті лінійної регресії.


1
Тут є ще одна дискусія, що стосується цих тем: що-проблему-робити-усадку-методи-вирішувати .
gung - Відновіть Моніку

Відповіді:


24

Уявіть деякі двовимірні дані - скажімо, висота проти ваги для студентів у вищій школі - побудована на парі осей.

Тепер припустимо, що ви підходите до нього прямою лінією. Цей рядок, який, звичайно, являє собою набір прогнозованих значень, має нульову статистичну дисперсію. Але ухил (мабуть) високий - тобто він не дуже добре підходить до даних.

Далі, припустимо, ви моделюєте дані за допомогою поліноміального сплайна високого ступеня. Вас не влаштовує пристосування, тому ви збільшуєте ступінь полінома до тих пір, поки пристосування не покращиться (і це, власне, довільна точність). Зараз у вас ситуація зі зміщенням, яка прагне до нуля, але дисперсія дуже велика.

Зауважте, що компромісія з відхиленням зміщення не описує пропорційне співвідношення - тобто, якщо ви плануєте зміщення проти дисперсії, ви не обов'язково бачите пряму лінію через початок зі схилом -1. У наведеному вище прикладі шліфування полінома зменшення ступеня майже напевно збільшує дисперсію набагато менше, ніж зменшує зміщення.

Компроміс відхилення відхилення також вбудований у функцію помилки суми квадратів. Нижче я переписав (але не змінив) звичайну форму цього рівняння, щоб підкреслити це:

alt текст

Праворуч є три терміни: перший з них - це просто непридатна помилка (дисперсія в самих даних); це поза нашим контролем, тому ігноруйте це. Другий член являє собою квадрат зміщення ; і третій є дисперсією . Неважко помітити, що як один піднімається, так і другий спадає - вони не можуть обидва змінюватися в одному напрямку. Іншим способом, ви можете подумати про регресію найменших квадратів як (неявно) знаходження оптимальної комбінації зміщення та дисперсії серед кандидатських моделей.


8
yxffσ2f(x)x
whuber

штраф рівняння (маленькі грецькі літери в чисельнику не є "х", а "каппа"). Спробуйте: почніть ж / формулу для SSE, якою вам подобається, і лише через кілька кроків ви перейдете до вищевказаної.
дог

Що таке "каппа" в цьому контексті?

Я ноб. Чи можете ви допомогти мені інтуїтивно зрозуміти, чому в першій частині вашої відповіді ви говорите, що прилягання шпонки полінома призводить до збільшення дисперсії?
Rohit Banga

3
Простіший приклад: y = a + b x + e (rror). Якщо я підхожу до цього константу, зміщення = b x і дисперсія = var (e) + дисперсія моєї оцінки приблизно істинного значення. Якщо додати в модель термін b * x, зміщення скрізь дорівнює нулю, але тепер дисперсія включає наслідки помилки моєї оцінки b, а також a і дисперсії e, тому буде вище, ніж у першій справа. Таким чином, існує компроміс між зменшеним ухилом, отриманим додаванням доданих термінів до моделі, яка повинна бути там, і збільшенням дисперсії, отриманою за рахунок оцінки цих термінів і, можливо, додавання невідповідних.
jbowman

25

Скажімо, ви розглядаєте катастрофічне медичне страхування, і існує 1% ймовірність захворіти, що коштуватиме 1 мільйон доларів. Очікувана вартість захворіти таким чином становить 10 000 доларів. Страхова компанія, бажаючи отримати прибуток, стягне з вас 15 000 за поліс.

Купівля полісу приносить очікувану вартість у 15 000, що має відхилення в 0, але можна вважати упередженим, оскільки це на 5000 більше, ніж реальна очікувана вартість захворіти.

Якщо не купувати поліс, очікувана вартість становить 10 000, що є неупередженим, оскільки вона дорівнює справжній очікуваній вартості захворіти, але має дуже велику дисперсію. Тут можливий компроміс між підходом, який постійно неправильний, але ніколи не дуже, і підходом, який в середньому є правильним, але є більш змінним.


15

Я настійно рекомендую ознайомитись з курсом Caltech ML від Yaser Abu-Mostafa, Лекція 8 (Компромісна зміна варіацій) . Ось контури:

Скажіть, ви намагаєтеся вивчити функцію синуса:

alt текст

Наш навчальний набір складається лише з 2 даних.

h0(x)=bh1(x)=ax+b

h0(x)=b

введіть тут опис зображення

h1(x)=ax+b

введіть тут опис зображення

h0h1h0h1h0h1h0h1

введіть тут опис зображення


Якщо ви подивитесь на еволюцію функції витрат щодо розміру навчального набору (цифри від Coursera - Machine Learning by Andrew Ng ):

Високий ухил:

введіть тут опис зображення

Висока дисперсія:

введіть тут опис зображення


h1Di(a^i,b^i)x0(a^i,b^i)y^0y^0(a^,b^)xy^

ваша синусова функція перевернута XP
Дієго

1
Це заплутане значення b / c, яке, здається, посилається на сюжети, які там відсутні (можливо, "alt text" s).
gung - Відновіть Моніку

@gung виправлено, дякую, що вказав на це. ImageShack закриває безкоштовні акаунти та видалення зображень . І Stack Exchange не вжив відповідних заходів. Пов’язано: заборонити зображення ImageShack, оскільки вони повторно використовують старі URL-адреси для реклами (будь ласка, підтримайте заборону); Який найпростіший спосіб завантажити всі мої запитання та відповіді на всі сайти Stack Exchange? (Я радий, що у мене була резервна копія; будь ласка, натисніть StackExchange, щоб надати кращі інструменти для резервного копіювання вмісту)
Franck Dernoncourt

Дякуємо, що поділилися посиланням на відео. Це добре пояснює, що я шукав, тепер я можу зрозуміти вашу відповідь
Espoir Murhabazi

13

Я зазвичай думаю про ці дві картини:

По-перше, значення зміщення та дисперсії:

Розуміння упередженості та відмінності

Уявіть, що центр області очей червоних биків - це справжнє середнє значення нашої цільової випадкової величини, яку ми намагаємось передбачити, а червона область вказує на дисперсійне поширення цієї змінної. Кожен раз, коли ми беремо вибірковий набір спостережень і прогнозуємо значення цієї змінної, ми побудуємо синю крапку. Ми правильно передбачили, якщо синя крапка потрапить всередину червоної області. Іншими словами, упередженість є мірою того, наскільки далеко від прогнозованих синіх крапок від справжньої червоної області, інтуїтивно це помилка. Різниця полягає в тому, наскільки розрізнені наші прогнози.

Зараз компроміс тут:

Компроміс між зміщенням та варіацією

коли ми намагаємось зменшити один з цього параметра (зсув або дисперсію), інший параметр збільшується. Але десь посеред між не надто меншими упередженнями і не надто меншими дисперсіями, які створюють найменшу помилку передбачення в довгостроковій перспективі.

Ці фотографії зроблені з http://scott.fortmann-roe.com/docs/BiasVariance.html . Ознайомтеся з поясненнями за допомогою лінійної регресії та K-найближчих сусідів для отримання більш детальної інформації


перша цифра більше схожа на точність та точність?
KingBoomie

0

Ось дуже просте пояснення. Уявіть, що у вас є графік розкидання точок {x_i, y_i}, які були вибірені з деякого розподілу. Ви хочете підключити до неї якусь модель. Можна вибрати лінійну криву або поліноміальну криву вищого порядку або щось інше. Що б ви не вибрали, буде застосовано для прогнозування нових значень y для набору {x_i} точок. Назвемо ці набори перевірки. Припустимо, що ви також знаєте їх справжні {y_i} значення, і ми використовуємо їх лише для тестування моделі.

Прогнозовані значення будуть відрізнятися від реальних. Ми можемо виміряти властивості їх відмінностей. Розглянемо лише одну точку перевірки. Назвіть це x_v та оберіть якусь модель. Давайте зробимо набір прогнозів для цієї точки перевірки, використовуючи скажімо 100 різних випадкових вибірок для навчання моделі. Таким чином, ми отримаємо значення у 100 років. Різниця між середнім значенням цих значень та справжнім значенням називається зміщенням. Варіантність розподілу - це дисперсія.

Залежно від того, яку модель ми використовуємо, ми можемо торгувати між цими двома. Розглянемо дві крайності. Модель з найнижчою дисперсією - це модель, де повністю ігноруються дані. Скажімо, ми просто прогнозуємо 42 для кожного x. Ця модель має нульову дисперсію для різних навчальних зразків у кожній точці. Однак він чітко упереджений. Зміщення просто 42-у_в.

Однією іншою крайністю ми можемо вибрати модель, яка максимально переобладнає. Наприклад, встановити поліном 100 градусів до 100 точок даних. Або ж лінійно інтерполювати між найближчими сусідами. Це має низький ухил. Чому? Тому що для будь-якої випадкової вибірки сусідні точки до x_v будуть значно коливатися, але вони будуть інтерполювати вище приблизно так само часто, як і інтерполяція низька. Таким чином, в середньому по всіх зразках вони скасуються, і тому зміщення буде дуже низьким, якщо справжня крива не має великої різниці частот.

Окрім того, ці моделі нарядів мають великі розбіжності у випадкових зразках, оскільки вони не згладжують дані. Модель інтерполяції просто використовує дві точки даних для прогнозування проміжного, і тому вони створюють багато шуму.

Зауважте, що зміщення вимірюється в одній точці. Не має значення, позитивний він чи негативний. Це як і раніше зміщення в будь-якому даному x. Середні ухили серед усіх значень x, ймовірно, будуть невеликими, але це не робить його неупередженим.

Ще один приклад. Скажімо, ви намагаєтесь на деякий час спрогнозувати температуру у багатьох місцях у США. Припустимо, у вас є 10 000 навчальних балів. Знову ж таки, ви можете отримати модель з низькою дисперсією, зробивши щось просте, просто повернувши середнє. Але це буде упереджено низько в штаті Флорида і упереджене високо в штаті Аляска. Вам буде краще, якби ви використовували середнє значення для кожного штату. Але навіть тоді ви будете упереджено високими взимку і низькими влітку. Отже, тепер ви включаєте місяць у свою модель. Але ти все ще будеш упереджений низько в долині смерті і високо на горі Шаста. Отже, тепер ви переходите до рівня деталізації поштового індексу. Але з часом, якщо ви продовжуєте робити це, щоб зменшити упередженість, у вас не вистачає точок даних. Можливо, для даного поштового індексу та місяця у вас є лише одна точка даних. Зрозуміло, що це створить багато дисперсій. Отже, ви бачите, що складніша модель зменшує зміщення за рахунок дисперсії.

Отже, ви бачите, що тут є торгівля. Більш плавні моделі мають меншу відмінність у навчальних зразках, але також не фіксують реальної форми кривої. Моделі, які є менш плавними, можуть краще зафіксувати криву, але за рахунок того, що вони будуть шумнішими. Десь посередині стоїть модель Goldilocks, яка робить прийнятний компроміс між ними.


0

Уявіть, якби завдання для побудови моделі могли бути повторені для різних наборів даних тренінгу, тобто ми кожен раз готуємо нову модель для різних наборів даних (показано на малюнку нижче). Якщо ми зафіксуємо точку даних тесту та оцінимо прогноз моделі на цій точці, прогнози будуть різними через випадковість у процесі генерації моделі. З наведеного нижче рисунку для цієї ситуації P_1, P_2,…, P_n - це різні прогнози та випадкові також. введіть тут опис зображення

Нехай середній показник буде -

введіть тут опис зображення

Помилка зміщення пов'язана з різницею між середнім значенням цих прогнозів і правильним значенням. введіть тут опис зображення

Помилка варіації - це не що інше, як розбіжність у цих прогнозах, тобто наскільки різноманітні ці прогнози. введіть тут опис зображення

Це інтуїція за помилкою зміщення та дисперсії.

Для детального пояснення відвідайте правильну інтуїцію за зміною відхилення відхилення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.