Чому лінійна регресія використовує функцію витрат, засновану на вертикальній відстані між гіпотезою та точкою вхідних даних?


14

Скажімо, у нас є вхідні (прогнозові) та вихідні (відгукові) точки даних A, B, C, D, E, і ми хочемо встановити рядок через точки. Це проста проблема, щоб проілюструвати це питання, але може бути поширена і на більш високі розміри.

Постановка проблеми

enter image description here

Поточна найкраща відповідність або гіпотеза представлена чорною лінією вище. Синя стрілка ( ) представляє вертикальну відстань між точкою даних та поточним найкращим підходом, малюючи вертикальну лінію від точки, поки вона не перетинає лінію.

Зелена стрілка ( ) намальована таким чином, що вона перпендикулярна поточній гіпотезі в точці перетину і, таким чином, являє найменшу відстань між точкою даних та поточною гіпотезою. Для точок A і B лінія, проведена такою, що вона вертикальна до поточного найкращого здогаду і схожа на лінію, вертикальну до осі x. Для цих двох точок сині та зелені лінії перетинаються, але вони не відповідають точкам C, D та E.

Принцип найменших квадратів визначає функцію витрат для лінійної регресії шляхом нанесення вертикальної лінії через точки даних (A, B, C, D або E) до оціночної гіпотези ( ) у будь-якому даному навчальному циклі і представлений

CostFunction=i=1N(yihθ(xi))2

Тут представляє точки даних, а h θ ( x i )(xi,yi)hθ(xi) являє собою найкраще пристосування.

Мінімальна відстань між точкою (A, B, C, D або E) представлена ​​перпендикулярною лінією, проведеною від цієї точки до поточної найкращої здогадки (зелені стрілки).

Мета найменшої квадратної функції полягає у визначенні цільової функції, яка при мінімізації спричинятиме найменше відстань між гіпотезою та всіма точками разом, але не обов'язково мінімізує відстань між гіпотезою та єдиною точкою введення.

** Питання **

Чому ми не визначимо функцію витрат для лінійної регресії як найменшу відстань між точкою вхідних даних та гіпотезою (визначеною лінією, перпендикулярною гіпотезі), що проходить через вхідну точку даних, як задано ( )?


5
Проста лінійна регресія передбачає відсутність помилок у значеннях x-координат спостережень (наприклад, тому що вони є експериментальними маніпуляціями). Якщо на осі x є помилки, їх можна врахувати, зводячи до мінімуму функцію витрат, аналогічну запропонованій вами; для цього потрібно встановити співвідношення між дисперсією помилок на осі x і y. Якщо коефіцієнт , це дорівнює мінімізації перпендикулярної відстані між точками та прямою (ортогональна регресія). Якщо відношення 1=11 то воно називається регресією Демінга
маттео

Дивіться цю публікацію на PCA: cerebralmastication.com/2010/09/…
Джеймс

Відповіді:


13

Коли у вас є шум як залежної змінної (вертикальні помилки), так і незалежної змінної (горизонтальні помилки), цільову функцію з найменшими квадратами можна змінити, щоб включити ці горизонтальні помилки. Проблема, як зважувати ці два типи помилок. Таке зважування зазвичай залежить від співвідношення дисперсій двох помилок:

  1. Якщо дисперсія вертикальної помилки надзвичайно велика щодо дисперсії горизонтальної помилки, OLS є правильним.
  2. Якщо дисперсія горизонтальної помилки надзвичайно велика щодо дисперсії вертикальної помилки, обернені найменші квадрати (в яких регресує наx а обернена оцінка коефіцієнта для y використовується як оцінка β ).yyβ
  3. Якщо відношення дисперсії вертикальної помилки до дисперсії горизонтальної помилки дорівнює відношенню дисперсій залежної та незалежної змінних, ми маємо випадок "діагональної" регресії, в якій послідовна оцінка виявляється бути середньою геометричною оцінкою OLS та оберненими найменшими квадратами.
  4. Якщо відношення цих відхилень помилок дорівнює одиниці, то маємо випадок «ортогональної» регресії, в якій сума квадратичних помилок, виміряних по лінії, перпендикулярній лінії оцінювання, зведена до мінімуму. Це ви мали на увазі.

На практиці великим недоліком цієї процедури є те, що співвідношення відхилень помилок зазвичай не відоме і зазвичай не може бути оцінене, тому шлях вперед не зрозумілий.


Я спробував редагувати, щоб змінити "залежне" на "незалежне" в першому реченні, але правки повинні містити 6 символів. Можливо, оновіть відповідь, щоб виправити помилку друку?
Ryan Stout

@RyanStout Дякую, і готово. Я думаю, що вставлення пробілів дозволить вам обійти це.
Мастеров Димитрій Васильович

Тепер я трохи розгублений: чи не вертикальні помилки - це помилки залежної змінної (y) та горизонтальні помилки в незалежній змінній (x)?
Ryan Stout

@RyanStout Я зіпсував це знову
Димитрій Вікторович Мастеров

9

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)

Це хороший момент. Я думав, як взагалі йти про розрахунок функції витрат.
alpha_989

Я не обов'язково впевнений, як оцінити відстань між точкою та нелінійною площиною / поверхнею, але для оцінки відстані між точкою та лінійною поверхнею / площиною нам може не знадобитися вкладене мінімізація: mathinsight.org/distance_point_plane
alpha_989

По-друге, коли ми використовуємо регресію, наша мета - оцінити ваги, щоб знайти найкраще пристосування. Як я розумію, під час власних обчислень ми рідко оцінюємо функцію витрат, але якусь похідну від функції витрат?
alpha_989

1
@whuber. Я бачу. Після того, як ми встановимо ці значення для цих двох термінів, я погоджуюся, що проблеми, що вирішуються, різні (є чи не існує можливості помилки в x). Я не думаю, що ви отримаєте широку згоду з обізнаними особами щодо значення цих термінів, але це побічна сторона.
стохастичний

1
@Stochastic Я погоджуюсь, що може виникнути нечіткість щодо поняття "прилягання кривої", але поняття регресії, на яке я звертаюсь, з'являється у працях кращих органів.
whuber

2

Попрощена версія полягає в тому, що X вважається відсутністю помилок. Отже, якщо ви, наприклад, подивитесь на точку Е на своїй ділянці, передбачається, що її координата X є точно точною. Як правило, це той випадок, коли ми можемо керувати X, іншими словами, коли ми можемо встановити його на певне значення. У цьому випадку єдина помилка, яка може існувати, - це напрямок Y, і тому функція помилки / вартості включає лише напрямок Y.

Коли це не так, коли ми не контролюємо X і X може мати помилки, люди включають напрямок X у функцію помилки у чомусь, що називається регресією типу II або моделі II, та його варіантах. Це може бути складним, якщо X і Y мають різні масштаби, тож вам доведеться думати про нормалізацію та інше.


1

При ризику стати прозаїчною причиною функції помилки є те, що стандартна інтерпретація полягає в тому, що задається х і намагається найкраще описати (або передбачити) компонент y. Отже, помилки в «х» немає. Наприклад, ви можете спробувати зрозуміти (або передбачити) ціну закриття акції завтра, виходячи із сьогоднішньої ціни закриття. Так само можна було б спробувати зрозуміти середню температуру завтра з точки зору середньої сьогоднішньої температури. Очевидно, що ці приклади простодушні, але це ідея. Між іншим, більшість людей не усвідомлює, але я думаю, що з ваших прикладів зрозуміло, що якщо один регресує y проти x, то лінія регресії не повинна мати особливої ​​схожості з регресією x проти y. Ортогональна регресія - це термін регресії, де намагається знайти лінію, яка мінімізує відстань точок від прямої. Наприклад, якщо хтось намагався зрозуміти взаємозв'язок між ціною акцій IBM і ціною акцій AAPL, це був би відповідний метод.


1

Ви маєте рацію, що при встановленні лінії через точки ортогональна відстань є найбільш природною функцією втрат, яку можна застосувати до довільних прямих (зауважте, що y-відстань стає безглуздою для прямих, перпендикулярних осі x). Ця проблема відома під низкою найменувань, наприклад, "ортогональна регресія" або (найбільш вживаний термін, AFAIK) "Аналіз основних компонентів" (PCA). Для обговорення цієї проблеми у довільних розмірах див

Шпат: "Ортогональні найменші квадрати, що відповідають лінійним многообразиям." Numerische Mathematik 48, pp. 441–445, 1986

Як вже зазначив @aginensky, ідея лінійної регресії полягає не в тому, щоб відповідати лінії через точки, а передбачити y-значення для заданих значень x. Ось чому використовується лише відстань у y, яка є точністю передбачення.

Переформулювання проблеми підгонки кривої х(т) через точки pi, i=1N як проблема передбачення ускладнює справи, тому що прогноктор тце невідомо , і навіть в деякій мірі довільно. Для кривих, крім прямих, це все ще є проблемою, яка підлягає активному дослідженню. Один з можливих (неповних) підходів описаний у наступній статті, яка є неповною, оскільки не забезпечує рішення для пошуку початкової здогадки для кривої, а лише як ітеративно вдосконалити таку початкову здогадку:

Ванг, Поттманн, Лю: "Встановлення кривих В-сплайна для точок хмар шляхом мінімізації відстані в квадраті на основі кривизни". Операції ACM з графікою 25.2, с. 214-238, 2006

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.