Чи може бути кілька локальних оптимальних рішень, коли ми вирішуємо лінійну регресію?


19

Я читаю це твердження на одному старому істинному / хибному іспиті:

Ми можемо отримати декілька локальних оптимальних рішень, якщо вирішити задачу лінійної регресії шляхом мінімізації суми помилок у квадраті за допомогою градієнтного спуску.

Рішення: помилкове

Моє запитання, яка частина цього питання неправильна? Чому це твердження хибне?

Відповіді:


8

Це питання цікаве, оскільки воно розкриває деякі зв'язки між теорією оптимізації, методами оптимізації та статистичними методами, які повинен розуміти будь-який здатний користувач статистики. Хоча ці зв’язки прості і легко засвоюються, вони тонкі і часто не помічаються.

Узагальнюючи деякі ідеї з коментарів до інших відповідей, я хотів би зазначити, що існує принаймні два способи, завдяки яким «лінійна регресія» може дати унікальні рішення - не просто теоретично, а на практиці.

Відсутність ідентифікації

Перший - це коли модель не вдається ідентифікувати. Це створює опуклу, але не строго випуклу цільову функцію, яка має декілька рішень.

Розглянемо, наприклад, регресує проти і (з перехопленням) для даних . Одне рішення - . Інша - . Щоб побачити, що повинно бути кілька рішень, параметризуйте модель з трьома реальними параметрами та помилкою у форміх Y ( х , у , г ) ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) г = 1 + у г = 1 - х ( λ , μ , ν ) εzxy(x,y,z)(1,1,0),(2,2,1),(3,3,2)z^=1+yz^=1x(λ,μ,ν)ε

z=1+μ+(λ+ν1)x+(λν)y+ε.

Сума квадратів залишків спрощується до

SSR=3μ2+24μν+56ν2.

(Це обмежувальний випадок об'єктивних функцій, які виникають на практиці, наприклад, розглянутий у " Чи може емпіричний гессіан М-оцінювача бути невизначеним?" , Де ви можете прочитати детальний аналіз та переглянути графіки функції.)

Оскільки коефіцієнти квадратів ( і ) позитивні, а визначник є позитивним, це квадратична позитивно-напіввизначена форма у . Він зведений до мінімуму, коли , але може мати будь-яке значення. Оскільки цільова функція ім'я не залежить від , а також її градієнт (або будь-які інші похідні). Тому будь-який алгоритм спуску градієнта - якщо він не вносить довільних змін напряму - встановить значення рішення таким, яким би було початкове значення.56 3 × 56 - ( 24 / 2 ) 2 = 24 ( μ , ν , А , ) μ = ν = 0 А , БСО А , А ,3563×56(24/2)2=24(μ,ν,λ)μ=ν=0λSSRλλ

Навіть коли градієнтний спуск не використовується, рішення може змінюватися. В R, наприклад, є два простих, еквівалентні способи вказати цю модель: як z ~ x + yабо z ~ y + x. Перший дає але другий дає . г =1+уz^=1xz^=1+y

> x <- 1:3
> y <- -x
> z <- y+1

> lm(z ~ x + y)
Coefficients:
(Intercept)            x            y  
          1           -1           NA  


> lm(z ~ y + x)
Coefficients:
(Intercept)            y            x  
          1            1           NA 

( NAЗначення слід інтерпретувати як нулі, але з попередженням про існування декількох рішень. Попередження було можливим через попередній аналіз, виконаний таким чином, Rщо не залежить від його способу рішення. Метод градієнтного спуску, ймовірно, не виявить можливості численних рішень, хоча хороший би попередив вас про деяку невпевненість у тому, що він досяг оптимального).

Обмеження параметрів

Сувора опуклість гарантує унікальний глобальний оптимум, якщо область параметрів опукла. Обмеження параметрів може створювати невипуклі домени, що призводить до безлічі глобальних рішень.

Дуже простий приклад наводить проблема оцінки "середнього" для даних з обмеженням . Це моделює ситуацію, яка є якоюсь протилежною методам регуляризації, таких як Регрес Рейда, Лассо або Еластична сітка: наполягає на тому, щоб параметр моделі не став занадто малим. (На цьому веб-сайті з'явилися різноманітні запитання, як вирішити проблеми з регресією з такими обмеженнями параметрів, показавши, що вони виникають на практиці.)- 1 , 1 | мк | 1 / 2μ1,1|μ|1/2

У цьому прикладі є два найменші квадратні рішення, обидва однаково хороші. Вони знаходять шляхом мінімізації урахуванням обмеження . Два рішення - . Більше одного рішення може виникнути, оскільки обмеження параметра робить домен невипуклим:(1μ)2+(1μ)2|μ|1/2μ=±1/2μ(,1/2][1/2,)

Ділянка суми квадратів проти $ \ mu $

Парабола - графік (строго) опуклої функції. Товста червона частина - це частина, обмежена домену : вона має дві найнижчі точки в , де сума квадратів становить . Решта параболи (показана пунктирною) обмеженням видаляється, тим самим виключаючи її унікальний мінімум з розгляду.μμ=±1/25/2

Спосіб градієнтного спуску, якщо він не бажає робити великих стрибків, швидше за все, знайде "унікальне" рішення коли починається з позитивного значення, інакше він знайде "унікальне" рішення починаючи з від’ємного значення.μ=1/2μ=1/2

Така ж ситуація може статися і з більшими наборами даних і з більш високими розмірами (тобто з більшою кількістю параметрів регресії).


1
Дуже простий приклад опуклої функції, яка не є строго опуклою і має нескінченно багато мінімумів, є . Будь-яка точка на прямій - мінімальна точка. f(x,y)=(xy)2y=x
kjetil b halvorsen

1
@Kjetil Дякую, це правда. Хитрість тут полягає в тому, щоб показати, як такі функції насправді виникають у регресійних ситуаціях. Ваша функція - це саме натхнення для першого прикладу, який я запропонував.
whuber


2

Я боюся, що немає бінарної відповіді на ваше запитання. Якщо лінійна регресія суворо опукла (немає обмежень на коефіцієнти, не регуляризатор тощо), то спуск градієнта матиме унікальне рішення, і це буде глобальним оптимальним. Спуск градієнта може і поверне декілька рішень, якщо у вас є проблема, що не має опуклості.

Хоча ОП вимагає лінійної регресії, нижченаведений приклад показує мінімальну мінімізацію квадратів, хоча нелінійна (проти лінійної регресії, якої хоче ОП) може мати декілька рішень, а градієнтний спуск може повернути інше рішення.

Я можу показати емпірично, використовуючи простий приклад, що

  1. Сума помилок у квадраті певний час може бути невипуклою, тому мати декілька рішень
  2. Метод градієнтного спуску може забезпечити безліч рішень.

Розглянемо приклад, коли ви намагаєтеся мінімізувати найменші квадрати для наступної проблеми:

введіть тут опис зображення

wa

a12=9,a13=1/9,a23=9,a31=1/9

minimize (9w1w2)2+(19w1w3)2+(19w2w1)2+(9w2w3)2+(9w3w1)2+(19w3w2)2

Вищезазначена проблема має 3 різні рішення, і вони такі:

w=(0.670,0.242,0.080),obj=165.2

w=(0.080,0.242,0.670),obj=165.2

w=(0.242,0.670,0.080),obj=165.2

Як показано вище, проблема найменших квадратів може бути невипуклою і може мати багаторазове рішення. Тоді вищевказану проблему можна вирішити, використовуючи метод градієнтного спуску, такий як мікрософт excel solver, і кожен раз, коли ми запускаємо, ми отримуємо інше рішення. оскільки спуск градієнта є локальним оптимізатором і може застрягнути в локальному рішенні, нам потрібно використовувати різні вихідні значення, щоб отримати справжню глобальну оптимуму. Така проблема залежить від початкових значень.


2
Я не думаю, що це відповідає на питання ОП, оскільки ОП запитує конкретно про лінійну регресію , а не оптимізацію в цілому.
Sycorax каже, що повернеться до Моніки

1
Ні, це не так, але просто намагаючись зробити крапку на проблемах з оптимізаціями, оновлюватимемося із застереженнями
прогноз

@ user777 ви праві. це дуже вагоме запитання на старому іспиті з MIT. Я впевнений, що відповідь є хибною завдяки дякуванню forecastet.
Анжела Міное

ви впевнені, що я правий?
Анжела Міное

@AnjelaMinoeu, я оновив свою відповідь.
синоптик

1

Це тому, що цільова функція, яку ви мінімізуєте, опукла, є лише один мінімум / максимум. Тому локальний оптимум - це також глобальний оптимум. Градієнтний спуск з часом знайде рішення.

Чому ця об’єктивна функція опукла? У цьому полягає краса використання помилки квадрата для мінімізації. Виведення та рівність до нуля добре покажуть, чому це так. Це досить проблема з підручником і висвітлюється майже скрізь.


4
Опуклість не означає єдиного мінімуму. Зазвичай потрібно звертатися до суворої опуклості об'єктивної функції, визначеної у опуклої області. Тут також є питання щодо критеріїв припинення для спуску градієнта з використанням арифметики з плаваючою точкою: навіть коли цільова функція є суворо опуклою, алгоритм, швидше за все, знайде різні рішення (залежно від початкових значень), коли функція майже рівна біля свого мінімуму.
whuber

@whuber, будь ласка, зробіть це простішим і зрозумілішим для мене?
Анжела Міное

@whuber Я думаю, що перше питання - це використання термінології. По-друге, опуклість означає унікальний мінімум. Я не бачу диференційованої увігнутої функції, яка не має єдиного мінімуму / максимуму. Доказ див. Тут: planetmath.org/localminimumofconvexfunctionisseseblyglobal
Vladislavs Dovgalecs

3
Я не намагався прочитати доказ, тому що він повинен викликати сувору опуклість, щоб бути правильним. Проблема з найменшими квадратами з невпізнанними коефіцієнтами буде опуклою, але не строго опуклою, і, таким чином, матиме (нескінченно) безліч рішень. Але це не зовсім стосується градієнтного спуску, у якого є свої проблеми - деякі з них чітко обговорюються у статті Вікіпедії . Таким чином, і в теоретичному, і в практичному розумінні вірна відповідь на питання є вірною : градієнтний спуск може - і буде - давати численні рішення.
whuber

@whuber Так, доказ апелює до суворої опуклості.
Владислав Довгалець
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.