ККТ у двох словах графічно


13

Об'єктивна

Підтвердьте, чи розуміння KKT є правильним чи ні. Шукайте додаткові пояснення та підтвердження на KKT.

Фон

Намагаючись зрозуміти умови KKT, особливо додаткові умови, які завжди випливають із синього кольору у статтях SVM. Мені не потрібен список абстрактних формул, але мені потрібно конкретні, інтуїтивні та графічні пояснення.

Питання

Якщо P, що мінімізує функцію витрат f (X), знаходиться всередині обмеження (g (P)> = 0), це рішення. Здається, ККТ у цьому випадку не має значення.

введіть тут опис зображення

Здається, KKT каже, що якщо P не знаходиться в обмеженні, то рішення X повинно відповідати нижче на малюнку. Це KKT все, або я пропускаю інші важливі аспекти?

введіть тут опис зображення

Інші роз'яснення

  1. Чи повинен f (x) бути опуклим, щоб застосувати KKT?
  2. Чи повинен g (x) лінійно застосовувати KKT?
  3. Чи повинен λ бути необхідним у λ * g (X) = 0? Чому g (X) = 0 або g (Xi) = 0 недостатньо?

Список літератури


Оновлення 1

Дякую за відповіді, але все ще намагаюся зрозуміти. Зосередьтеся на необхідності лише тут:

Чи не буде виконана умова (2) у відповіді Меттью Ганна про неоптимальну точку (зеленим колом) та KKT? І сенс було б визначити, дивлячись на Гессіана, як на відповідь Марка Л. Стоуна?

Я припускаю, що інша ситуація - це сідла, але те саме стосується?

введіть тут опис зображення

введіть тут опис зображення користувач23658


1
Це питання може привернути більше уваги на сайті математики; Умови ККТ не обов'язково "статистичні". Статистики запозичують ці та інші результати з чисельного аналізу для вирішення цікавих статистичних задач, але це більше питання математики.
користувач23658

1
(1) Якщо обмеження не пов'язують, проблема оптимізації з обмеженнями має те саме рішення, що і проблема оптимізації без обмежень. (2) Ні умови повинні бути опуклими, ні повинні бути лінійними, щоб умови KKT були необхідними в оптимальних. (3) Вам потрібні спеціальні умови (наприклад, опукла проблема, коли виконується умова Слейтера), щоб умови ККТ були достатніми для оптимальних умов. gfg
Меттью Ганн

2
Основна ідея додаткової умови млявості (тобто де є обмеженням), що якщо обмеження слабке (тобто ) при оптимальному , тоді покарання за посилення обмеження дорівнює 0. А якщо є позитивне покарання за посилення обмеження, то обмеження має бути обов'язковим (тобто ). Якщо рух проходить плавно, плата за мост для іншого автомобіля дорівнює нулю. А якщо міст платить , то міст повинен бути на межі пропускної здатності.g ( x ) 0 g ( x ) < 0 x λ λ g ( x ) = 0 λ λ > 0λg(x)=0g(x)0g(x)<0xλλg(x)=0λλ>0
Меттью Ганн

1
Основна теорема KKT говорить, що якщо умови KKT не виконуються в точці , то точка не є оптимальною. Умови KKT необхідні для оптимального, але недостатнього. (Наприклад, якщо у функції є точки сідла, локальні мінімуми і т. Д. ... Умови KKT можуть бути задоволені, але точка не є оптимальною!) Для певних класів проблем (наприклад, опукла проблема, коли виконується умова Слейтера), KKT умови стають достатніми умовами. хxx
Меттью Ганн

Відповіді:


8

Основне уявлення про умови KKT як необхідних умов для оптимального полягає в тому, що якщо вони не дотримуються в здійсненій точці , то існує напрямок який поліпшить ціль без збільшення (а отже, можливо, порушує) обмеження. (Якщо умови KKT не дотримуються в то не може бути оптимальним, отже, умови KKT необхідні, щоб точка була оптимальною.)xδfxx

Уявіть, що у вас проблема оптимізації:

minimize (over x)f(x)subject toj{1k}gj(x)0

Де і є обмеження.xRnk

Умови KKT і лекція Фаркаса

Нехай вектор стовпців, що позначає градієнт обчислений у .f(x)fx

Застосовуючи дану ситуацію, Ларма Фаркаса стверджує, що для будь-якого пункту рівно одна з таких заяв:xRn

  1. Існує такий, що іλRkj=1kλjgj(x)=f(x)λ0
  2. Існує такий, що іδRnjδgj(x)0δf(x)<0

Що це означає? Це означає, що для будь-якої можливої ​​точки :x

  • Умова (1) виконується і умови ККТ виконуються.
  • Умова (2) виконується, і існує можливий напрямок який покращує цільову функцію без збільшення обмежень . (наприклад, ви можете покращити , перейшовши від до )δfgjfxx+ϵδ

У умові (1) зазначено, що існує невід'ємні множники такі, що умови KKT задовольняються в точці . (Геометрично сказано, що лежить у опуклому конусі, визначеному градієнтами обмежень.)λxf

Умови (2) зазначено, що в точці існує напрямок для переміщення (локально) таким чином, що:xδ

  • Рух у напрямку знижує цільову функцію (тому що крапковий добуток та менше нуля).δf(x)δ
  • Рух у напрямку не збільшує значення обмежень (тому що крапковий добуток та менше або дорівнює нулю для всіх обмеження ).δgj(x)δj

(Геометрично, здійсненний напрямок визначає роздільну гіперплану між вектором і опуклим конусом, визначеним векторами .)δf(x)gj(x)

(Примітка: щоб відобразити це у летку Farkas , визначте матрицю )A=[g1,g2,,gk]

Цей аргумент дає вам оптимальну необхідність (але не достатність) умов KKT. Якщо умови ККТ не виконуються (і кваліфікація обмежень задоволена), можна покращити мету, не порушуючи обмежень.

Роль обмеження кваліфікації

Що може піти не так? Можна отримати вироджені ситуації, коли градієнти обмежень не точно описують можливі вказівки для руху.

Існує безліч різних кваліфікацій обмежень, які вибиратимуть, що дозволить вищезгаданому аргументу працювати.

Мінімальна, максимальна інтерпретація (найінтуїтивніша)

Сформуйте лагранжанина

L(x,λ)=f(x)+j=1kλjgj(x)

Замість того, щоб мінімізувати з обмеженнями , уявіть, що ви намагаєтеся мінімізувати тоді як хтось опонент намагається його максимізувати. Ви можете інтерпретувати множники як штрафні санкції (обрані певним противником) за порушення обмежень. fgjLλi

Рішення вихідної проблеми оптимізації еквівалентно:

minxmaxλL(x,λ)

Тобто:

  1. Спочатку вибираєте щоб мінімізувати Lagrangian , знаючи, що ...xL
  2. Потім я виберу щоб максимізувати лагранжець (спостерігаючи за вашим вибором ).λx

Наприклад, якщо ви порушите обмеження , я можу вас покарати, встановивши до нескінченності!g2λ2

Слабка подвійність

Для будь-якої функції зауважте, що:f(x,y)

x^,y^minxf(x,y^)f(x^,y^)maxyf(x^,y)

Оскільки це справедливо для будь-яких та це також справедливо: x^y^

maxyminxf(x,y)minxmaxyf(x,y)

У налаштуваннях Langrian це результат, що відомий як слабка подвійність.maxλminxL(x,λ)minxmaxλL(x,λ)

Подвійна задача дає нижню межу рішенняmaxλminxL(x,λ)

Сильна подвійність

За певних особливих умов (наприклад, опукла проблема, коли виконується умова Слейтера), ви маєте сильну подвійність (тобто властивість точки сідла).

maxλminxL(x,λ)=minxmaxλL(x,λ)

Цей прекрасний результат означає, що ви можете змінити порядок проблеми.

  1. Я спочатку підбираю штрафні санкції щоб максимізувати лагранжан.λ

  2. Потім вибираєте щоб мінімізувати Lagrangian .xL

- набір в цьому процесі ціна за порушення обмежень, а ціни встановлюються таким чином, що ви ніколи не будете порушувати обмеження.λ


Оцініть інформацію та посилання, щоб заповнити прогалини в розумінні. Дозвольте мені підтвердити. Умова (1) означає, що KKT каже, що точка X є рішенням, вона повинна задовольняти λ * g (X) = 0, λ> = 0, а довжина градієнта g (X) - λ рази що f (X), інакше ми знайдемо градієнт напрямку f (X) точок, де можна знайти менший f (X ')?
пн

3
Умова слайтера є (просто) кваліфікацією обмежень, яку можна застосувати до проблем опуклої оптимізації, тобто робить KKT необхідним. Опуклість робить ККТ достатньою. Отже, умова Слейтера для проблеми опуклої оптимізації, в якій цільова функція та обмеження є опуклими та постійно диференційованими, робить KKT необхідним та достатнім для глобального мінімуму. Умови схилу полягають у тому, що існує хоча б одна здійсненна точка (тобто задоволення всіх обмежень), яка знаходиться в суворій внутрішній частині всіх нелінійних обмежень (все, що стосується лінійних обмежень, наскільки це можливо).
Марк Л. Стоун

5

f (x) бути опуклим, щоб KKT був достатнім, щоб х був локальним мінімумом. Якщо f (x) або -g (x) не опуклі, x, що задовольняє KKT, може бути локальним мінімумом, точкою сідла або локальним максимумом.

g (x) лінійність, а f (x) постійно диференціюється є достатнім, щоб умови KKT були необхідними для локального мінімуму. g (x) лінійність означає, що кваліфікація обмеження лінійності для KKT є необхідною для локального мінімуму задоволена. Однак існують й інші менш обмежувальні обмеження, які є достатніми для того, щоб умови ККТ були необхідними для місцевого мінімуму. Дивіться розділ Умови регулярності (або обмеження кваліфікації) https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions .

Якщо локальний мінімум не має "активних" обмежень (так що у випадку лише обмеження нерівності, це обмеження не задовольняється рівністю), множники Лагранжа, пов'язані з такими обмеженнями, повинні дорівнювати нулю; у цьому випадку KKT зменшується до умови, що градієнт цілі = 0. У такому випадку дорівнює оптимальній цільовій величині епсилонного обмеження обмеження нульову "вартість".

Додаткова інформація :

Об'єктивна функція та обмеження є опуклими, а постійно диференційований означає, що KKT є достатнім для глобального мінімуму.

Якщо об'єктивна функція та обмеження постійно диференціюються і обмеження задовольняють кваліфікаційним обмеженням, KKT необхідний для локального мінімуму.

Якщо об'єктивна функція та обмеження постійно диференціюються, опуклі та обмеження задовольняють кваліфікаційним обмеженням, ККТ необхідний і достатній для глобального мінімуму.

Вищенаведене обговорення насправді стосується лише умов KKT першого порядку. Існують також умови KKT 2-го порядку, які можна вказати як: Точка, що задовольняє умовам KKT 1-го порядку, і для якої об'єктивна функція та обмеження двічі безперервно диференціюються, є достатньою для місцевого мінімуму, якщо гессея Лагранжана проектується в нульовий простір якобіанських активних обмежень є позитивним напівскінченним. (Я дозволю вам знайти термінологію, використану в попередньому реченні.) Нехай є основою для нульового простору якобіан активних обмежень, умова KKT 2-го порядку полягає в тому, що є позитивним , деZZTHZH- гессіан Лагранжан. Активні обмеження складаються з усіх обмежень рівності плюс усіх обмежень нерівності, які задовольняються рівністю в розглянутому пункті. Якщо в розглянутій точці KKT 1-го порядку немає ніяких обмежень, матриця ідентичності є нульовою базою простору , і всі множники Лагранжа повинні бути нульовими, отже, необхідна умова 2-го порядку для локального мінімуму зводиться до звичного стану від необмеженої оптимізації що гессіан об'єктивної функції є позитивним напіввизначеним. Якщо всі обмеження лінійні, гессіан Лагранґана = Гессіан об'єктивної функції, оскільки 2-е похідне лінійної функції = 0.Z

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.