Чому настільки важливі симетричні позитивні матриці (SPD)?


20

Я знаю визначення матриці симетричного позитивного певного (SPD), але хочу зрозуміти більше.

Чому вони такі важливі, інтуїтивно?

Ось що я знаю. Що ще?

  • Для даних даних матриця ко-дисперсії - SPD. Матриця ко-дисперсії є важливою метрикою, див. Цей чудовий пост для інтуїтивного пояснення.

  • Квадратична форма випукла, якщо SPD. Опуклість - це приємна властивість функції, яка може переконатися, що локальне рішення є глобальним рішенням. Для проблем Convex існує багато хороших алгоритмів для вирішення, але не для проблем, що не мають ковексу.A12хАх-бх+cА

  • Коли - SPD, рішення оптимізації для квадратичної форми та рішення для лінійної системи однакові. Таким чином, ми можемо проводити перетворення між двома класичними проблемами. Це важливо, оскільки це дозволяє нам використовувати трюки, виявлені в одному домені в іншому. Наприклад, ми можемо використовувати метод спряженого градієнта для вирішення лінійної системи.мінімізувати 1АAx=b

    мінімізувати   12хАх-бх+c
    Ах=б
  • Існує багато хороших алгоритмів (швидкий, числовий стабільний), які краще працюють для матриці SPD, наприклад, декомпозиція Чолеського.

EDIT: Я не намагаюся задати тотожності для матриці SPD, але інтуїція за властивістю виявити важливість. Наприклад, як згадував @Matthew Drury, якщо матриця є SPD, власні значення - це всі додатні реальні числа, але чому всі позитивні значення. @Matthew Drury отримав чудову відповідь на течію, і саме це я шукав.


7
Власні значення - це додатні реальні числа. Цей факт лежить в основі багатьох інших.
Меттью Друрі

4
Щоб піти трохи далі від @Matthew: Якщо ви виберете підходящу основу, всі такі матриці однакові і рівні матриці ідентичності. Іншими словами, існує рівно одна квадратична форма, що визначається позитивно, у кожному вимірі (для реальних векторних просторів), і це те саме, що відстань Евкліда.
whuber

2
Ви знайдете деяку інтуїцію в багатьох елементарних способах відображення власних значень реальної симетричної матриці - всі реальні: mathoverflow.net/questions/118626/… Зокрема, квадратична форма природно зустрічається в коефіцієнті Релея, і симетричні матриці забезпечують природний спосіб демонстрації великого сімейства матриць, власні значення яких реальні. Дивіться, наприклад, теорему мінімуму Courant: en.wikipedia.org/wiki/Courant_minimax_principleхТАх
Алекс Р.

4
Це здається занадто широким, якби у нього вже не було трьох відповідей, я, швидше за все, закрив би його на цій основі. Будь ласка, запропонуйте більше вказівок про те, що ви конкретно хочете дізнатися (прохання про інтуїцію є надто особистим / індивідуальним, щоб люди здогадувались у такому випадку)
Glen_b -Встановіть Моніку

1
Мені важко зіткнутися із ситуацією зі статистикою, яка б породила матрицю, яка не є PSD (якщо тільки ви не накрутили обчислення кореляційної матриці, наприклад, заповнивши її парною кореляцією, обчисленою на даних із відсутніми значеннями) . Будь-яка квадратна симетрична матриця, яку я можу придумати, - це або коваріація, інформація або матриця проекції. (В іншому випадку в прикладній математиці не-PSD матриці можуть бути культурною нормою, наприклад, матриці кінцевих елементів у PDE, скажімо.)
StasK

Відповіді:


15

(Реальна) симетрична матриця має повний набір ортогональних власних векторів, для яких відповідні власні значення - це всі дійсні числа. Для несиметричних матриць це може бути невдалим. Наприклад, обертання в двовимірному просторі не має власних векторів або власних значень у дійсних числах, для їх знаходження необхідно перейти до векторного простору над складними числами.

Якщо матриця додатково додатна певна, то ці власні значення - всі додатні дійсні числа. Цей факт набагато простіше, ніж перший, оскільки якщо - власний вектор з одиничною довжиною, і відповідне власне значення, тоλvλ

λ=λvтv=vтАv>0

де остання рівність використовує визначення позитивної визначеності.

Важливе значення для інтуїції полягає в тому, що власні вектори та власні значення лінійного перетворення описують систему координат, в якій перетворення найлегше зрозуміти. Лінійне перетворення може бути дуже важким для розуміння на такій "природній" основі, як стандартна система координат, але кожна з них має "переважну" основу власних векторів, в яких перетворення діє як масштабування у всіх напрямках. Це робить геометрію перетворення набагато простішою для розуміння.

Наприклад, другий тест на похідну для локальної крайності функції часто дається як ряд загадкових умов, що включають запис у другу матрицю похідних та деякі детермінанти. Насправді ці умови просто кодують таке геометричне спостереження:R2R

  • Якщо матриця других похідних є певною позитивною, ви знаходитесь на локальному мінімумі.
  • Якщо матриця другого похідного є певною, то ви на локальному максимумі.
  • В іншому випадку ви не на жодному місці, сідло.

Ви можете зрозуміти це за допомогою геометричних міркувань вище на власній основі. Перша похідна в критичній точці зникає, тому темпи зміни функції тут контролюються другою похідною. Тепер ми можемо міркувати геометрично

  • У першому випадку є два власних напрямки, і якщо ви рухаєтесь по будь-якій функції, функція збільшується.
  • По-друге, два власних напрямки, і якщо ви рухаєтесь в будь-якій функції, зменшується.
  • В останньому є два власних напрямки, але в одному з них функція збільшується, а в іншому знижується.

Оскільки власні вектори охоплюють весь простір, будь-який інший напрямок є лінійною комбінацією власних напрямків, тому швидкості зміни в цих напрямках є лінійними комбінаціями швидкостей зміни власних напрямків. Тому насправді це справедливо у всіх напрямках (це більш-менш означає, що функція, визначена на просторі більш високого розміру, є диференційованою). Тепер, якщо ви намалюєте маленьку картину в голові, це має багато сенсу з чогось, що є досить загадковим у текстах для початкового числення.

Це стосується безпосередньо однієї з точок кулі

Квадратична форма випукла, якщо SPD. Convex - це приємна властивість, яка може переконатися, що локальне рішення є глобальним рішеннямA12хАх-бх+cА

Матриця других похідних - це скрізь, що є симетричним позитивним певним. Геометрично це означає, що якщо ми відсунемось у будь-якому власному напрямку (а значить, у будь-якому напрямку, оскільки будь-яка інша є лінійною комбінацією власних напрямків), сама функція буде відгинатися вище своєї дотичної площини. Це означає, що вся поверхня опукла.А


5
Графічний спосіб його погляду: якщо - SPD, контури асоційованої квадратичної форми є еліпсоїдальними. А
JM не є статистиком

7
Ця характеристика @JM дуже сприйнятлива. Якщо хтось цікавиться, що може бути особливим у еліпсоїдальних контурах, зауважте, що вони є просто ідеальними сферами в маскуванні: одиниці вимірювання можуть відрізнятися по головних осях, а еліпсоїди можуть обертатися щодо координат, в яких описуються дані. , але для дуже багатьох цілей, особливо концептуальних, ці відмінності є несуттєвими.
whuber

Це пов’язано з моїм способом геометричного розуміння методу Ньютона. Найкраще наблизити поточний рівень, встановлений еліпсоїдом, а потім взяти систему координат, де еліпсоїд - це коло, переміститися ортогонально до кола в цій системі координат.
Меттью Друрі

1
Якщо існують (активні) обмеження, вам потрібно спроектувати в якобіанські активні обмеження, перш ніж зробити шпиль власного значення та ейджендирекції. Якщо гессіан є psd, (будь-яка) проекція буде psd, але зворотне не обов'язково відповідає дійсності, а часто - ні. Дивіться мою відповідь.
Марк Л. Стоун

10

Ви знайдете деяку інтуїцію в багатьох елементарних способах показу власних значень реальної симетричної матриці - всі реальні: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementar- доказ / 118640 # 118640

Зокрема, квадратична форма зустрічається природним чином у коефіцієнті Релея, а симетричні матриці забезпечують, мабуть, найбільш природний спосіб демонстрації великого сімейства матриць, власні значення яких реальні. Дивіться, наприклад, теорему мінімуму Куранта: https://en.wikipedia.org/wiki/Courant_minimax_principleхТАх

г(х,у)=х,Ау=хТАух,у г(х,у)=г(у,х)х,уx 0х2=хТАх>0х0. Таким чином, симетричні позитивні певні матриці можна розглядати як ідеальні кандидати для перетворень координат.

Ця остання властивість абсолютно важлива в області підтримуючих векторних машин, зокрема методів ядра та хитрості ядра , де ядро ​​повинно бути симетричним позитивним, щоб викликати правильний внутрішній продукт. Справді , теорема Мерсера узагальнює інтуїтивні властивості симетричних матриць до функціональних просторів.


9

Що стосується оптимізації (оскільки ви позначили своє питання тегом оптимізації), матриці SPD є надзвичайно важливими з однієї простої причини - SPD Гессіан гарантує, що напрямок пошуку є напрямком спуску. Розглянемо виведення методу Ньютона для необмеженої оптимізації. Спочатку формуємо розширення Тейлора :f(x+Δx)

f(x+Δx)f(x)+ΔxTf(x)+12ΔxT2f(x)Δх

Далі беремо похідну стосовно :Δх

f'(х+Δх)f(х)+2f(х)Δх

Нарешті, встановіть похідну рівну 0 та вирішіть для :Δх

Δх=-2f(х)-1f(х)

Якщо припустити, що є SPD, легко помітити, що - напрямок спуску, оскільки:2f(х)Δх

f(х)ТΔх=-f(х)Т2f(х)-1f(х)<0

При використанні методу Ньютона матриці гессіана, що не є SPD, зазвичай "підсунуті" для SPD. Існує чіткий алгоритм під назвою модифікований Чолескі, який виявить гессіана, що не є SPD, "підштовхне" його належним чином у правильному напрямку та факторизує результат, все для (по суті) тієї ж вартості, що й факторизація Чолеського. Методи Квазі-Ньютона уникають цієї проблеми, змушуючи приблизного Гессіана бути SPD.

В цілому симетричні невизначені системи в наші дні приділяють багато уваги. Вони підходять до контексту точкових методів інтер'єру для обмеженої оптимізації.


Дуже дякую за чудову відповідь. Я розумію, що гідний напрямок важливий у способі пошуку рядків. Для методів регіону довіри важливе також гідне керівництво?
Haitao Du

1
Це все ще важливо для методів регіону довіри. Методи області довіри в основному працюють, обмежуючи розмір кроку ПЕРШИЙ, а потім вирішуючи напрямок кроку. Якщо кроком не досягається бажане зменшення значення об'єктивної функції, ви зменшуєте обмеження на розмір кроку та починаєте спочатку. Уявіть, що ваш алгоритм створення напряму кроку не гарантує, що напрямок кроку є напрямком спуску. Навіть коли радіус довірчої області дорівнює 0, ви ніколи не можете генерувати прийнятний крок (навіть якщо такий існує), оскільки жоден із ваших крокових напрямків не є напрямками спуску.
Білл Восснер

Методи пошуку ліній в основному виявляють однакову поведінку. Якщо ваш напрямок пошуку не є напрямком спуску, алгоритм пошуку рядків може ніколи не знайти прийнятну довжину кроку - тому що його немає. :-)
Білл Восснер

Чудова відповідь, дякую, що допомогли мені з’єднати шматки.
Хайтао Ду

9

Геометрично позитивна визначена матриця визначає метрику , наприклад, риманову метрику, тому ми можемо негайно використовувати геометричні поняття.

Якщо і - вектори, а - позитивна визначена матриця, то - це метрика (також її називають функцією відстані). хуА

г(х,у)=(х-у)ТА(х-у)

Rн

х,у=хТАу
АRн


1
А=Я

6

Уже є кілька відповідей, що пояснюють, чому симетричні позитивні визначені матриці настільки важливі, тому я надам відповідь, що пояснює, чому вони не такі важливі, як думають деякі люди, включаючи авторів деяких із цих відповідей. Для простоти я обмежу увагу на симетричних матрицях, а також сконцентруюся на гессіанцях та оптимізації.

Якби Бог зробив світ опуклим, не було б опуклої оптимізації, була б просто оптимізація. Так само не було б (симетричних) позитивних визначених матриць, а були б просто (симетричні) матриці. Але це не так, тому займайтеся цим.

Якщо проблема квадратичного програмування опукла, її можна вирішити «легко». Якщо він не випуклий, глобальний оптимум все ще можна знайти за допомогою гілок та зв'язаних методів (але це може зайняти більше часу і більше пам'яті).

Якщо для оптимізації використовується метод Ньютона, а гессіан на деякій ітерації невизначений, то не потрібно «доопрацьовувати» його до позитивної визначеності. Якщо за допомогою пошуку в рядку можна знайти напрямки негативної кривизни та виконати пошук рядків вздовж них, і якщо використовується довірна область, то існує якась невелика область довіри, така що рішення проблеми довірчої області досягає зниження.

Що стосується методів Квазі-Ньютона, BFGS (демпфірований, якщо проблема обмежена) та DFP підтримують позитивну визначеність гессіанських чи зворотних наближень Гессі. Інші методи Квазі-Ньютона, такі як SR1 (Symmetric Rank One), не обов'язково підтримують позитивну визначеність. Перш ніж ви все зігнути з цього вигляду, це є вагомою причиною для вибору SR1 для багатьох проблем - якщо гессіанство справді не є позитивним на шляху до оптимального, то змушуючи наближення Квазі-Ньютона бути позитивним певним може призвести до квапливого квадратичного наближення до цільової функції. На відміну від цього, метод оновлення SR1 є "пухким, як гуска", і може суттєво перетворювати свою визначеність у міру просування.

Що стосується нелінійно обмежених проблем оптимізації, то насправді важливим є не гессець об'єктивної функції, а гессіанський лагранжанин. Гессіан Лагранжана може бути невизначеним навіть при (the) оптимальному, і дійсно, це лише проекція гессіана лагранжана в нульовий простір якобійських активних (лінійних і нелінійних) обмежень, які повинні бути позитивними -дефініт при оптимальному. Якщо ви будете моделювати гессіана Лагранжана через BFGS і тим самим обмежувати його позитивним певним результатом, це може бути страшним пристосуванням скрізь, і не буде добре. Навпаки, SR1 може адаптувати свої власні значення до того, що він насправді "бачить".

Про все це я можу сказати набагато більше, але цього достатньо, щоб дати вам смак.

Редагувати : те, що я написав на два абзаци вище, є правильним. Однак я забув зазначити, що це стосується і лінійно обмежених проблем. У випадку лінійно обмежених задач гессіан Лагранжан якраз (зводиться до) гессея об'єктивної функції. Отже, умова оптимальності 2-го порядку для локального мінімуму полягає в тому, що проекція гессіана об'єктивної функції в нульовий простір якобіан активних обмежень є позитивною напіввизначеною. Найголовніше, що гессіан об'єктивної функції не повинен (обов'язково) бути psd в оптимальних випадках, а часто немає, навіть при лінійно обмежених задачах.



@ GeoMatt22 Ви ставите, що ваш $ $ $ я не є. З іншого боку, якщо ви збираєтеся створити (вибрати) функцію втрат, немає необхідності робити її невипуклою, коли вона не має жодної корисної цілі, крім шоу-катання. Розсудливість - це краща частина доблесті.
Марк Л. Стоун

@Mark L. Stone: Це цікаво! Чи можете ви дати посилання на якусь літературу, де я можу прочитати про такі речі?
kjetil b halvorsen

@kjetil b halvorsen. Пошук рядків з напрямками негативної кривизни folk.uib.no/ssu029/Pdf_file/Curvilinear/More79.pdf . Регіони довіри висвітлюються у багатьох книгах та працях. Відома книга з добрим представленням довіри до регіонів - amazon.com/… .. Книга монстрів, яка вже дещо застаріла зараз, - epubs.siam.org/doi/book/10.1137/1.9780898719857 . Щодо мого останнього абзацу про умови оптимальності, читайте про умови KKT 2-го порядку
Марк Л. Стоун

@kjetil b halvorsen Я не звертався до пошуку глобального оптимуму невипуклої квадратичної програми. Широко доступне програмне забезпечення, такі як CPLEX, може це зробити, див ibm.com/support/knowledgecenter/SS9UKU_12.6.1 / ... . Звичайно, це не завжди швидко і може знадобитися трохи пам’яті. Я вирішив до глобальної оптимальності деякі проблеми мінімізації QP з десятками тисяч змінних, які мали кілька сотень значущих власних значень величини.
Марк Л. Стоун

5

Ви вже навели безліч причин, чому SPD є важливим, але ви все ще розмістили питання. Отже, мені здається, що спочатку потрібно відповісти на це запитання: Чому значення мають позитивні величини?

Моя відповідь полягає в тому, що деякі кількості повинні бути позитивними, щоб узгодити наш досвід чи моделі. Наприклад, відстані між предметами в просторі повинні бути позитивними. Координати можуть бути негативними, але відстані завжди є негативними. Отже, якщо у вас є набір даних і якийсь алгоритм, який його обробляє, ви, можливо, закінчитеся тим, що виходить з ладу, коли ви подаєте в нього негативну відстань. Отже, ви кажете, що "мій алгоритм вимагає позитивних вкладів на відстань у будь-який час", і це не виглядатиме як необгрунтований попит.

i(хi-мк)2/н
хi

Отже, дисперсійно-коваріаційні матриці є позитивними напіввизначеними, тобто "негативними" у цій аналогії. Прикладом алгоритму, який вимагає цієї умови, є розкладання Холеського, це дуже зручно. Його часто називають "квадратним коренем матриці". Отже, як квадратний корінь реального числа, який вимагає негативу, Холеський хоче негативні матриці. Ми не знаходимо це обмеження при роботі з матрицями коваріації, оскільки вони завжди є.

Отже, це моя утилітарна відповідь. Такі обмеження, як негативність або SPD, дозволяють нам створити більш ефективний алгоритм обчислення або зручні інструменти моделювання, які доступні, коли ваші входи задовольняють цим обмеженням.


3

Ось ще дві причини, про які не згадувалося, чому важливі позитивні-напівдефінітні матриці:

  1. Графічна лаплаціанська матриця є діагонально домінуючою і, таким чином, PSD.

  2. Позитивна напівкінність визначає частковий порядок на множині симетричних матриць (це є основою напіввизначеного програмування).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.