Вирішення параметрів регресії у закритому вигляді та градієнті спуску


71

У курсі машинного навчання Ендрю Нґ він вводить лінійну регресію та логістичну регресію та показує, як підігнати параметри моделі за допомогою градієнтного спуску та методу Ньютона.

Я знаю, що градієнтний спуск може бути корисним для деяких застосувань машинного навчання (наприклад, зворотної пропорції), але в більш загальному випадку є якась причина, чому ви б не вирішили для параметрів у закритому вигляді - тобто, взявши похідну функцію витрат та вирішення за допомогою обчислення?

Яка перевага використання ітеративного алгоритму, такого як спуск градієнта над рішенням закритої форми взагалі, коли такий доступний?


9
Я не думаю, що існує рішення закритої форми для MLE параметрів регресії в більшості glms (наприклад, логістична регресія). Лінійна регресія з нормальними помилками - один виняток.
Макрос

5
Цікаво ... Чи означає це, що різні пакети статистики можуть давати різні відповіді на логістичну регресію залежно, наприклад, від початкових параметрів параметрів, кількості ітерацій, декількох локальних мінімумів тощо. - чи є звичайна процедура, що всі хороші пакети статистики будуть слідувати? (Хоча я впевнений, що будь-які відмінності, якщо вони існують, у більшості випадків є хвилиновими)
Джефф

3
(+1) На ваше запитання та ваш коментар, Джефф. ГЛМ, що використовують канонічну ланку (як логістична регресія), отримують користь від приємних властивостей опуклості. Для вирішення таких завдань може бути більше одного алгоритму, але основний підсумок цього полягає в тому, що (модульно деякі досить незначні деталі) добре реалізовані чисельні алгоритми дадуть між собою стійкі результати.
кардинал

2
Мені особисто не подобається курс Ендрю Нґ, оскільки він змусив людей повірити, що лінійна регресія - це "машинне навчання".
Дігіо

Відповіді:


85

Якщо тільки рішення закритої форми не є надзвичайно дорогим для обчислення, зазвичай це шлях, коли він доступний. Однак,

  1. Для більшості нелінійних регресійних задач рішення закритої форми не існує.

  2. Навіть при лінійній регресії (один з небагатьох випадків, коли доступний розчин закритої форми), використовувати формулу може бути недоцільно. Наступний приклад показує один із способів, як це може статися.

Для лінійної регресії на моделі вигляду , де X - матриця з повним рангом стовпця, рішенням найменших квадратів,y=XβX

β^=argminXβy2

дається

β^=(XTX)1XTy

Тепер уявіть, що - це дуже велика, але розріджена матриця. наприклад, може мати 100 000 стовпців і 1 000 000 рядків, але лише 0,001% записів у є ненульовими. Існують спеціалізовані структури даних для зберігання лише ненульових записів таких розріджених матриць. XXXX

Також уявіть, що нам не пощастило, і - досить щільна матриця зі значно більшим відсотком ненульових записів. Зберігання щільної матриці 100000 на 100000 елементів тоді вимагатиме числа цифри з плаваючою точкою (у 8 байт на число, це доходить до 80 гігабайт.) Це було б недоцільно зберігати ні на чому але суперкомп'ютер. Крім того, обернення цієї матриці (або частіше фактору Холеського) також, як правило, має переважно ненульові записи. X T X 1 × 10 10XTXXTX1×1010

Однак, є ітераційні методи для розв'язування задачі найменших квадратів , які не вимагають більше пам'яті , ніж , , і і ніколи явно НЕ утворюють твір матриць . уXy ХТХβ^XTX

У цій ситуації використання ітеративного методу набагато ефективніше обчислювально, ніж використання рішення закритої форми для задачі з найменшими квадратами.

Цей приклад може здатися абсурдно великим. Однак великі проблеми з найменшими квадратиками такого розміру звичайно вирішуються ітераційними методами на настільних комп’ютерах при дослідженні сейсмічної томографії.


4
Слід зазначити, що є також питання чисельності точності, які можуть зробити рішення закритої форми для задачі з найменшими квадратами недопустимим. Однак це потребує обговорення жорстокого кондиціонування, яке, мабуть, виходить за рамки сучасного розуміння оригінального плаката.
Брайан Борчерс

17
будь ласка, не соромтеся опублікувати відповідь, тому що ви не думаєте, що я це зрозумію. по-перше, не завадить надати більше інформації, навіть якщо мені знадобиться деяке дослідження, щоб зрозуміти це. по-друге - модель stackexchange передбачає, що це питання та відповідь принесуть користь іншим у майбутньому. Іншими словами, не придумуйте свою відповідь, виходячи з того, наскільки ви думаєте, що ОП знає, або ви будете робити іншим послугу.
Джефф

2
@Brian, я відчуваю, що ваш коментар потрапляє ближче до суті питання і дещо розбігається з першим реченням у відповіді. Я не думаю, що жодне програмне забезпечення з найменшими квадратами (з розумом) використовує рішення закритої форми. :)
кардинал

4
Кардинально - на практиці найкраще використовувати QR-факторизацію або SVD для вирішення задач з найменшими масштабами. Я б стверджував, що рішення, що використовує одну з цих ортогональних факторизацій, є також "рішенням закритої форми" порівняно з використанням ітеративної методики на зразок LSQR. Я не заглиблювався в це у своїй відповіді, тому що це зайве відвертає увагу від моєї основної суті.
Брайан Борчерс

2
Погане кондиціонування? Підручник закритого форми рішення? Я люблю запах квадратних цифр стану вранці. Маєте великий номер умови? Чому б не квадратизувати його та зробити ще більшим? Маєте не такий великий номер умови? Чому б не квадратувати його і зробити його великим.
Марк Л. Стоун

2

Було кілька повідомлень про машинне навчання (ML) та регресію. ML не потрібен для розв’язання звичайних найменших квадратів (OLS), оскільки він включає операцію сендвіч-матриці в один крок для вирішення системи лінійних рівнянь - тобто . Той факт, що все лінійно, означає, що для вирішення коефіцієнтів потрібна лише одномоментна операція. Логістична регресія заснована на максимізації функції ймовірності , яку можна вирішити за допомогою методу сходження Ньютона-Рафсона або інших методів сходження градієнта ML, метагевристики (сходження на гірку, генетичні алгоритми, інтелект роя, оптимізація колонії мурашок тощо) . β=(XTX)1XTyL=ipi

Що стосується парсингу, використання ML для OLS було б марно, оскільки ітераційне навчання неефективне для вирішення OLS.

Тепер повернемось до вашого реального питання щодо похідних та підходів до вирішення задач на основі градієнта. Зокрема, для логістичної регресії зазвичай використовується підхід градієнта Ньютона-Рафсона (на основі похідних). Ньютон-Рафсон вимагає, щоб ви знали цільову функцію та її часткові похідні wrt кожного параметра (безперервні в межах і диференційовані). ML використовується в основному тоді, коли цільова функція занадто складна ("нестримна") і ви не знаєте похідних. Наприклад, штучна нейронна мережа (ANN) може використовуватися для вирішення або задачі наближення функції, або контрольованої проблеми класифікації, коли функція не відома. У цьому випадку ANN є функцією.

Не робіть помилки, використовуючи методи ML для вирішення проблеми логістичної регресії, тільки тому, що можете. Для логістики Ньютон-Рафсон надзвичайно швидкий і є відповідною технікою вирішення проблеми. ML зазвичай використовується, коли ви не знаєте, що це за функція. (до речі, ANN - із сфери обчислювальної розвідки, а не ML).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.