Визначте оптимальну швидкість навчання для спуску градієнта при лінійній регресії

9

Як можна визначити оптимальну швидкість навчання для градієнтного спуску? Я думаю, що я міг би автоматично його відрегулювати, якщо функція витрат поверне більше значення, ніж у попередній ітерації (алгоритм не збіжиться), але я не дуже впевнений, яке нове значення воно має прийняти.

regression machine-learning gradient-descent

— Валентин Раду
джерело

willamette.edu/~gorr/classes/cs449/momrate.html Спроба відпалу у формі адаптації локальної швидкості: µ (t) = µ (0) / (1 + t / T); Приріст t, коли знак помилки змінюється.

— Кріс

2

(Роками пізніше) шукайте метод розміру кроків Барзілай-Борвейн; onmyphd.com має приємний опис на 3 сторінки. Автор каже

такий підхід працює добре навіть для великих розмірних проблем

але це жахливо для його аплету функції 2d Розенброк. Якщо хтось використовує Барзілай-Борвейн, будь ласка, прокоментуйте його.

— деніс
джерело

1

Ви на правильному шляху. Поширений підхід полягає в тому, щоб подвоїти розмір кроку кожного разу, коли ви зробите успішний крок вниз, і вдвічі зменшити розмір кроку, коли ви випадково зайшли "занадто далеко". Ви, звичайно, можете масштабувати якийсь інший фактор, крім 2, але це, як правило, не має великого значення.

Більш складні методи оптимізації, швидше за все, пришвидшать конвергенцію, але якщо вам доведеться прокрутити власне оновлення з якихось причин, це вище привабливо просто і часто досить добре.

— Малював
джерело

Я думав також множити / ділити на два. Однак я переживаю, що множення на два при кожному успішному кроці закінчиться набагато більше ітерацій. Я сподівався, що є спосіб зробити це за допомогою градієнта, оскільки він містить деяку інформацію про те, наскільки крутий схил.

— Валентин Раду

Мені не здається правдоподібним, що таку інформацію можна отримати з градієнта. Сам градієнт не говорить вам про те, наскільки ви віддалені від оптимального, і що важливіше - як змінюється сам градієнт, коли

x

$x$ зміни. Для цього вам знадобиться гессієць.

— sjm.majewski

Якщо ви маєте справу з основним стаціонарним процесом, максимальна швидкість навчання регулюється спектром кореляційної матриці, правда?

— яскрава зірка