Координатний спуск Fisher Scoring v / s для MLE в R

Основна функція R glm()використовує Fisher Scoring для MLE, тоді як, glmnetсхоже, використовується метод спуску координат для вирішення того ж рівняння. Координатний спуск є більш ефективним за часом, ніж Fisher Scoring, оскільки Fisher Scoring обчислює похідну матрицю другого порядку, окрім деяких інших операцій з матрицею. що робить дорогим виконання, тоді як спуск координат може виконувати те саме завдання за O (np).

Чому б основна функція R використовувала бал Фішера? Чи має цей метод перевагу перед іншими методами оптимізації? Як порівнюється спуск координат та оцінка фішера? Я відносно новий, хто займається цим полем, тому будь-яка допомога чи ресурс будуть корисні.

machine-learning r algorithms optimization

— гол
джерело

Єдиний спосіб бути впевненим - це тестування, але для glm оцінка Фішера повинна бути швидшою, ніж координатний спуск. Оцінка Фішера - це особливий випадок Ньютона Рафсона, який має швидший показник конвергенції, ніж координатний спуск (Ньютон-Рафсон є квадратично конвергентним, а спуск координат - лінійно збіжним.) Тому, хоча обчислення інформації другої похідної означає, що кожен крок займає більше час, це може зажадати набагато менше кроків, ніж координатний спуск.

Що стосується ласо, особлива форма строку покарання робить його дуже особливим випадком (і насправді абсолютна величина так чи інакше не відрізняється, хоча іноді ви можете це штрафувати). З цієї особливої проблеми координатний спуск виявляється особливо швидким. Існує багато інших проблем оптимізації, коли на практиці Ньютон-Рафсон швидше.

— арсмат
джерело