У кожному підручнику, який я бачив, описані алгоритми ML та способи їх реалізації.
Чи є також підручник, який будує теореми та докази поведінки цих алгоритмів? наприклад, заявивши, що за умов спуск градієнта завжди призведе до A , B , C ?
У кожному підручнику, який я бачив, описані алгоритми ML та способи їх реалізації.
Чи є також підручник, який будує теореми та докази поведінки цих алгоритмів? наприклад, заявивши, що за умов спуск градієнта завжди призведе до A , B , C ?
Відповіді:
Основи машинного навчання Мехріара Мохрі, Афшина Ростамізаде і Амета Талвалкара - книга з теорії машинного навчання 2012 року.
Розуміння машинного навчання: від теорії до алгоритмів Шая Шалев-Шварца та Шая Бен-Девіда - це схожа книга 2014 року, яка є досить відомою і орієнтована трохи більше вступно, ніж Морі / Ростамізаде / Талвалкар, але все ще має багато теорії в це. Він вільно доступний в Інтернеті.
Навчання нейронних мереж: теоретичні основи Мартіна Ентоні та Пітера Бартлетта - це книга 1999 року про теорію ML, що виражається як про нейронні мережі, але (на моє враження, не читаючи) - це здебільшого про теорію ML.
Ці три книги здебільшого займають переважну точку зору теорії статистичного навчання. Існує також цікава точка зору під назвою теорія обчислювального навчання, натхненна більшою мірою теорією інформатики. Я думаю, що стандартна вступна книга в цій галузі - «Вступ до теорії обчислювального навчання» , книга Майкла Кірнса та Умеша Вазірані 1994 року.
Ще одна чудова та часто рекомендована у вільному доступі книга - Тревор Хасті, Роберт Тібшірані та Джером Джеймс Фрідман у другому випуску «Елементи статистичного навчання» 2009 року . Це, можливо, трохи менш теоретично, ніж інші, і більше з точки зору статистики, ніж машинознавці, але все ще має великий інтерес.
Крім того, якщо вам особливо важливо спуск градієнта, стандартним посиланням є оптимізація конвексом Стівена Бойда та Лівена Ванденберге. Ця книга 2004 року доступна в Інтернеті.
Жодна з цих книг не містить багато в сучасній теорії глибоких мереж, якщо саме це вас хвилює. (Наприклад, більшість теорій оптимізації стосуватиметься опуклих випадків, яких глибокі мережі, очевидно, не є.) Це тому, що ця теорія є дуже новою; більшість результатів прийшли лише за останні кілька років, і це ще дуже багато з'ясовується. Але, як огляд основного розуміння галузі поки що, будь-яке з них дозволить вам добре зрозуміти документи, в яких робиться ця робота (за винятком, можливо, Kearns / Vazirani, яка зосереджена на різних аспектах аналізу, які я " не впевнений, що успішно застосовано до глибоких мереж - поки що).
Машинне навчання: ймовірнісна перспектива Кевіна П. Мерфі пояснює багато теорії з байєсівської точки зору (я використовував її лише для логістичної регресії, але я вважав, що це досить добре). Вся книга доступна в Інтернеті у вигляді PDF-файлу шляхом пошуку в Google.
На додаток до цього,
Дизайн нейронних мереж (Мартін Т. Хаган, Говард Б. Демут, Марк Хадсон Біл, Орландо Де Хесус) провів гарне обговорення оптимізації в контексті нейронних мереж.