Підручник з * теорії * нейронних мереж / ML алгоритмів?


23

У кожному підручнику, який я бачив, описані алгоритми ML та способи їх реалізації.

Чи є також підручник, який будує теореми та докази поведінки цих алгоритмів? наприклад, заявивши, що за умов спуск градієнта завжди призведе до A , B , C ?x,y,zA,B,C


1
Є кілька пропозицій на моє запитання тут . Зокрема, вам може сподобатися книга, яку я рекомендую у своїй відповіді.
Джек М

Багато підручників з оптимізації надають докази збіжності алгоритмів оптимізації. (Нам потрібно уважно перевірити, чи виконані гіпотези цих теорем конвергенції, перш ніж зробити якийсь твердий висновок про те, що наш алгоритм гарантовано збігається.)
маленькийO

Відповіді:


16

Основи машинного навчання Мехріара Мохрі, Афшина Ростамізаде і Амета Талвалкара - книга з теорії машинного навчання 2012 року.

Розуміння машинного навчання: від теорії до алгоритмів Шая Шалев-Шварца та Шая Бен-Девіда - це схожа книга 2014 року, яка є досить відомою і орієнтована трохи більше вступно, ніж Морі / Ростамізаде / Талвалкар, але все ще має багато теорії в це. Він вільно доступний в Інтернеті.

Навчання нейронних мереж: теоретичні основи Мартіна Ентоні та Пітера Бартлетта - це книга 1999 року про теорію ML, що виражається як про нейронні мережі, але (на моє враження, не читаючи) - це здебільшого про теорію ML.

Ці три книги здебільшого займають переважну точку зору теорії статистичного навчання. Існує також цікава точка зору під назвою теорія обчислювального навчання, натхненна більшою мірою теорією інформатики. Я думаю, що стандартна вступна книга в цій галузі - «Вступ до теорії обчислювального навчання» , книга Майкла Кірнса та Умеша Вазірані 1994 року.

Ще одна чудова та часто рекомендована у вільному доступі книга - Тревор Хасті, Роберт Тібшірані та Джером Джеймс Фрідман у другому випуску «Елементи статистичного навчання» 2009 року . Це, можливо, трохи менш теоретично, ніж інші, і більше з точки зору статистики, ніж машинознавці, але все ще має великий інтерес.

Крім того, якщо вам особливо важливо спуск градієнта, стандартним посиланням є оптимізація конвексом Стівена Бойда та Лівена Ванденберге. Ця книга 2004 року доступна в Інтернеті.

Жодна з цих книг не містить багато в сучасній теорії глибоких мереж, якщо саме це вас хвилює. (Наприклад, більшість теорій оптимізації стосуватиметься опуклих випадків, яких глибокі мережі, очевидно, не є.) Це тому, що ця теорія є дуже новою; більшість результатів прийшли лише за останні кілька років, і це ще дуже багато з'ясовується. Але, як огляд основного розуміння галузі поки що, будь-яке з них дозволить вам добре зрозуміти документи, в яких робиться ця робота (за винятком, можливо, Kearns / Vazirani, яка зосереджена на різних аспектах аналізу, які я " не впевнений, що успішно застосовано до глибоких мереж - поки що).


Розуміння машинного навчання доступне в Інтернеті з веб-сторінки одного автора.
Якуб Бартчук

2

Машинне навчання: ймовірнісна перспектива Кевіна П. Мерфі пояснює багато теорії з байєсівської точки зору (я використовував її лише для логістичної регресії, але я вважав, що це досить добре). Вся книга доступна в Інтернеті у вигляді PDF-файлу шляхом пошуку в Google.


2
  • Глибоке навчання (серія адаптивного обчислення та машинного навчання) . Про це пишуть Ян Гудфелло, Йошуа Бенджо, Аарон Курвіль . Відповідно до домовленості автора з MIT Press, ви можете прочитати юридично безкоштовну копію, доступну в браузері на цьому веб-сайті. www.deeplearningbook.org Це добре для чистої математики та теорії нейронної мережі та її різних підгалузей.

На додаток до цього,

  • Елементи статистичного навчання: видобуток даних, умовиводи та передбачення - це також хороша книга для побудови теоретико-математичної основи традиційного машинного навчання. Це написано Тревором Хасті, Робертом Тібширані та Джеромом Фрідманом та доступне авторами безкоштовно на веб- сайті https://web.stanford.edu/~hastie/ElemStatLearn/

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.