Підручник з питань підкріплення


12

Шукаю підручник / конспекти лекцій для посилення навчання. Мені подобається "Вступ до статистичного навчання" , але, на жаль, вони не висвітлюють цю тему. Я знаю, що книга Саттона і Барто - це стандартний довідник, і, можливо, НДП також хороший, але вони датовані 1997-98 роками, і я сподівався знайти більш сучасну експозицію, оскільки ця сфера, ймовірно, має певний розвиток останнім часом час.

Відповіді:


15

Я думаю, що Саттон і Барто досі є еталоном. В Інтернеті є багато слайд-колод та приміток з класів AI, але вони, як правило, не надто деталізуються.

Саттон і Барто трохи старі, але вони готують друге видання свого підручника. Проект від січня 2018 року доступний тут ; він пов'язаний із веб-сторінки Саттона , на якій також є повний текст першого видання.

Я хотів би переконатися в цьому, перш ніж брати участь у вирішенні рішення Кочендерфера та ін., Прийнятого в умовах невизначеності . Ця книга має кілька цікавих застосувань (в основному в авіації), але вона швидко рухається і багато підскакує. Алгоритми Шепесварі для навчання зміцненню теж хороші, але піти - для отримання потрібно близько двадцяти сторінок , проти семи розділів і 150 сторінок у новіших Саттон і Барто.TD(λ)

Крім цього, ви можете спробувати зануритися в деякі документи - навчальні матеріали з підсиленнями, як правило, досить доступні.


Дякую, я переглянув нове видання, але я б не сказав, що він значно оновлений. Мені все ж цікавіше більш сучасне опромінення.
Уліс

Так, це, безумовно, не повний капітальний ремонт, але нічого іншого насправді не спадає на думку, окрім кількох томів "Лекційних записок" Спрингера, які по суті є лише колекціями робіт. Якщо ви знайшли щось інше, будь ласка, опублікуйте оновлення; Я хотів би це перевірити.
Метт Крауз

Бачу, впевнений, що зроблю
Улісс

1
@CharlieParker, я не впевнений. Найновіший проект (19 червня 2017 р.) Виглядає досить повною і згадує MIT Press, проте, як видається, сайт MIT Press продає перше видання. Щодо того, що варто, проект надходить безпосередньо з публічного веб-сайту авторів, тому не потрібно хвилюватися щодо використання "просоченої" версії чи чогось подібного.
Метт Крауз

1
@Thomas, я оновив посилання новим проектом.
Метт Крауз

6

Ви можете перевірити Алгоритми навчання зміцнення Csaba Szepesvári, опубліковані в 2010 р. PDF, які можна завантажити з веб-сайту. На мою думку, він трохи більш технічний, ніж Саттон і Барто, але охоплює менше матеріалу.


6

Тут у вас є кілька хороших підручників / посилань:

Класичний

Sutton RS, Barto AG. Навчання зміцненню: вступ. Кембридж, Массачусетс: Книга Бредфорда; 1998. 322 с.

Проект другого видання доступний безкоштовно: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

Рассел / Норвіг Глава 21:

Рассел SJ, Норвіг П, Девіс Е. Штучний інтелект: сучасний підхід. Річка Верхнього Сідла, штат Нью-Джерсі: Зал Прентісе; 2010 рік.

Більш технічна

Szepesvári C. Алгоритми для посилення навчання. Синтезні лекції з питань штучного інтелекту та машинного навчання. 2010; 4 (1): 1–103. http://www.ualberta.ca/~szepesva/RLBook.html

Берцекас ДП. Динамічне програмування та оптимальне управління. 4-е видання. Белмонт, Массачусетс: Афіна Наукова; 2007. 1270 с. Розділ 6, т. 2 доступний безкоштовно: http://web.mit.edu/dimitrib/www/dpchapter.pdf

Для останніх розробок

Wiering M, van Otterlo M, редактори. Навчання зміцненню. Берлін, Гейдельберг: Спрингер Берлін Гейдельберг; 2012 Доступно за посиланням: http://link.springer.com/10.1007/978-3-642-27645-3

Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynolds HJD, Thornton JR та ін. Прийняття рішень у невизначеності: теорія та застосування. 1 видання. Кембридж, штат Массачусетс: Преса MIT; 2015. 352 с.

Багатоагентне підкріплення навчання

Buşoniu L, Babuška R, Schutter BD. Навчання підсиленням з кількох агентів: огляд. В: Шрінівасан Д, Джейн ЛК, редактори. Інновації в багатоагентних системах та додатках - 1. Спрингер Берлін Гейдельберг; 2010 p. 183–221. Доступний з: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7

Schwartz HM. Багатоагентне машинне навчання: підхід підкріплення. Хобокен, Нью-Джерсі: Вілі; 2014 рік.

Відео / Курси

Я б також запропонував курс Девіда Сілвер на YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa


3

Мої улюблені конспекти лекцій з вивчення підкріплення - це Ендрю Нг в курсі Стенфорда по ML CS229:

Зауваження щодо зміцнення кадрів Stanford CS229

Ви також можете завантажити відео з лекцій на iTunes. Або на YouTube, вони починаються за наступним посиланням:

Лекція 16 CS229

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.