Ось кілька хороших посилань на зміцнення навчання:
Класичний
Sutton RS, Barto AG. Навчання зміцненню: вступ. Кембридж, Массачусетс: Книга Бредфорда; 1998. 322 с.
Проект другого видання доступний безкоштовно: http://incompleteideas.net/book/the-book-2nd.html
Рассел / Норвіг Глава 21:
Рассел SJ, Норвіг П, Девіс Е. Штучний інтелект: сучасний підхід. Річка Верхнього Сідла, штат Нью-Джерсі: Зал Прентісе; 2010 рік.
Більш технічна
Szepesvári C. Алгоритми для посилення навчання. Синтезні лекції з питань штучного інтелекту та машинного навчання. 2010; 4 (1): 1–103. http://www.ualberta.ca/~szepesva/RLBook.html
Берцекас ДП. Динамічне програмування та оптимальне управління. 4-е видання. Белмонт, Массачусетс: Афіна Наукова; 2007. 1270 с.
Розділ 6, т. 2 доступний безкоштовно: http://web.mit.edu/dimitrib/www/dpchapter.pdf
Для останніх розробок
Wiering M, van Otterlo M, редактори. Навчання зміцненню. Берлін, Гейдельберг: Спрингер Берлін Гейдельберг; 2012 Доступно за посиланням: http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynolds HJD, Thornton JR та ін. Прийняття рішень у невизначеності: теорія та застосування. 1 видання. Кембридж, штат Массачусетс: Преса MIT; 2015. 352 с.
Багатоагентне підкріплення навчання
Buşoniu L, Babuška R, Schutter BD. Навчання підсиленням з кількох агентів: огляд. В: Шрінівасан Д, Джейн ЛК, редактори. Інновації в багатоагентних системах та додатках - 1. Спрингер Берлін Гейдельберг; 2010 p. 183–221. Доступний з: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
Schwartz HM. Багатоагентне машинне навчання: підхід підкріплення. Хобокен, Нью-Джерсі: Вілі; 2014 рік.
Відео / Курси
Я б також запропонував курс Девіда Сілвер на YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa