Запитання з тегом «reinforcement-learning»

Питання, пов'язані з навчанням, керованим зовнішнім позитивним підкріпленням або негативним сигналом зворотного зв’язку або обома, коли засвоєння та використання вивченого поки що відбувається одночасно.

2
Чому базовий рівень залежить від стану в певний час непідвладного?
У робототехніці для пошуку схеми управління роботом використовується техніка навчання підкріплення. На жаль, більшість методів градієнта політики є статистично упередженими, що може привести робота в небезпечну ситуацію, див. Сторінку 2 у « Ян Петерс та Стефан Шаль»: Підсилення навчання моторних навичок градієнтами політики, 2008 Завдяки руховому примітивному навчанню можна подолати …

1
Кілька сумнівів щодо застосування підкріплюючого навчання до ігор, як шахи
Я винайшов шахову настільну гру. Я побудував двигун, щоб він міг грати автономно. Двигун - це в основному дерево рішень. Складається з: Функція пошуку, яка на кожному вузлі знаходить усі можливі юридичні кроки Функція оцінювання, яка присвоює числовому значенню позицію на дошці (позитивне означає, що перші гравці отримують перевагу, негативне …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.