Запитання з тегом «reinforcement-learning»

Набір динамічних стратегій, за допомогою яких алгоритм може вивчити структуру навколишнього середовища в Інтернеті, пристосовуючи заходи, пов'язані з різними винагородами, щоб максимально заробити отримані винагороди.

5
Яка різниця між позаполітичним та політичним навчанням?
Веб-сайт із штучним інтелектом визначає позаполітичне та політичне навчання наступним чином: "Учасник, який перебуває поза політикою, дізнається значення оптимальної політики незалежно від дій агента. Q-навчання - це вчитель, який не відповідає політиці. Учень, який проводить політику, дізнається значення політики, яку проводить агент, включаючи етапи дослідження. . " Я хотів би …

3
Розуміння ролі коефіцієнта знижок у зміцненні навчання
Я вчу себе про навчання підкріпленням і намагаюся зрозуміти поняття винагороди зі знижкою. Отже, нагорода необхідна, щоб сказати системі, які пари "держава-дія" є хорошими, а які - поганими. Але я не розумію, чому необхідна винагорода зі знижкою. Чому має значення, чи буде досягнутий хороший стан швидше, ніж пізніше? Я розумію, …

2
Чому немає шахматних двигунів для вивчення шахів, подібних до AlphaGo?
Комп’ютери вже давно вміють грати в шахи, використовуючи техніку "грубої сили", шукаючи певну глибину і потім оцінюючи позицію. Комп'ютер AlphaGo, однак, використовує лише ANN для оцінки позицій (наскільки я не знаю, він не здійснює глибокого пошуку). Чи можливо створити шаховий двигун, який грає в шахи так само, як AlphaGo грає …


2
Навчальне навчання, непідконтрольне навчання та посилення навчання: основи робочого процесу
Контрольоване навчання 1) Людина будує класифікатор на основі вхідних та вихідних даних 2) Цей класифікатор навчається з навчальним набором даних 3) Цей класифікатор тестується за допомогою тестового набору даних 4) Розгортання, якщо вихід задовільний Для використання, коли: "Я знаю, як класифікувати ці дані, мені просто потрібно (класифікатор) для їх сортування". …

3
Кращий бандитський алгоритм?
Найвідомішим алгоритмом бандитів є верхня довіра (UCB), яка популяризувала цей клас алгоритмів. З того часу я припускаю, що зараз є кращі алгоритми. Який найкращий поточний алгоритм (з точки зору емпіричної продуктивності чи теоретичної межі)? Чи оптимальним є цей алгоритм у певному сенсі?

3
Щоденний аналіз часових рядів
Я намагаюся зробити аналіз часових рядів і я новачок у цій галузі. Я щодня перераховую подію 2006–2009 рр. І хочу приєднати до неї модель часових рядів. Ось прогрес, який я досяг: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) Отриманий сюжет я отримую: Щоб перевірити, чи є сезонність і тенденція в даних, чи ні, …

4
Як би ви створили систему машинного навчання грі Angry Birds?
Погравши занадто багато Angry Birds, я почав дотримуватися власних стратегій. Виявляється, я розробив дуже специфічний підхід до отримання 3 зірок на кожному рівні. Це змусило мене замислитися над проблемами розвитку системи машинного навчання, яка б змогла грати Angry Birds. Взаємодія з грою та запуск птахів є тривіальною. Але одне питання, …

2
Що таке рецидивуюче навчання посилення
Нещодавно я натрапив на слово "Повчальне навчання зміцненню". Я розумію, що таке "Рекурентна нейронна мережа" і що таке "Навчання підсилення", але не зміг знайти багато інформації про те, що таке "Повсюдне навчання зміцненню". Чи може хтось пояснити мені, що таке "Повсюдне навчання підсилення" і в чому різниця між "Поточним навчанням …

1
Коли вибрати SARSA vs. Q Learning
SARSA та Q Learning - це алгоритми навчання посилення, які працюють аналогічно. Найяскравіша відмінність полягає в тому, що SARSA проводить політику, а Q Learning - поза політикою. Правила оновлення такі: Q Навчання: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] де st,atst,ats_t,\,a_t і rtrtr_t - стан, дія та винагорода на етапі часу ttt і γγ\gamma …

4
Чому Q-Learning використовує жадібний епсілон під час тестування?
У статті DeepMind про Deep Q-Learning для відеоігор Atari ( тут ) вони використовують метод жадібного епсилону для дослідження під час тренувань. Це означає, що коли в тренінгу вибирається дія, вона вибирається як дія з найвищим значенням q, або випадкова дія. Вибір між цими двома є випадковим і ґрунтується на …

2
як зробити функцію винагороди у підкріпленні навчання
Під час вивчення навчання підсиленням я натрапив на багато форм функції винагороди: , і навіть функцію винагороди, яка залежить лише від поточного стану. Сказавши це, я зрозумів, що «зробити» або «визначити» функцію винагороди не дуже просто.R(s,a)R(s,a)R(s,a)R(s,a,s′)R(s,a,s′)R(s,a,s') Ось мої запитання: Чи є правила, як зробити функції винагороди? Чи існують інші форми …


1
Чи навчається під наглядом підмножина підсилення навчання?
Схоже, визначення контрольованого навчання - це підмножина посиленого навчання з певним видом функції винагороди, яка базується на мічених даних (на відміну від іншої інформації в оточенні). Це точне зображення?

4
У яких ситуаціях із реального життя ми можемо використовувати алгоритм бандитів з кількома руками?
Багатогранні бандити добре працюють у ситуаціях, коли у вас є вибір, і ви не впевнені, який з них дозволить максимально покращити ваше самопочуття. Можна використовувати алгоритм для деяких реальних життєвих ситуацій. Як приклад, навчання може бути хорошим полем: Якщо дитина вивчає столярні вироби і йому погано в цьому, алгоритм скаже …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.