Чи навчається під наглядом підмножина підсилення навчання?


16

Схоже, визначення контрольованого навчання - це підмножина посиленого навчання з певним видом функції винагороди, яка базується на мічених даних (на відміну від іншої інформації в оточенні). Це точне зображення?

Відповіді:


24

Це правда, що будь-яка контрольована проблема навчання може бути представлена ​​як рівнозначна навчальна проблема підкріплення: нехай стани відповідають вхідним даним. Нехай дії відповідають прогнозам результату. Визначте винагороду як мінус функції збитків, яка використовується для контрольованого навчання. Максимізуйте очікувану винагороду. На противагу цьому, проблеми з навчанням, що підкріплюються, як правило, не можна вважати проблемами навчального нагляду. Отже, з цієї точки зору, контрольовані проблеми навчання є підгруппою підсилюючих проблем навчання.

Але намагатися вирішити контрольовану задачу навчання за допомогою загального алгоритму навчання підкріплення було б досить безглуздим; все це - це викидання структури, яка б полегшила вирішення проблеми. У навчанні підкріплення виникають різні проблеми, які не мають відношення до контрольованого навчання. І контрольоване навчання може скористатися підходами, які не застосовуються в загальних умовах посилення навчання. Отже, хоча існують деякі загальні основні принципи та спільні методи між полями, як правило, не розглядається контрольоване навчання, як обговорене, як тип підкріплюючого навчання.

Список літератури

Барто і Діттеріх (2004) . Підсилення навчання та його зв'язок з контрольованим навчанням.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.