Навчальне навчання, непідконтрольне навчання та посилення навчання: основи робочого процесу


30

Контрольоване навчання

  • 1) Людина будує класифікатор на основі вхідних та вихідних даних
  • 2) Цей класифікатор навчається з навчальним набором даних
  • 3) Цей класифікатор тестується за допомогою тестового набору даних
  • 4) Розгортання, якщо вихід задовільний

Для використання, коли: "Я знаю, як класифікувати ці дані, мені просто потрібно (класифікатор) для їх сортування".

Точка методу: Класифікація міток або отримання реальних чисел

Непідконтрольне навчання

  • 1) Людина будує алгоритм на основі вхідних даних
  • 2) Цей алгоритм тестується за допомогою тестового набору даних (в якому алгоритм створює класифікатор)
  • 3) Розгортання, якщо класифікатор задовільний

Для використання, коли: "Я не маю уявлення, як класифікувати ці дані, чи можете ви (алгоритм) створити для мене класифікатор?"

Точка методу: класифікація міток або передбачення (PDF)

Підсилення навчання

  • 1) Людина будує алгоритм на основі вхідних даних
  • 2) Цей алгоритм відображає стан, залежний від вхідних даних, у якому користувач винагороджує або карає алгоритм через дію, яку алгоритм здійснив, це триває з часом
  • 3) Цей алгоритм вчиться на винагороді / покаранні і оновлює себе, це продовжується
  • 4) Це завжди у виробництві, йому потрібно вивчити реальні дані, щоб мати змогу представляти дії від держав

Для використання, коли: "Я не маю уявлення, як класифікувати ці дані, чи можете ви класифікувати ці дані, і я дам вам нагороду, якщо вони правильні, або я покараю вас, якщо це не так".

Це такий потік цих практик, я багато чую про те, що вони роблять, але практичної та зразкової інформації жахливо мало!


Дуже сподобалось, як ви подали своє запитання. Я вважаю цю відповідь корисною: stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh

Відповіді:


3

Це дуже приємне компактне вступ до основних ідей!

Навчання зміцненню

Я думаю, що ваш опис випадку використання підкріплення не зовсім правильний. Термін класифікувати не підходить. Кращим описом буде:

Я не знаю, як діяти в цьому середовищі , чи можете ви знайти хорошу поведінку, а тим часом я дам вам відгуки .

Іншими словами, мета - скоріше контролювати щось добре, ніж класифікувати щось добре.

Вхідні дані

  • Середа , яка визначається
    • всі можливі стани
    • можливі дії в штатах
  • Функція винагороди залежно від стану та / або дії

Алгоритм

  • Агент
    • перебуває в стані
    • вживає дії щодо переведення в іншу державу
    • отримує винагороду за акцію в державі

Вихідні дані

  • Агент хоче знайти оптимальну політику, яка максимально збільшує винагороду

2

Відмова: Я не експерт, і я навіть ніколи не робив чогось із вивчення підкріплення (поки що), тому будь-який зворотній зв'язок буде вітатися ...

Ось відповідь, яка додає до вашого списку трохи крихітних математичних записок, а також різні думки про те, коли використовувати. Я сподіваюся, що перерахування є достатньо зрозумілим:

Під наглядом

  1. У нас є даніD={(x0,y0),(x1,y1),,(xn,yn)}
  2. Ми шукаємо модель яка мінімізує деякий показник втрат / витрат для всіх точокgL(yi,g(xi))0i<l
  3. Ми оцінюємо модель, обчислюючи втрату / вартість для решти даних ( ), щоб отримати уявлення про те, наскільки добре модель узагальнюєLlin

Ми можемо навести приклади, але ми не можемо дати алгоритм, щоб перейти від введення до виводу

Встановлення для класифікації та регресії

Без нагляду

  1. У нас є даніD={x0,x1,,xn}
  2. Ми шукаємо модель яка дає нам деяке розуміння наших даних.g
  3. У нас мало жодних заходів, щоб сказати, чи зробили ми щось корисне / цікаве

У нас є деякі дані, але ми не маємо уявлення, з чого почати шукати корисні / цікаві речі

Налаштування кластеризації, зменшення розмірності, пошуку прихованих факторів, генеративних моделей тощо.

Армування

  1. У нас немає даних
  2. Ми побудуємо модель яка генерує дані (часто їх називають діями), яка може бути заснована на вимірюваннях та / або попередніх діях, намагаючись максимально збільшити деяку міру винагороди , яка, як правило, не відома моделі (її потрібно також вивчити).x i R ( x i )gxiR(xi)
  3. Ми оцінюємо за допомогою функції винагороди після того, як у неї з’явився певний час.

Ми не маємо ідеї, як щось зробити, але можемо сказати, чи було це зроблено правильно чи неправильно

Це здається особливо корисним для послідовних завдань рішення.

Посилання:
Si, J., Barto, A., Powell, W. and Wunsch, D. (2004) Підсилення навчання та його зв'язок з контрольованим навчанням, у Підручнику навчання та приблизного динамічного програмування, John Wiley & Sons, Inc., Hoboken, Нью-Джерсі, США. doi: 10.1002 / 9780470544785.ch2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.