Що таке ефективність вибірки та як можна використовувати важливе значення для вибірки для її досягнення?

Наприклад, заголовок цієї статті гласить: "Зразок ефективного акторського критику з переглядом досвіду".

Що таке ефективність вибірки та як можна використовувати важливе значення для вибірки для її досягнення?

reinforcement-learning statistical-ai importance-sampling

Відповіді:

Алгоритм вибірково ефективний, якщо він може отримати максимальну користь від кожного зразка. Уявіть, що ви намагаєтеся навчитися вперше грати на PONG. Як людина, вам знадобиться протягом декількох секунд, щоб навчитися грати в гру на основі дуже мало зразків. Це робить вас дуже "вибірково ефективним". Сучасні алгоритми RL повинні побачити в $100$ тисяч разів більше даних, ніж ви, тому вони є відносно неефективними.

У випадку позаполітичного навчання не всі вибірки корисні тим, що вони не є частиною розподілу, який нас цікавить. Важливість вибірки- це техніка фільтрації цих зразків. Первісне його використання було зрозуміти один розподіл, тоді як лише можливість брати зразки з іншого, але пов'язаного з ним розподілу. У РЛ це часто виникає при спробі навчитися поза політикою. А саме, що ваші вибірки виробляються певною політикою поведінки, але ви хочете дізнатися цільову політику. Таким чином, потрібно виміряти, наскільки важливими / подібними є згенеровані вибірки для зразків, які може бути зроблена цільовою політикою. Таким чином, один є вибіркою із зваженого розподілу, що сприяє цим "важливим" зразкам. Однак існує багато методів для характеристики того, що важливо, і їх ефективність може відрізнятися залежно від програми.

Найбільш поширеним підходом до цього позаполітичного стилю вибірки важливості є пошук співвідношення того, наскільки вірогідна вибірка повинна бути сформована цільовою політикою. Документ « Про зв’язок між вибіркою важливості та градієнтом політики ймовірності щодо правдоподібності» (Tang) та Аббелем висвітлює цю тему.

— Яден Травник
джерело

Знову дякую. Основне питання: ..finding a ratio of how likely a sample is to be generated by the target policyяк ми вирішуємо це, враховуючи, що ми знаємо лише політику поведінки? Чи не потрібна цільова політика?

— Гокул NC

Ми можемо отримати оцінку цього легко, знайшовши співвідношення цільової політики, pi, зробивши цю дію віршованою політикою поведінки, мю. Таким чином, співвідношення P = pi (s, a) / mu (s, a), де a і s є дією, обраною mu і станом відповідно.

— Яден Травник

Моє запитання було, звідки ми отримуємо pi (s, a), тоді як у нас є лише mu (s, a)? Тобто, звідки ми беремо цільову політику, а наша мета її знайти?

— Гокул NC

Ваша цільова політика ініціалізована до випадкових, це лише питання її оновлення.

— Яден Травник

Ефективність вибірки позначає обсяг досвіду, який агенту / алгоритму потрібно генерувати в середовищі (наприклад, кількість дій, які він виконує та кількість результуючих станів + винагород, які він спостерігає) під час навчання, щоб досягти певного рівня продуктивності. Інтуїтивно зрозуміло, що можна сказати, що алгоритм є вибірково ефективним, якщо він може добре використати кожен досвід, який може створити та швидко вдосконалити свою політику. Алгоритм має низьку ефективність вибірки, якщо він не може засвоїти нічого корисного з багатьох зразків досвіду і не швидко вдосконалюється.

Пояснення важливості вибірки у відповіді Ядена здається переважно правильним.

У статті у вашому питанні вибірка важливості є одним із інгредієнтів, який дозволяє правильно поєднувати 1) навчання з багатоступеневих траєкторій та 2) досвід повторної передачі буферів. Ці дві речі раніше було непросто поєднати (адже багатоступінчасті повернення без вибірки важливості є правильними лише у навчанні на політиці, а старі зразки в буфері повторення були сформовані за допомогою старої політики, що означає, що навчання у них поза політикою ). Обидва ці речі окремо покращують ефективність вибірки, що означає, що це також вигідно для ефективності вибірки, якщо їх все-таки можна якось комбінувати.

— Денніс Сомерс
джерело