Під час тренування параметризованої моделі (наприклад, для збільшення максимальної вірогідності) за допомогою стохастичного градієнтного спуску на деякому наборі даних зазвичай прийнято вважати, що навчальні зразки витягуються внаслідок розподілу навчальних даних. Отже, якщо мета - моделювати спільний розподіл , то кожний навчальний зразок ( x i , y i ) повинен бути виведений у тому ж розподілі.
Якщо метою є замість моделювання умовного розподілу , то як змінюється вимога iid, якщо він взагалі?
- Повинен ми все-таки взяти кожен зразок iid із спільного розподілу?
- Чи повинні ми намалювати iid з P ( X ) , а потім намалювати y i iid з P ( Y | X ) ?
- Чи можемо ми намалювати не iid з P ( X ) (наприклад, корельованого за часом), а потім намалювати y i iid з P ( Y | X ) ?
Чи можете ви прокоментувати справедливість цих трьох підходів для стохастичного градієнтного спуску? (Або допоможіть мені переформулювати питання, якщо це необхідно.)
Я хотів би зробити №3, якщо можливо. Моя програма полягає у навчанні підкріплення, де я використовую параметризовану умовну модель як політику управління. Послідовність станів є дуже корельованою, але дії y i є вибірковою, наприклад, із стохастичної політики, обумовленої станом. Отримані зразки ( x i , y i )(або їх підмножина) використовуються для навчання політики. (Іншими словами, уявіть собі, що тривалий час керуєте політикою управління в певному середовищі, збираючи набір даних зразків стану / дії. Тоді, хоча стани з часом корелюються, дії генеруються незалежно, залежно від стану.) Це дещо схоже на ситуацію в цій статті .
Я знайшов документ, Рябко, 2006 р., " Розпізнавання візерунків для умовно незалежних даних ", який спочатку здавався релевантним; однак там ситуація повернена до того, що мені потрібно, де (мітка / категорія / дія) можна намалювати не iid від P ( Y ) , а x i (об'єкт / шаблон / стан) намальовано iid від .
Оновлення: два документи ( тут і тут ), згадані в статті Рябко, здаються актуальними тут. Вони припускають, що походить від довільного процесу (наприклад, не iid, можливо, нестаціонарний). Вони показують, що в цьому випадку послідовні оцінки найближчого сусіда та ядра. Але мене більше цікавить, чи справедлива оцінка на основі стохастичного градієнтного спуску в цій ситуації.