Чи можна навчати модель P (Y | X) за допомогою стохастичного градієнтного спуску з неіідних зразків P (X) та iid зразків P (Y | X)?


10

Під час тренування параметризованої моделі (наприклад, для збільшення максимальної вірогідності) за допомогою стохастичного градієнтного спуску на деякому наборі даних зазвичай прийнято вважати, що навчальні зразки витягуються внаслідок розподілу навчальних даних. Отже, якщо мета - моделювати спільний розподіл , то кожний навчальний зразок ( x i , y i ) повинен бути виведений у тому ж розподілі.P(X,Y)(xi,yi)

Якщо метою є замість моделювання умовного розподілу , то як змінюється вимога iid, якщо він взагалі?P(Y|X)

  1. Повинен ми все-таки взяти кожен зразок iid із спільного розподілу?(xi,yi)
  2. Чи повинні ми намалювати iid з P ( X ) , а потім намалювати y i iid з P ( Y | X ) ?xiP(X)yiP(Y|X)
  3. Чи можемо ми намалювати не iid з P ( X ) (наприклад, корельованого за часом), а потім намалювати y i iid з P ( Y | X ) ?xiP(X)yiP(Y|X)

Чи можете ви прокоментувати справедливість цих трьох підходів для стохастичного градієнтного спуску? (Або допоможіть мені переформулювати питання, якщо це необхідно.)

Я хотів би зробити №3, якщо можливо. Моя програма полягає у навчанні підкріплення, де я використовую параметризовану умовну модель як політику управління. Послідовність станів є дуже корельованою, але дії y i є вибірковою, наприклад, із стохастичної політики, обумовленої станом. Отримані зразки ( x i , y i )xiyi(xi,yi)(або їх підмножина) використовуються для навчання політики. (Іншими словами, уявіть собі, що тривалий час керуєте політикою управління в певному середовищі, збираючи набір даних зразків стану / дії. Тоді, хоча стани з часом корелюються, дії генеруються незалежно, залежно від стану.) Це дещо схоже на ситуацію в цій статті .

Я знайшов документ, Рябко, 2006 р., " Розпізнавання візерунків для умовно незалежних даних ", який спочатку здавався релевантним; однак там ситуація повернена до того, що мені потрібно, де (мітка / категорія / дія) можна намалювати не iid від P ( Y ) , а x iyiP(Y)xi (об'єкт / шаблон / стан) намальовано iid від .P(X|Y)

Оновлення: два документи ( тут і тут ), згадані в статті Рябко, здаються актуальними тут. Вони припускають, що походить від довільного процесу (наприклад, не iid, можливо, нестаціонарний). Вони показують, що в цьому випадку послідовні оцінки найближчого сусіда та ядра. Але мене більше цікавить, чи справедлива оцінка на основі стохастичного градієнтного спуску в цій ситуації.xi


1
Може бути , я що - то НЕ вистачає, і я не читав газету, але: ви малюєте НЕ-IID з P ( X ) , а потім вибірки у я IID з P ( Y | X ) . Ryabko (2006) малює y i non -id з P ( Y ), а потім відбирає вибірку x i iid з P ( X Y ) . Вони здаються однаковими до перейменування. Чи є щось принципово інше в об'єктах x і yxiP(X)yiP(YX)yiP(Y)xiP(XY)xyце робить це не однаковою ситуацією?
Дугал

XYP(Y|X)P(X|Y)

2
YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ), що є залишковим, є IID (отже, стаціонарним і некорельованим), тоді процедура оцінки конвергується без упереджень. В основному обробка часових рядів у часовому порядку або будь-який рандомізований порядок не має значення в процедурі MLE до тих пір, поки умовна ймовірність правильно вказана, а залишки - IID.
Cagdas Ozgenc

Відповіді:


1

Я думаю, ви могли б зробити або 2, або 3. Однак проблема з 3 полягає в тому, що в дозволі довільних розподілів для X ви включаєте розподіли, які мали б всю або майже всю зосереджену вірогідність - невеликий інтервал у x-просторі. Це зашкодить загальній оцінці P (Y | X), оскільки у вас буде мало або відсутні дані для певних значень X.


Так ви кажете, що з підходом №3 я отримав би неупереджений результат з потенційно високою дисперсією?
Тайлер Стрітер

11

Так, це має сенс, що дисперсія могла бути великою. Я думаю, що моя головна стурбованість полягає в тому, чи буде передбачуваний P (Y | X) упереджений.
Тайлер Стрітер

Ми не обговорювали бальну оцінку. Якщо у вас є неупереджені оцінки для P (X), P (Y) і P (X | Y) і підключіть їх до формули P (Y | X) = P (X | Y) P (Y) / P (X) ви отримаєте необ’єктивну оцінку.
Майкл Р. Черник

Я повинен підкреслити, що я говорю про оцінку P (Y | X) за допомогою стохастичного градієнтного спуску, і в такому випадку порядок навчальних зразків може впливати на швидкість чи наближення до правильної моделі. Я не просто використовую вибіркові середні показники, де порядок зразків не має значення.
Тайлер Стрітер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.