Переведення проблеми машинного навчання в регресійну систему


12

Припустимо, у мене є панель пояснювальних змінних , для , , а також вектор змінних залежних від бінарних результатів . Тож спостерігається лише в кінцевий час а не в будь-який раніше час. Повністю загальний випадок полягає в тому, щоб мати кілька для для кожної одиниці в кожен момент часу , але для короткості зупинимося на випадку . i = 1 . . . N t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1Xiti=1...Nt=1...TYiTYTXijtj=1...KitK=1

Застосування таких "незбалансованих" пар з часовими корельованими пояснювальними змінними є, наприклад, (щоденні ціни на акції, квартальні дивіденди), (щоденні звіти про погоду, щорічні урагани) або (особливості шахової позиції після кожного ходу, результат виграшу / втрати при кожному кінець гри).(X,Y)

Я зацікавлений в (можливо нелінійному) коефіцієнтах регресії для виконання передбачення про , знаючи , що в навчальних даних, враховуючи ранні спостереження для , то це призводить до підсумковогоβt X i t t < T Y i TYitXitt<TYiT

Y^it=f(k=1tXikβk),t=1...T

Виходячи з економетрики, я не бачив регресійного моделювання, застосованого до таких даних. OTOH, я бачив такі методи машинного навчання, які застосовуються до таких даних:

  1. здійснення контрольованого навчання для всього набору даних, наприклад мінімізація

i,t12(Yitf(Xitβt))2

просто екстраполюючи / вводячи спостережуване у всі попередні моменти часуY

YitYiT,t=1...T1

Це відчуває себе "неправильно", оскільки не враховуватиме часову кореляцію між різними моментами.

  1. робити підкріплення навчання , як тимчасова різниця з параметром навчання та параметром знижки , і рекурсивно вирішувати для шляхом зворотного розповсюдження, починаючи зλ β t t = Tαλβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

з градієнт щодо . F ( ) & beta ;βY^f()β

Це здається більш "правильним", оскільки воно враховує тимчасову структуру, але параметри і є своєрідними "ad hoc".λαλ

Запитання : Чи є література про те, як відобразити вищезазначені контрольовані / підкріплюючі методи навчання в регресійну систему, що використовується в класичній статистиці / економетриці? Зокрема, я хотів би мати можливість оцінити параметри за "один раз" (тобто для всіх одночасно), виконавши (нелінійні) найменші квадрати або максимальну ймовірність. на таких моделях, як t = 1 ... Tβtt=1...T

YiT=f(t=1TXitβt)+ϵi

Мені також було б цікаво дізнатись, чи можна відновити часові різниці мета-параметрів та формулюванням максимальної ймовірності.λαλ


Не могли б ви уточнити формулювання в третьому абзаці? Ви пишете, що хочете передбачити від , , але наступна формула говорить про те, що ви хочете передбачити . X i t t < T Y i tYiTXitt<TYit
NRH

@NRH насправді я спостерігаю лише , але те, що я бачив у літературі щодо контрольованого навчання, - це те, що вони привласнюють незабачений рівним а потім роблять пристосування, щоб насправді пояснити це підроблений від (це робиться в ігрових програмах, де функція оцінювання для кожної позиції підходить під кінцевий результат гри). Вибачте, якщо це було незрозуміло з моєї початкової рецептури. У будь-якому випадку, буде прогнозованим "результатом" (в ігрових програмах) з урахуванням спостережуваних подій . Y я т Y я T Y я т Х я т У я т Х я тYiTYitYiTYitXitY^itXit
TemplateRex

Я розумію налаштування і те, що ви спостерігаєте, але ваша формулювання у питанні незрозуміло. Ви хочете підготувати модель для прогнозування коли ви пишете словами, чи ви хочете навчити модель прогнозування для всіх як підказують формули? Можливо, це просто помилка. Коли ви пишете «... пророкування про ...» ви маєте в виду «... пророкування про ...»? Y i t t Y i T Y i tYiTYittYiTYit
NRH

не ясно, чому ти хочеш це робити. Якщо ви можете пояснити фактичне практичне застосування, ви можете отримати більш чіткі відповіді. Загалом, найкращим прогнозом для кожного періоду часу буде просто регресія на доступних даних окремо для кожного t. Не очевидно, що одночасний підхід має якусь користь. Я думаю, ви повинні вказати статистичну модель для вашого набору даних, і тоді, можливо, переваги будуть зрозумілішими. X 1 , , X tYTX1,,Xt
seanv507

@NRH, так, я хочу передбачити від знаючи, що це призводить до результату у навчальних даних, щоб вжити оптимальних дій для тестових даних, де я також спостерігаю але ще не спостерігали результату. Оновлять мою рецептуру. X i t Y i T X i tYitXitYiTXit
TemplateRex

Відповіді:


1

Опис проблеми для мене не зовсім зрозумілий, тому я намагаюся вгадати деякі припущення. Якщо це не відповідає на ваше запитання, це може хоча б допомогти уточнити проблеми.

Перше, що мені не зрозуміло - це дані, на яких ви хочете базувати свій прогноз. Якщо ви хочете спрогнозувати на основі спостережуваних даних до t < T, то рекурсивний підхід, як у вашому методі 2. не має сенсу, оскільки для цього використовуються майбутні дані, тобто X τ з τ > t .YTt<TXττ>t

По-друге, ви не вказуєте, якими будуть властивості прогнозованого . Взагалі, з урахуванням інформації X 1 , , X t у часі t < T умовне очікування Y t = E [ Y TX 1 , , X t ] є „найкращим прогноктором” Y T у сенсі L2. Якщо ви дійсно хочете передбачити умовне очікування звичайних найменших квадратів, це метод вибору для практичної оцінки.YtX1,,Xtt<TYt=E[YTX1,,Xt]YT

Крім того, я не розумію, що ваше зауваження щодо кореляцій не відображається регресією на основі . Це включає все, що ви знаєте, доки не включати кореляції між вашими спостереженнями.X1,,Xtt

Отже, підбиваючи підсумки та формулюючи це як відповідь: Якщо ви хочете зробити оптимальне передбачення у сенсі L2, ґрунтуючись лише на даних, що спостерігаються до ви можете використовувати регресію найменших квадратів.t<T


в навчальних даних, я хочу використовувати той факт , що дане спостереження буде статистично привести до підсумкового Y я T для прогнозування Y я т для даних випробувань , де я не спостерігаю Y я Т до згодом. Якщо, наприклад, ви знаєте, що після 3 вітряних днів у 7 день буде ймовірний дощ, ви хочете скористатися цією інформацією, щоб сказати людям принести парасольки після вихідних після кількох вітряних днів до цього. XitYiTY^itYiT
TemplateRex

0

Перевага тимчасових відмінностей полягає в тому, що вони дозволяють вчитися з неповних епізодів. Отже, послідовності, де ви не потрапили до фіналу Y, все одно можна використовувати для підгонки до моделі; наступні оцінки використовуються замість цього. Ефект схожий на приховану імпутацію даних; Ви неявно ви набираєте залишок послідовності відповідно до вашої поточної моделі.
Моделі часової різниці, як правило, навчаються стохастичним градієнтом . контролює швидкість навчання. Занадто висока, і метод буде розходитися. Занадто низький рівень і зближення до локального оптимуму буде дуже повільним. Але конвергенція завжди повинна бути однаковою моделлю. Тут γα
γконтролює відносне зусилля, приділене прогнозам, залежно від того, наскільки вони далекі від кінця послідовності. Оскільки ці послідовності мають кінцеву довжину, ви можете встановити це на , щоб надати однакову вагу для всіх оцінок. γ=1


Це насправді не відповідає на питання: наприклад, як можна оптимально встановити параметри і γ в рамках максимальної ймовірності? αγ
TemplateRex

контролює швидкість конвергенції, але не повинен впливати на остаточну модель або ймовірність цієї моделі. На практиці я встановлюю це методом проб і помилок. Вам слід встановити γ, оскільки він контролює відносну важливість короткотермінових та довгострокових прогнозів, якщо однакові параметри використовуються для коротких і довгих прогнозів. Це буде залежно від програми, залежно від того, що ви хочете зробити з прогнозами. αγ
nsweeney
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.