Основна проблема навчання TD і DP полягає в тому, що їх крокові оновлення упереджені щодо початкових умов параметрів навчання. Процес завантаження зазвичай оновлює функцію або пошук Q (s, a) на значення наступника Q (s ', a'), використовуючи будь-які поточні оцінки в останньому. Зрозуміло, що на самому початку навчання ці оцінки не містять жодної інформації від реальних нагород чи переходів держави.
Якщо навчання працює за призначенням, то ухил зменшить асимптотично за кілька ітерацій. Однак упередження може спричинити значні проблеми, особливо для позаполітичних методів (наприклад, Q Q Learning) та при використанні функцій-апроксиматорів. Це поєднання настільки ймовірно, що не зможе сходитися, що його називають смертельною тріадою в Саттон і Барто .
Методи контролю в Монте-Карло не страждають від цієї упередженості, оскільки кожне оновлення проводиться з використанням справжнього зразка того, яким повинен бути Q (s, a). Однак методи Монте-Карло можуть страждати від великої дисперсії, а це означає, що для досягнення однакового ступеня навчання для порівняння з ТД потрібно більше зразків.
На практиці навчання ТД виявляється більш ефективним, якщо проблеми зі смертельною тріадою можна подолати. Останні результати, що використовують досвід повторного відтворення та інсценізовані "заморожені" копії оцінювачів, забезпечують робочі місця, які вирішують проблеми - наприклад, таким чином було побудовано студента DQN для ігор Atari.
Є також середнє місце між ТД та Монте-Карло. Можна побудувати узагальнений метод, який поєднує траєкторії різної довжини - від одномоментної ТД до закінчення епізодного циклу в Монте-Карло - та поєднує їх. Найпоширеніший варіант цього - TD (λ) навчання, де λ є параметром від 0 (ефективно одноетапне навчання ТД) до 1(ефективно навчання в Монте-Карло, але з приємною особливістю, що його можна використовувати в постійних проблемах). Як правило, значення між0 і 1 робить найефективнішим агентом навчання - хоча як і багато гіперпараметри, найкраща ціна використання залежить від проблеми.
Якщо ви використовуєте метод на основі значень (на відміну від методу, що ґрунтується на політиці), то на практиці навчання TD зазвичай використовується більше на практиці, або метод комбінації TD / MC, наприклад TD (λ), може бути ще кращим.
З точки зору "практичної переваги" для MC? Навчання в Монте-Карло концептуально просте, надійне та просте у здійсненні, хоча й часто повільніше, ніж TD. Як правило, я б не використовував його для двигуна навчального контролера (якщо тільки не поспішаю реалізувати щось для простого середовища), але я серйозно розглядаю це для оцінки політики, щоб порівняти, наприклад, кілька агентів - це пов'язано з тим, що він є неупереджений захід, що важливо для тестування.