Що приховано, і що спостерігається
Те, що приховано у прихованій моделі Маркова, те саме, що приховано в дискретній моделі суміші, тому для наочності забудьте про динаміку прихованого стану та дотримуйтесь кінцевої моделі суміші як прикладу. "Стан" у цій моделі - тотожність компонента, який спричинив кожне спостереження. У цьому класі моделі таких причин ніколи не спостерігається, тому «приховану причину» статистично переводять у твердження, що спостережувані дані мають граничні залежності, які усуваються, коли джерело компонента відоме. А вихідні компоненти оцінюються такими, що роблять цю статистичну залежність справжньою.
Те, що приховано у зворотній багатошаровій нейронній мережі з сигмоїдними середніми одиницями, - це стани тих одиниць, а не виходи, які є ціллю умовиводу. Коли висновок мережі - це класифікація, тобто розподіл ймовірностей щодо можливих категорій виходу, ці приховані величини одиниць визначають простір, в межах якого категорії можна розділити. Хитрість у вивченні такої моделі полягає у створенні прихованого простору (шляхом коригування відображення з вхідних одиниць), у межах якого проблема є лінійною. Отже, нелінійні межі рішення можливі з усієї системи.
Покоління проти дискримінації
Модель суміші (і HMM) - це модель процесу генерації даних, яку іноді називають імовірністю або «моделлю вперед». У поєднанні з деякими припущеннями про попередні ймовірності кожного стану можна зробити висновок про розподіл за можливими значеннями прихованого стану, використовуючи теорему Байєса (генеративний підхід). Зауважте, що, хоч і називається "попереднім", як попередні, так і параметри, ймовірно, дізнаються з даних.
На відміну від сумішальної моделі (та HMM), нейронна мережа засвоює задній розподіл безпосередньо над вихідними категоріями (дискримінаційний підхід). Це можливо через те, що вихідні значення спостерігалися під час оцінки. А оскільки їх спостерігали, не потрібно будувати задній розподіл за попередньою та конкретною моделлю для ймовірності, такої як суміш. Задня частина вивчається безпосередньо з даних, що є більш ефективним та менш залежним від моделі.
Змішайте і з’єднайте
Щоб зробити речі більш заплутаними, ці підходи можуть бути змішані між собою, наприклад, коли стан моделі суміші (або HMM) іноді фактично спостерігається. Коли це вірно і в інших ситуаціях, які тут не мають значення, можна навчитися дискримінаційно в інакшій генеративній моделі. Аналогічно можна замінити відображення моделі суміші HMM на більш гнучку модель вперед, наприклад, нейронну мережу.
Питання
Тож не зовсім вірно, що обидві моделі прогнозують прихований стан. ГММ можна використовувати для прогнозування прихованого стану, хоча і лише такого виду, якого очікує пряма модель. Нейронні мережі можуть використовуватися для прогнозування ще не спостерігається стану, наприклад, майбутніх станів, для яких доступні прогнози. Такий стан в принципі не приховано, його просто ще не спостерігали.
Коли б ви використовували один, а не інший? Ну, нейронні мережі роблять доволі незручні моделі мого досвіду. Вони також припускають, що ви спостерігали вихід. НММ не мають, але ви насправді не маєте контролю над тим, що насправді є прихованим станом. Тим не менш, це правильні моделі часових рядів.