Я працюю над досить великим статистичним моделюванням, наприклад, прихованими моделями Маркова та моделями суміші Гаусса. Я бачу, що для підготовки гарних моделей у кожному з цих випадків потрібен великий (> 20000 пропозицій для HMM) даних, які беруться з подібних середовищ, як остаточне використання. Моє запитання:
- Чи існує в літературі поняття "достатньо" даних про навчання? Наскільки дані про навчання "достатньо хороші"?
- Як я можу обчислити, скільки речень потрібно для «хороших» (які дають хорошу точність розпізнавання (> 80%)) для навчання?
- Як дізнатись, чи правильно навчалась модель? Чи почнуть коефіцієнти в моделі проявляти випадкові коливання? Якщо так, то як я можу розрізнити випадкові коливання та реальні зміни через оновлення моделі?
Будь ласка, сміливо позначайте це питання, якщо воно потребує більше тегів.