Чи існує поняття «достатньо» даних для навчання статистичних моделей?


10

Я працюю над досить великим статистичним моделюванням, наприклад, прихованими моделями Маркова та моделями суміші Гаусса. Я бачу, що для підготовки гарних моделей у кожному з цих випадків потрібен великий (> 20000 пропозицій для HMM) даних, які беруться з подібних середовищ, як остаточне використання. Моє запитання:

  1. Чи існує в літературі поняття "достатньо" даних про навчання? Наскільки дані про навчання "достатньо хороші"?
  2. Як я можу обчислити, скільки речень потрібно для «хороших» (які дають хорошу точність розпізнавання (> 80%)) для навчання?
  3. Як дізнатись, чи правильно навчалась модель? Чи почнуть коефіцієнти в моделі проявляти випадкові коливання? Якщо так, то як я можу розрізнити випадкові коливання та реальні зміни через оновлення моделі?

Будь ласка, сміливо позначайте це питання, якщо воно потребує більше тегів.

Відповіді:


10

Ви можете нарізати свій набір даних за послідовними підмножинами з 10%, 20%, 30%, ..., 100% ваших даних і для кожної підмножини оцінити дисперсію точності вашої оцінки, використовуючи k-кратну перехресну перевірку або завантажувальну завантаження. Якщо у вас є "достатньо" даних, графік дисперсій повинен відображати зменшувану монотонну лінію, яка повинна доходити до плато до 100%: додавання більше даних не суттєво зменшує дисперсію точності оцінювача.


Мені доведеться спробувати це. Звучить цікаво. Дякую!
Шрірам
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.