Я хочу знати, чи описаний нижче процес є дійсним / прийнятним та чи є доступне обґрунтування.
Ідея: контрольовані алгоритми навчання не передбачають базових структур / розподілів даних. Наприкінці дня вони виводять оціночні показники. Я сподіваюся якось кількісно оцінити невизначеність оцінок. Тепер процес побудови моделі ML є по своїй суті випадковим (наприклад, для вибірки для перехресної валідації для налаштування гіперпараметрів та підсистеми в стохастичних ГБМ), тому трубопровід моделювання дасть мені різний вихід для тих же прогнозів для кожного різного насіння. Моя (наївна) ідея полягає в тому, щоб запускати цей процес знову і знову, щоб придумати розподіл прогнозу, і я, сподіваюся, можу зробити заяви про невизначеність прогнозів.
Якщо це має значення, набори даних, з якими я працюю, зазвичай дуже малі (~ 200 рядків)
Це має сенс?
Для уточнення, я насправді не завантажую дані в традиційному розумінні (тобто я не відбираю повторно відбір даних). Той самий набір даних використовується в кожній ітерації, я просто використовую випадковість у xval та стохастичних ГБМ.