Повідомлення для дому:
На жаль, текст, який ви цитуєте, змінює дві речі між підходом 1 і 2:
- Підхід 2 здійснює перехресну перевірку та вибір / налаштування / оптимізацію моделей, керованих даними
- Підхід 1 не використовує перехресну перевірку, а також вибір / налаштування / оптимізацію моделі, керовану даними.
- Підхід 3 крос-валідації без вибору / налаштування / оптимізації моделі, керованої даними, цілком здійсненний (AMD IMHO призведе до більш глибокого розуміння) в контексті, що обговорюється тут
- Підхід 4, також не можлива перехресна перевірка, але вибір даних / налаштування / оптимізація, керована даними, також можлива, але більш складна для побудови.
IMHO, крос-валідація та керована даними оптимізація - це два абсолютно різних (і значною мірою незалежних) рішення при створенні вашої стратегії моделювання. Тільки з'єднання є те , що ви можете використовувати оцінки крос - перевірки в якості цільового функціоналу для оптимізації. Але існують інші цільові функціонали, готові до використання, є й інші способи перехресних оцінок (важливо, ви можете використовувати їх для перевірки вашої моделі, також перевірки або тестування)
На жаль, термінологія машинного навчання - це зараз IMHO безлад, який передбачає помилкові зв’язки / причини / залежності тут.
Якщо ви подивитесь на підхід 3 (перехресне підтвердження не для оптимізації, а для вимірювання продуктивності моделі), ви виявите, що перехресне підтвердження "рішення" порівняно з навчанням для всього набору даних є помилковою дихотомією в цьому контексті. Під час використання перехресної перевірки для вимірювання продуктивності класифікатора цифра перехресної перевірки достовірності використовується як оцінка для моделі, навченої для всього набору даних. Тобто підхід 3 включає підхід 1.
pпараметри / коефіцієнти моделі, але те, що робить оптимізація, - це оцінка подальших параметрів, так званих гіперпараметрів. Якщо описати процес підгонки та оптимізації / налаштування моделі як пошук параметрів моделі, то ця оптимізація гіперпараметрів означає, що розглядається значно більший простір пошуку. Іншими словами, у підході 1 (та 3) ви обмежуєте простір пошуку, вказуючи ці гіперпараметри. Ваш набір даних у реальному світі може бути достатньо великим (містити достатню кількість інформації), щоб дозволити вмістити його в обмеженому просторі пошуку, але недостатньо великий, щоб добре фіксувати всі параметри у великому просторі пошуку підходів 2 (і 4).
Насправді в моїй галузі мені дуже часто доводиться стикатися з наборами даних, які занадто малі, щоб можна було думати про оптимізацію, керовану даними. Отже, що робити замість цього: я використовую свої знання про домен щодо процесів генерування даних та даних, щоб визначити, яка модель добре відповідає фізичній природі даних та застосувань. І всередині них мені ще доводиться обмежувати складність своєї моделі.