Примітка: Справа n >> p
Я читаю «Елементи статистичного навчання» і є різні згадки про «правильний» спосіб перехресної перевірки (наприклад, сторінка 60, стор. 245). Зокрема, моє запитання полягає в тому, як оцінити кінцеву модель (без окремого тестового набору) за допомогою CV-кратного реєстру чи завантажувального завантаження, коли відбувся пошук моделі? Здається, що в більшості випадків (ML алгоритми без вбудованого вибору функцій) будуть
- Крок вибору функції
- Крок вибору мета-параметрів (наприклад, параметр вартості у SVM).
Мої запитання:
- Я бачив, що крок вибору функцій можна зробити там, де вибір функції робиться на цілому навчальному наборі та утримується в стороні. Тоді, використовуючи резюме для k-кратного резюме, алгоритм вибору функцій застосовується у кожній складці (отримуючи різні можливості, можливо, обираються кожен раз) та усереднюється помилка. Тоді ви б використали функції, вибрані за допомогою усіх даних (які були відведені) для тренування остаточного режиму, але помилку в результаті перехресної перевірки використовуйте як оцінку майбутньої продуктивності моделі. ЦЕ ПРАВИЛЬНО?
- Коли ви використовуєте перехресну перевірку для вибору параметрів моделі, то як потім оцінити ефективність моделі? ЧИ ІСНИЙ ПРОЦЕС ТАКОЖ №1 ПРО НАД ІЛИ ВИ ВИКОРИСТОВУЄТЬСЯ НЕВІДКЛЮЧЕНИЙ КРИВ, ПОКАЗАНИЙ НА СТОРІНКІ 54 ( pdf ) АБО НЕЩО ЕЛЕЗ ?
- Коли ви робите обидва кроки (налаштування функції та параметрів) ..... то що робити? складні вкладені петлі?
- Якщо у вас є окремий зразок витримки, чи занепокоєння проходить, і ви можете використовувати перехресну перевірку для вибору функцій та параметрів (без турботи, оскільки ваша оцінка результатів буде виходити з набору витримки)?