Caret - Повторна перехресна перевірка K-кратної та вкладеної K-кратної перехресної перевірки, повторена n-разів


16

Пакет caret - це блискуча бібліотека R для побудови декількох моделей машинного навчання, має декілька функцій для побудови моделі та оцінки. Для налаштування параметрів та навчання моделей, пакет caret пропонує «повторний cv» як один із методів.

Як хороша практика, налаштування параметрів може бути здійснено з використанням вкладеної перехресної перевірки K-кратного, яка працює наступним чином:

  1. Розділіть навчальний набір на підмножини 'K'
  2. У кожній ітерації візьміть підмножини «K мінус 1» для тренування моделі та збережіть 1 підмножину (набір для тримання) для тестування моделі.
  3. Далі розділіть навчальний набір «K мінус 1» на підмножини «K», ітеративно використовуйте нову підмножину «K мінус 1» та «Набір перевірки» для настройки параметрів (пошук у сітці). Найкращий параметр, ідентифікований на цьому етапі, використовується для тестування, встановленого на кроці 2.

З іншого боку, я припускаю, що повторна перехресна перевірка K-кратного може повторювати кроки 1 і 2 повторно стільки разів, скільки ми вирішимо знайти дисперсію моделі.

Однак, провівши алгоритм у посібнику з карети, схоже, що метод «повторення cv» може також здійснити вкладені перехресні перевірки K-кратного наряду, крім повторення перехресної перевірки.

алгоритм руху поїздів для карет https://topepo.github.io/caret/training.html

Мої запитання:

  1. Чи правильне моє недооцінення щодо методу "повторення відеозаписів"?
  2. Якщо ні, чи можете ви надати приклад використання вкладеної перехресної перевірки вкладених K-крат, методом 'repeatcv', використовуючи пакет caret?

Редагувати:

У цій статті з методології пояснюються та порівнюються різні стратегії перехресної перевірки.

Krstajic D, Buturovic LJ, Leahy DE та Thomas S : Проблеми перехресної валідації під час вибору та оцінки регресійних та класифікаційних моделей . Journal of Cheminformatics 2014 6 (1): 10. doi: 10.1186 / 1758-2946-6-10

Мене цікавлять «Алгоритм 2: повторна стратифікована вкладена перехресна перевірка» та «Алгоритм 3: повторна перехресна перевірка сітки для вибору змінних та налаштування параметрів» за допомогою пакета caret.

Відповіді:


2

З представленим (вкладеним) алгоритмом немає нічого поганого, і, власне, він, ймовірно, спрацює з пристойною надійністю для проблеми з відхиленням у відхиленнях для різних наборів даних. Однак ви ніколи не говорили, що читач повинен вважати, що використовувані вами функції є найбільш "оптимальними", тому, якщо це невідомо, є деякі проблеми з вибором функцій, які слід спочатку вирішити.

ОСОБЛИВОСТІ / ВИБІР ПАРАМЕТРА

шrаppеrfiлтеrщо використовує інший метод, віддалений від класифікатора / моделі, як спроба мінімізувати зміщення вибору функції (параметра). Подивіться на перекриття та зміщення фільтрації та вибору під час вибору функцій (GJ McLachlan).

D1D2н=50π=0,1н,0,2н,0,3н,0,4н,0,5н

ОПТИМІЗАЦІЯ / МІНІМІЗАЦІЯ

у=f(х1,х2,,хj)убезперервно масштабується. З огляду на це, та враховуючи необхідність мінімізувати упередженість у ваших прогнозах (упередження вибору, зміщення відхилень, витік інформації від тестування об’єктів на навчальні об’єкти тощо), ви можете використати використання резюме під час використання методів розвідувальних роїв, таких як оптимізація рою частинок (PSO), оптимізація колоній мурашок тощо. PSO (див. Kennedy & Eberhart, 1995) додає параметрів для соціального та культурного обміну інформацією між частинками, коли вони пролітають через простір параметрів під час навчання. Ознайомившись з методами розвідувальних рійок, ви побачите, що зможете подолати безліч упереджень у визначенні параметрів. Нарешті, я не знаю, чи є випадковий підхід лісу (РФ, див. Брейман, Подорож машинного навчання) для наближення функції, але якщо є,

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.