Чи є в цьому модельному підході надмірне обладнання


11

Нещодавно мені сказали, що процес, за яким я дотримувався (складова дисертації з МС), може розглядатися як надмірно придатний. Я шукаю, щоб краще зрозуміти це і побачити, чи згодні інші.

Метою цієї частини статті є:

  • Порівняйте продуктивність градієнтних підсилених регресійних дерев проти випадкових лісів на наборі даних.

  • Подивіться на ефективність обраної остаточної моделі (або GBM, або RF).

Використовуються, gbmа також randomForestпакети в R разом з
caret.

Наступний процес був наступним:

  • Попередня попередня обробка даних (наприклад, підключення пропущених значень номінальних предикторів із виразною категорією під назвою "Відсутні"). Цільову змінну не враховували стосовно будь-якої попередньої обробки (що було дуже мінімальним).
  • Створіть сітку значень для мета-параметрів кожного алгоритму (наприклад, кількість ітерацій для ГБМ).
  • Створіть 25 випадкових розщеплення набору даних (65% навчання та 35% тестування).

Повторіть 25 разів наступне для ГБМ (Кожен раз, коли використовується один із випадкових розбитків поїздів / тестів. Кожен раз, коли тренувальний і тестовий набір є "поточними", звичайно змінюються курси - це повторна перехресна перевірка виходу з групи):

  • Використовуйте 5-кратну перехресну перевірку, щоб знайти "оптимальні" параметри параметрів алгоритму для пошуку в сітці. Нічого з попередніх запусків, що не використовуються взагалі в поточному циклі.
  • Визначившись, підійміть модель до повного "поточного" навчального набору та передбачте "поточний" тестовий набір. Відмініть показник продуктивності цього пробігу.

Після того, як 25 заходів щодо ефективності (насправді домен, специфічний для домену), отримані таким чином, дотримуйтесь точно такого ж процесу, використовуючи ті ж самі незалежні зразки поїздів і тестів, для РФ (той самий процес, просто з різними пошук сітки звичайно).

Тепер у мене є 25 показників продуктивності з тодішніх «поточних» тестових наборів для ГБМ та РФ. Я порівнюю їх за допомогою тесту з рейтингом Wilcoxon Signed, а також з перестановкою. Я виявив, що ГБМ є вищим. Я також стверджував, що розподіл показника продуктивності від цих 25 прогонів для ГБМ - це очікувана ефективність остаточного класифікатора ГБМ.

Що я не робив, це витягнути випадковий тестовий набір з самого початку і відкласти його для порівняння з кінцевою моделлю GBM, побудованою з усіх навчальних даних. Я стверджую, що те, що я зробив, насправді було набагато краще, оскільки я повторив розділену модель / мелодію / тест на процес витримки 25 разів проти лише одного разу.

Чи є тут надмірна відповідність? Оскільки 25 циклів використовувались для вибору ГБМ проти РФ, чи означає це, що набуті в результаті заходи щодо ефективності не можуть використовуватися як оцінка продуктивності для повної моделі?

EDIT У відповідь на коментар Wayne, ось що було зроблено під час кожного з 25 циклів:

  1. Дані вибірки для i-го навчального набору (i = 1, .., 25) були розбиті на 5 груп однакового розміру. Модель підходила, використовуючи 4 з 5 груп, встановлюючи параметри GBM (наприклад, кількість ітерацій) рівними значенням у j-й (j = 1, .., 18) сітці.
  2. Результативність 5-ї групи була розрахована за допомогою цієї моделі.
  3. Етапи 1 і 2 повторювали ще 4 рази (звичайний старий К-кратний CV з k = 5). Продуктивність була середньою за 5 підпрогонів, і це склало очікувану продуктивність GBM з певним набором значень параметрів.
  4. Кроки 1 -3 повторювались для 17 інших "рядків" в сітці.

Після завершення було визначено найкращі значення параметрів з вищевказаної вправи та було встановлено ГБМ, використовуючи ці значення параметрів та повний набір навчального набору. Його продуктивність була оцінена на i-му тестовому наборі.

Після того, як весь цей процес було здійснено 25 разів, для ГБМ було доступно 25 заходів. Потім вони були зібрані для РФ точно таким же чином.

Порівнюючи та вибираючи GBM, я переглянув ці 25 показників продуктивності та взяв середню та Stnd помилку, щоб визначити інтервал довіри для моделі GBM за цими даними.


Мені хотілося б детальніше ознайомитись з вашою першою точкою відбитка для розділу "Повторити 25 разів наступного ..." Які дані в 5 разів і як використовуються дані для кожного набору мета-параметрів?
Уейн

@Wayne, будь ласка, дивіться мою редакцію.
B_Miner

Відповіді:


5

Уявіть, що замість того, щоб просто вибирати ГБМ проти РФ, ви натомість вибирали серед 100 різних класифікаторів ГБМ (якщо припускати, що навчання ГБМ використовує якусь випадковість, і ви присвоюєте їм випадкові насіння від 1 до 100). Тоді ви вибрали б один з цих 100 ГБМ як найкращий ГБМ. Але майже напевно випадок, що одній зі 100 моделей, яку ви вибрали, пощастило перемогти її 99 побратимів, і тому ваша оцінка ефективності буде оптимістичною.

Ви використовували лише двох учнів, і вони не навчалися за однаковим алгоритмом, тому ваш єдиний ГБМ, ймовірно, не мав сильного тиску на вибір (особливо якщо він різко перевершив РФ), але ваша оцінка помилок все ще буде трохи оптимістично.


Якщо одного разу ГБМ було обрано як остаточну модель (і роблю вигляд, що я витягнув єдиний тестовий набір на самому початку), я беру всі навчальні дані та підганяю до них ГБМ (знову використовуючи CV для вибору параметрів алгоритму) то я забиваю цей тестовий набір. Чи дійсно ви вважаєте, що міра помилок у цьому тестовому наборі була кращою, ніж у 25 повторних зразків? Це частина, з якою я борюся. Хіба що ви не можете використовувати ті самі дані для вибору моделі (ГБМ через РФ або ГБМ проти 100 інших варіантів) І використовувати міру помилки, що виникла внаслідок цього?
B_Miner

Звичайно, я отримую ідею не використовувати дані тренувань для оцінки ефективності, але цей
вигляд

@B_Miner Я думаю, що це дуже незначне порушення, але я не є членом вашого дисертаційного комітету: P
rrenaud

Оскільки порушення є, ви б його віднесли до "використання одних і тих же даних для вибору моделі (ГБМ через РФ або ГБМ проти 100 інших варіантів) І використовуєте міру помилки, що виникла внаслідок цього?"
B_Miner

3

Здається, ви спробували змішати дві методики, кожна з яких є законною, але так, як ви це зробили, ви відчуваєте, що у вас виникла інформація між справами.

На нижньому рівні ви, здається, правильно використовуєте резюме. Що може припустити, що верхній рівень також повинен бути резюме, в результаті чого вкладене резюме, але ваш верхній рівень не є резюме.

На верхньому рівні це здається, що ви, можливо, хотіли б зробити перевірку завантажувальної програми, і в цьому випадку подвійний завантажувальний механізм буде працювати для верхнього та нижнього рівнів, але ваш верхній рівень не є належним завантажувальним.

Ви можете подивитися цю статтю обміну. і статті, на які вона посилається, і, можливо, реструктурують ваш найвищий рівень, щоб стати резюме. Крім того, зауважте, що ніхто інший, ніж Френк Харрелл публікує в цій темі, і пропонує CV повторити навантаження на човні разів. (Я був шокований, думаючи, що це має зробити одне повторення.)


Що ви маєте на увазі під найвищим рівнем - 25 ітерацій групи повторних відпусток?
B_Miner

Я читав коментарі доктора Харрелла. Я думаю, що існує певний зв’язок між деякими порадами та обробкою даних (великі дані). 25 ітерацій, які я завершив, зайняли 4 дні, і я суттєво знаходив вибірки негативних випадків.
B_Miner
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.