Чи 100-відсоткова точність моделі на даних, що не мають вибірки, є надмірною?


11

Я щойно закінчив машинне навчання курсу R на когнітивному класі.ai і почав експериментувати з випадковими лісами.

Я зробив модель, використовуючи бібліотеку "randomForest" у Р. Модель класифікується на два класи, добрий та поганий.

Я знаю, що коли модель є надмірною, вона добре працює на даних із власного набору тренувань, але погано на даних, що не мають вибірки.

Для тренування та тестування моєї моделі я перемістив та розділив повний набір даних на 70% для навчання та 30% для тестування.

Моє запитання: я отримую 100% точність від прогнозу, зробленого на тестовому наборі. Це погано? Це здається занадто гарним, щоб бути правдою.

Завдання - розпізнавання хвиль на чотирьох один на одного залежно від форм хвиль. Особливістю набору даних є результати витрат на аналіз динамічного часового викривлення хвильових форм з їх цільовою формою хвилі.


Ласкаво просимо на сайт! Ви спробували передбачити деякі шумові дані?
Toros91

Кожен раз, коли ви перестроюєте, тренуєтесь і тестуєте, точність становить 100%?
Олексій

@Alex Не зовсім, але він залишається дуже високим, як 98,55%
Milan van Dijck

1
@Alex 11,35% "добре" і 88,65% "погано"
Мілан ван Дійк

1
Це зовсім незбалансовано. Спробуйте скористатися перекомпонуванням (повторний відбір проб), щоб налаштувати баланс у навчальному наборі до класу ОК (наприклад, зробіть це 30%) і збережіть співвідношення 11/89 у наборах тесту / перевірки. Що ви отримуєте?
Олексій

Відповіді:


29

Високі результати перевірки на кшталт точності, як правило, означають, що ви не надто підходите, однак це повинно призвести до обережності і може означати, що щось пішло не так. Це також може означати, що проблема не надто складна і що ваша модель справді працює добре. Дві речі, які можуть піти не так:

  • Ви неправильно розділили дані, і дані валідації також виникли у ваших навчальних даних, тобто це вказує на перевищення, оскільки ви вже не вимірюєте узагальнення.
  • Ви використовуєте інженерні функції для створення додаткових функцій, і, можливо, ви ввели цільовий витік, коли ваші рядки використовують інформацію з поточної цілі, а не лише від інших у вашому навчальному наборі

11
100% точність завжди кричить "витік мішені".
Павло

1

Розслідуйте, щоб побачити, які ваші найбільш передбачувані функції. Іноді ви випадково включили вашу ціль (або щось еквівалентне цілі) серед своїх можливостей.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.