Що робити, якщо висока точність перевірки, але низька точність тестування в дослідженні?


15

У мене є конкретне питання щодо валідації в дослідженні машинного навчання.

Як ми знаємо, режим машинного навчання просить дослідників підготувати свої моделі на навчальних даних, вибирати з кандидатських моделей за допомогою набору перевірок та повідомляти про точність на тестовому наборі. У дуже жорсткому дослідженні тестовий набір можна використовувати лише один раз. Однак це не може бути сценарієм дослідження, тому що ми повинні покращити свою ефективність, поки точність тесту не буде кращою за найсучасніші результати, перш ніж ми можемо опублікувати (або навіть подати) документ.

Зараз приходить проблема. Скажімо, 50% - це найсучасніший результат, і моя модель, як правило, може досягти точності 50--51, що в середньому краще.

Однак моя найкраща точність перевірки (52%) дає дуже низьку точність тесту, наприклад, 49%. Тоді мені доведеться повідомити про 49% як про свою загальну ефективність, якщо я не можу додатково покращити показник перевірки, що, на мою думку, не сподівається. Це дійсно заважає мені вивчати проблему, але це не має значення для моїх однолітків, тому що вони не бачать 52% солідарності, що, на мою думку, є іншим.

Отже, як зазвичай займаються люди у своїх дослідженнях?

Перевірка k-кратного ps не допомагає, оскільки така ж ситуація може статися.

Відповіді:


9

За визначенням, коли точність тренувань (або будь-якої метрики, яку ви використовуєте) вище, ніж у ваших тестуваннях, ви маєте модель накладання . По суті, ваша модель засвоїла деталі, які допомагають їй краще працювати у ваших навчальних даних, які не застосовуються до більшої сукупності даних, а отже, призводять до зниження продуктивності.

Я не впевнений, чому ви говорите, перевірка k-fold не була б корисною. Її метою є допомогти уникнути надмірного розміщення ваших моделей. Можливо, у вас недостатньо даних? Таке твердження є важливим, особливо якщо ви збираєтеся захистити будь-яке дослідження, коли такі методи перехресної перевірки настійно рекомендуються.

Ви кажете, що не можете використовувати тестовий набір один раз (я знову припускаю менший розмір вибірки?). На мій досвід, найпоширенішим шляхом, яким випливає, є k-кратна перехресна перевірка вашої моделі. Візьмемо приклад з 10-кратним резюме для розміру вибірки 100 і припустимо, що ваша проблема класифікації є двійковою, щоб зробити обчислення простими. Тому я розділив свої дані на 10 різних складок . Потім я поміщаю свою модель до 9/10 складок, а потім прогнозую 1/10, яку я залишив. Для цього першого запуску отриманою матрицею плутанини є:

    0  1
0   4  1
1   2  3

Потім я повторюю цей аналіз ще раз, коли наступний час 1/10 вийшов, і тренуюсь на інші 10/10. І отримайте мою наступну матрицю плутанини. Після завершення я маю 10 матриць плутанини. Потім я би підсумував ці матриці (тому я передбачив усі 100 зразків), а потім повідомив про свою статистику (Точність, PPV, F1-оцінка, Каппа тощо). Якщо ваша точність не там, де ви хочете, це є багато інших можливостей.

  1. Вашу модель потрібно вдосконалити (змінити параметри)
  2. Можливо, вам доведеться спробувати інший алгоритм машинного навчання (не всі алгоритми створені рівними)
  3. Вам потрібно більше даних (тонких відносин важко знайти)
  4. Можливо, вам доведеться спробувати трансформувати свої дані (залежно від використовуваного алгоритму)
  5. Можливо, не існує зв’язку між вашими залежними та незалежними змінними

Справа в тому, що менший показник тестування (наприклад, точність), ніж ваша підготовка, свідчить про перевиконання вашої моделі, а не про те, що ви хочете, намагаючись створити нову модель прогнозування.


Дякую за відповідь. Що стосується мене - це дослідження машинного навчання для публікацій, а не застосування методів машинного навчання. Часто показники забезпечують стандартний розподіл навчальних, валідаційних та тестових наборів. Більше того, k-кратна лише зменшує дисперсію. Я все ще можу зіткнутися з ситуацією, коли моє (усереднене) підтвердження підтвердження висока, але тест відповідно. низький.
Mou

Іноді смішно, що якщо я переробляю свою модель трохи, я можу просто ігнорувати зовнішність, тому що моя модель (і, таким чином, клас гіпотези) змінюється, але це не працює для налаштування гіперпараметрів, оскільки ми вибираємо модель з гіпотези клас. Однак насправді ми, дослідники, володіємо невизначеним класом гіпотез --- ми намагаємось все, що завгодно. Це насправді турбує мене під час досліджень, оскільки часто різниця в точності зазвичай дуже мала, скажімо, 0,1%.
Mou

@Mou, я думаю, я все ще трохи не впевнений, що у вас головне питання. Здається, виникає багато питань. Справа з чужими людьми - інша тема. Ви намагаєтесь оптимізувати параметри чи оцінити остаточну модель? Це може бути специфічно для різних полів, але зміни на 0,1% є досить незначними. Ви можете або переслідувати варіанти, перелічені в моїй відповіді, або прийняти, що ви можете отримати стільки з поточної моделі та даних. Модель як і раніше виглядає вишуканою (хоч і трохи).
cdeterman

Я погоджуюсь з тобою. Я маю визнати, що моя модель не така гарна. Але кілька днів тому, коли високий cв. + низький тест. не прискочила до екрану, моя модель була найкращою у світі. Тепер це не так, хоча я нічого не змінив. Крім того, я не сподіваюсь перевищити 52% в реєстрі, що заважає моїм дослідженням, але мої колеги з цього приводу не турбуються.
Mou

Ви, мабуть, щось змінили, щоб змінити номери, або є якась рандомізація, яку ви не встановили seedдля врахування відтворюваності. Я підозрюю, що у вашій процедурі відеозапису є деяка рандомізація, яка при повторенні може повернути трохи інші результати (але це лише здогадка). Я дійсно пропоную вивчити деякі інші моделі або трансформацію даних, щоб спробувати покращити свою ефективність.
cdeterman
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.