У мене є конкретне питання щодо валідації в дослідженні машинного навчання.
Як ми знаємо, режим машинного навчання просить дослідників підготувати свої моделі на навчальних даних, вибирати з кандидатських моделей за допомогою набору перевірок та повідомляти про точність на тестовому наборі. У дуже жорсткому дослідженні тестовий набір можна використовувати лише один раз. Однак це не може бути сценарієм дослідження, тому що ми повинні покращити свою ефективність, поки точність тесту не буде кращою за найсучасніші результати, перш ніж ми можемо опублікувати (або навіть подати) документ.
Зараз приходить проблема. Скажімо, 50% - це найсучасніший результат, і моя модель, як правило, може досягти точності 50--51, що в середньому краще.
Однак моя найкраща точність перевірки (52%) дає дуже низьку точність тесту, наприклад, 49%. Тоді мені доведеться повідомити про 49% як про свою загальну ефективність, якщо я не можу додатково покращити показник перевірки, що, на мою думку, не сподівається. Це дійсно заважає мені вивчати проблему, але це не має значення для моїх однолітків, тому що вони не бачать 52% солідарності, що, на мою думку, є іншим.
Отже, як зазвичай займаються люди у своїх дослідженнях?
Перевірка k-кратного ps не допомагає, оскільки така ж ситуація може статися.