Як зробити розширення даних та розділити перевірку поїздів?


14

Я роблю класифікацію зображень за допомогою машинного навчання.

Припустимо, у мене є деякі навчальні дані (зображення), і я розділяю їх на навчальні та валідаційні набори. І я також хочу збільшити дані (створити нові зображення з оригінальних) випадковими обертаннями та шумопоглинанням. Збільшення виконується в автономному режимі.

Який правильний спосіб зробити додавання даних?

  1. Спочатку розділіть дані на навчальні та валідаційні набори, потім зробіть доповнення даних як на набори тренінгу, так і на валідацію.

  2. Спочатку розділіть дані на набори для навчання та перевірки, потім зробіть додавання даних лише на навчальному наборі.

  3. Спочатку зробіть збільшення даних на даних, а потім розділіть їх на набір тренувань та перевірки.


1
"Розширення даних" має більше ніж одне значення; це допоможе відредагувати ваше питання, щоб уточнити, що є вашим, або просто навести приклад.
Scortchi

Якщо ви плануєте зробити TTA, то додаток повинен бути застосований до набору перевірок щодо тестового набору.
abby yorker

Відповіді:


18

Спочатку розділіть дані на набори для навчання та перевірки, а потім зробіть розширення даних на навчальному наборі.

Ви використовуєте набір перевірки, щоб спробувати оцінити, як ваш метод працює на реальних даних, таким чином він повинен містити лише дані реального світу. Додавання доповнених даних не підвищить точність перевірки. Це в кращому випадку скаже щось про те, наскільки добре ваш метод реагує на збільшення даних, а в гіршому випадку зіпсує результати перевірки та інтерпретацію.


Мені дуже цікаво щось у вашій відповіді. Якщо мій критерій припинення навчання CNN зменшує втрати валідації, чи вважаєте ви, що збільшення даних щодо даних перевірки є хорошим вибором?
божевільний

1
Ні, я все ще думаю, що це "зіпсує результати перевірки та інтерпретацію", оскільки точність перевірки вже не є хорошим проксі-сервером для точності нових невидимих ​​даних, якщо ви збільшуєте дані перевірки.
burk

тож нам взагалі не потрібно застосовувати розширення даних для перевірки даних та тестування?
Ааднан Фарук

@AadnanFarooqA Ні. Ви, як правило, виконуєте ті самі операції над тестуванням та валідизацією даних, що і ви збираєтесь робити з небаченими вами даними, коли ви використовуєте модель для прогнозів.
Burk

1
@AadnanFarooqA Зазвичай ви повинні просто застосувати доповнення до даних тренувань після розколу.
Burk

4

ніколи не робіть 3, оскільки ви отримаєте протікання. наприклад, припустимо, що збільшення - зсув 1 пікселя вліво. якщо розбіжність у невдосконаленні не обізнана, ви можете отримати дуже схожі зразки даних як у поїзді, так і у валідації.


0

Збільшення даних означає додавання зовнішніх даних / інформації до існуючих даних, які аналізуються.

Отже, оскільки всі доповнені дані будуть використовуватися для машинного навчання, тоді краще підходить наступний процес:

Зробити дані -> Розщеплення даних


Дякую за відповідь. Чи все в порядку, що зразок та доповнений зразок, який досить схожий на оригінальний, поширюються в різних наборах?
yangjie

Ви маєте на увазі наявні дані як навчальний набір, а доповнені дані - як набір перевірки? Тоді, НІ
Світанок33

Розбиття є випадковим, тому я маю на увазі, якщо я зроблю розширення даних і потім розділюю дані, ймовірно, що деякі існуючі дані (не всі) розбиваються на навчальний набір, тоді як доповнені дані переходять до набору перевірок.
yangjie

Під збільшенням ви маєте на увазі додавання? Доповнені дані - це дані, які підтримують поточні дані у всіх точках. Отже, якщо розщеплення є випадковим, то розбиття призведе до такої ж кількості допоміжних даних в обох наборах, як і для існуючих даних
Dawny33

Чи є для цього посилання на папір?
Ааднан Фарук
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.