Ключові слова тут - пріори та масштаб . Як простий приклад, уявіть, що ви намагаєтеся передбачити вік людини за допомогою фотографії. За допомогою набору даних із зображеннями та епохами ви зможете навчити модель глибокого навчання, щоб робити прогнози. Це об'єктивно насправді неефективно, оскільки 90% зображення марно, і корисний лише регіон з людиною. Зокрема, обличчя людини, її тіло та, можливо, одяг.
З іншого боку, ви можете замість цього використати заздалегідь підготовлену мережу виявлення об'єктів, щоб спочатку витягти обмежувальні поля для особи, обрізати зображення, а потім передати його через мережу. Цей процес значно підвищить точність вашої моделі з кількох причин:
1) Усі мережеві ресурси (тобто ваги) можуть зосереджуватися на актуальному завданні прогнозування віку, на відміну від того, щоб спочатку знайти людину. Це особливо важливо, оскільки обличчя людини містить корисні риси. В іншому випадку найтонші функції, які вам потрібні, можуть загубитися в перші кілька шарів. В теорії достатньо велика мережа може вирішити це, але це було б дуже неефективно. Обрізане зображення також значно регулярніше, ніж оригінальне зображення. Оскільки оригінальне зображення має тон шуму, його аргументовані розбіжності в обрізаному зображенні набагато сильніше корелюються з ціллю.
2) Обрізане зображення можна нормалізувати, щоб мати однаковий масштаб . Це допомагає другій мережі вирішувати проблеми масштабування, оскільки в оригінальному зображенні люди можуть виникати поблизу чи далеко. Заздалегідь нормалізація масштабу дозволяє зробити так, щоб вирізане зображення гарантувало наявність у ньому людини, яка заповнює повне обрізане зображення (не дивлячись на пікселізацію, якщо вони були далеко). Щоб побачити, як це може допомогти масштабувати, обрізане тіло, що становить половину ширини та висоти оригінального зображення, має на 4 рази менше пікселів для обробки, а значить, та сама мережа, застосована до цього зображення, мала б у 4 рази сприйнятливе поле оригінальної мережі на кожному шарі.
Наприклад, у змаганнях з легким кагглом поширеною темою у верхніх рішеннях була якась попередня обробка зображень легенів, які максимально обрізали їх та виділяли компоненти кожної легені. Це особливо важливо для 3D-зображень, оскільки ефект є кубічним: видаливши 20% кожного виміру, ви позбудетесь майже половини пікселів!