По-перше, дякую за повідомлення про дуже цікаве запитання.
Щоб відповісти невдовзі, ванільний конвенет, який тренується кінцевим 2-кінцем для прогнозування віку на фотографії, як правило, схильний до неправильної класифікації зображень, таких як розміщений вами . По-друге, зауважте, що точно оцінити вік людини - це майже неможливе завдання 1 .
Основна відмінність від запропонованого підходу із використанням деяких об’єктових детекторів (будь то RCNN, швидше RCNN, YOLO або SSD) полягає в тому, що ви використовуєте іншу інформацію для тренування моделей. CNN навчається лише на зображеннях і сам повинен з’ясувати всі необхідні функції. Швидше за все, ви знайдете різні риси обличчя, але це також буде покладатися на одяг і, можливо, на сцені (діти можуть бути часто на зображенні з якимись іграшками, дорослі будуть частіше в офісних умовах тощо). Ці функції не будуть надійними для вашого контрприкладу.
З іншого боку, якщо ви навчаєте мережу явно визначати об'єкти як "тулуб" і "голова", ви надаєте додаткову інформацію про те, що ці об'єкти важливі для виконання завдання, і таким чином спрощуєте проблему 2 .
Хоча підхід до виявлення голови та тулуба, а потім оцінки співвідношення розмірів обмежувальних коробок звучить цікаво, я бачу кілька перешкод:
- Отримання даних: Я не знаю про наявність великого набору даних, де будуть вікові та обмежувальні поля.
- Недосконалий FOV: у більшості зображень (наприклад, в обох ваших прикладах) люди не відображаються цілими. Вам доведеться мати справу з тим, що коробки, що обмежують тулуб, не завжди будуть ідеальними, просто тому, що частина людини не на зображенні, а мережа повинна буде здогадуватися, наскільки велика частина відсутня (а основні рамки, що обмежують правду, найбільше ця інформація, ймовірно, не захоплює). Крім того, вищезазначені детектори об'єктів не завжди належним чином обробляють прогнози щодо часткових об'єктів. Це може ввести занадто багато шуму в моделі.
- Різні пози: співвідношення тулуба до голови було б дуже різним для людей, які дивляться фронтально і збоку.
- Дорослі: Мабуть, співвідношення добре допомагає прогнозувати вік між 0-21, але я не бачу, як це допомогло б передбачити вік дорослих (я вважаю, що співвідношення не змінюється у старшому віці).
Усі ці проблеми говорять про те, що підхід співвідношення голова до тулуба також не працює ідеально, хоча це може бути більш надійним для вашої конкретної приклади.
Я думаю, що найкращим способом виконання цього завдання було б 1) виявити обличчя, 2) передбачити вік лише за допомогою врожаю обличчя (видаляє потенційно оманливу інформацію). Зауважте, що деякі R-CNN-подібні архітектури, що використовують ROI-об'єднання, можуть бути навчені виконувати це з кінця 2-кінця.
1 Навіть з використанням дуже складних медичних методів (які, мабуть, набагато інформативніші, ніж фотографії людини), це неможливо зробити точно. Дивіться цю тему Quora для отримання додаткової інформації .
2 Перевірте статтю Знання знань: важливість попередньої інформації для оптимізації на прикладі того, як надання деяких проміжних знань про завдання може значно спростити навчання.