Я застерігаю проти очікування сильної подібності між біологічною та штучною нейронними мережами. Я думаю, що назва "нейронні мережі" є дещо небезпечною, тому що вона обманює людей очікувати, що неврологічні процеси та машинне навчання повинні бути однаковими. Відмінності між біологічними та штучними нейронними мережами переважають подібність.
Як приклад того, як це може зірватися, ви також можете повернути міркування в оригінальній публікації на голову. Ви можете тренувати нейронну мережу, щоб навчитися розпізнавати автомобілі в другій половині дня, за умови, що у вас досить швидкий комп'ютер і деяка кількість даних про навчання. Ви можете зробити це двійковим завданням (автомобіль / не автомобіль) або багатокласним завданням (автомобіль / трамвай / велосипед / літак / човен) і все ще бути впевненим у високому рівні успіху.
Навпаки, я б не очікував, що дитина зможе забрати машину в день - а то й тиждень - після того, як вона народиться, навіть після того, як побачила "так багато прикладів навчання". Щось явно відрізняється між дворічним та немовлятним, що пояснює різницю у здатності до навчання, тоді як нейронна мережа класифікації зображень ванілі цілком здатна визначити класифікацію об'єкта відразу після "народження". Я думаю, що є дві важливі відмінності: (1) відносні обсяги наявних даних про навчання та (2) механізм самонавчання, який розвивається з часом через велику кількість даних про навчання.
Оригінальна публікація висуває два питання. Заголовок і основна частина питання задають, чому нейронним мережам потрібно "так багато прикладів". Що стосується досвіду дитини, нейронні мережі, що навчаються з використанням загальних орієнтирів зображень, мають порівняно мало даних.
Я переформулюю питання в заголовку до
"Як навчання нейромережі для загального еталону зображень порівнює та протиставляє досвіду навчання дитини?"
Для порівняння я розгляну дані CIFAR-10, оскільки це загальний орієнтир зображення. Позначена частина складається з 10 класів зображень з 6000 зображеннями на клас. Кожне зображення має розмір 32x32 пікселів. Якщо ви якимось чином склали мічені зображення із CIFAR-10 і зробили стандартне відео на 48 кадрів в секунду, у вас було б близько 20 хвилин відео.
Дитина 2-х років, яка спостерігає за світом протягом 12 годин щодня, має приблизно 263000 хвилин (понад 4000 годин) прямих спостережень за світом, включаючи відгуки дорослих (мітки). (Це лише тестові фігури - я не знаю, скільки хвилин типовий дворічний дитина провів, спостерігаючи за світом.) Більше того, дитина опиниться під багатьма, багатьма предметами за межами 10 класів, які містять CIFAR- 10.
Тож у грі є кілька речей. Одне полягає в тому, що дитина має загальну кількість даних у цілому та більш різноманітне джерело даних, ніж у моделі CIFAR-10. Різноманітність та об'єм даних добре визнані передумовами надійних моделей загалом. У цьому світлі не дивно, що нейронна мережа є гіршою за це завдання, ніж дитина, тому що нейронна мережа, що навчається на CIFAR-10, позитивно голодує за дані тренувань порівняно з дворічним. Роздільна здатність зображення, доступна дитині, краще, ніж зображення CIFAR-10 32x32, тому дитина може дізнатися інформацію про дрібні деталі предметів.
Порівняння CIFAR-10 до двох років не є ідеальним, тому що модель CIFAR-10, ймовірно, буде тренуватися з декількома пропусками над одними і тими ж статичними зображеннями, тоді як дитина побачить, використовуючи бінокулярне бачення, як об'єкти розташовуються в трійці -мірний світ під час руху навколо та з різними умовами освітлення та перспективами на одних і тих же об'єктах.
Анекдот про дитину ОП передбачає друге запитання,
"Як нейронні мережі можуть стати самонавчанням?"
Дитина наділена певним талантом до самонавчання, так що нові категорії предметів можна додавати з часом, не починаючи з нуля.
Зауваження ОП щодо трансферного навчання називає один вид адаптації моделі в контексті машинного навчання.
У коментарях інші користувачі наголошували, що навчання однієї та кількох кадрів * - це ще одне напрямок машинного навчання.
Крім того, навчальне підкріплення розглядає моделі самонавчання з іншого погляду, по суті дозволяє роботам проводити експерименти з пробками та помилками, щоб знайти оптимальні стратегії вирішення конкретних проблем (наприклад, грати в шахи).
Напевно, правда, що всі три ці парадигми машинного навчання є вдосконаленими, як машини адаптуються до нових завдань комп’ютерного зору. Швидке пристосування моделей машинного навчання до нових завдань - активна область дослідження. Однак, оскільки практичні цілі цих проектів (визначити нові випадки зловмисного програмного забезпечення, розпізнати накладників на паспортних фотографіях, проіндексувати Інтернет) та критерії успіху відрізняються від цілей дитини, яка пізнає світ, і того, що це робиться в комп’ютер, що використовує математику, а інше робиться в органічному матеріалі з використанням хімії, прямі порівняння між ними залишаться загрозливими.
Як осторонь, було б цікаво вивчити, як розгорнути проблему CIFAR-10 і навчити нейронну мережу розпізнавати 6000 об'єктів з 10 прикладів кожного. Але навіть це не було б справедливим порівнянням з дворічними, тому що все ще буде велика розбіжність у загальному обсязі, різноманітності та роздільній здатності даних про навчання.
* В даний час ми не маємо тегів для навчання одним знімком або навчання з декількох кадрів.