Чому нейронним мережам потрібно так багато прикладів для навчання?


64

Людській дитині у віці 2 років потрібно близько 5 екземплярів автомобіля, щоб він міг ідентифікувати його з розумною точністю незалежно від кольору, виготовлення тощо. Коли моєму синові було 2 роки, він зміг ідентифікувати трамваї та потяги, хоча він і бачив лише декілька. Оскільки він зазвичай плутав один одного, очевидно, його нервова мережа була недостатньо навчена, але все ж.

Що це за відсутність штучних нейронних мереж, які заважають їм швидше навчатися? Чи передача навчання відповідь?


23
Слони можуть бути кращим прикладом, ніж автомобілі. Як зазначали інші, дитина, можливо, бачила багато машин, перш ніж почути етикетку, тому, якщо їх розум вже визначає "природні види", тепер вона має етикетку для одного. Однак західна дитина, безперечно, розробляє хорошу систему класифікації слонів на основі лише кількох даних.
JG

70
Що змушує вас думати, що мозок людської дитини працює як нейронна мережа?
Пол Василевський

16
NN може бути показаний образ автомобіля. Ваша дитина отримує повний 3D фільм з різних точок зору, для кількох різних типів автомобілів. Ваша дитина також має подібні приклади, щоб відрізнити машину від. Наприклад, їх дитячу коляску, іграшки тощо. Без цього, я думаю, вашій дитині було б потрібно більше прикладів.
Стіан Іттервік

20
@MSalters У розумінні штучної нейронної мережі? Напевно, ні.
Firebug

28
"Людській дитині у віці 2 років потрібно близько 5 екземплярів машини, щоб мати можливість її з достатньою точністю визначити" Така дитина мала два роки досвіду роботи з речами, які не є машинами. Я впевнений, що це відіграє значну роль.
DarthFennec

Відповіді:


101

Я застерігаю проти очікування сильної подібності між біологічною та штучною нейронними мережами. Я думаю, що назва "нейронні мережі" є дещо небезпечною, тому що вона обманює людей очікувати, що неврологічні процеси та машинне навчання повинні бути однаковими. Відмінності між біологічними та штучними нейронними мережами переважають подібність.

Як приклад того, як це може зірватися, ви також можете повернути міркування в оригінальній публікації на голову. Ви можете тренувати нейронну мережу, щоб навчитися розпізнавати автомобілі в другій половині дня, за умови, що у вас досить швидкий комп'ютер і деяка кількість даних про навчання. Ви можете зробити це двійковим завданням (автомобіль / не автомобіль) або багатокласним завданням (автомобіль / трамвай / велосипед / літак / човен) і все ще бути впевненим у високому рівні успіху.

Навпаки, я б не очікував, що дитина зможе забрати машину в день - а то й тиждень - після того, як вона народиться, навіть після того, як побачила "так багато прикладів навчання". Щось явно відрізняється між дворічним та немовлятним, що пояснює різницю у здатності до навчання, тоді як нейронна мережа класифікації зображень ванілі цілком здатна визначити класифікацію об'єкта відразу після "народження". Я думаю, що є дві важливі відмінності: (1) відносні обсяги наявних даних про навчання та (2) механізм самонавчання, який розвивається з часом через велику кількість даних про навчання.


Оригінальна публікація висуває два питання. Заголовок і основна частина питання задають, чому нейронним мережам потрібно "так багато прикладів". Що стосується досвіду дитини, нейронні мережі, що навчаються з використанням загальних орієнтирів зображень, мають порівняно мало даних.

Я переформулюю питання в заголовку до

"Як навчання нейромережі для загального еталону зображень порівнює та протиставляє досвіду навчання дитини?"

Для порівняння я розгляну дані CIFAR-10, оскільки це загальний орієнтир зображення. Позначена частина складається з 10 класів зображень з 6000 зображеннями на клас. Кожне зображення має розмір 32x32 пікселів. Якщо ви якимось чином склали мічені зображення із CIFAR-10 і зробили стандартне відео на 48 кадрів в секунду, у вас було б близько 20 хвилин відео.

Дитина 2-х років, яка спостерігає за світом протягом 12 годин щодня, має приблизно 263000 хвилин (понад 4000 годин) прямих спостережень за світом, включаючи відгуки дорослих (мітки). (Це лише тестові фігури - я не знаю, скільки хвилин типовий дворічний дитина провів, спостерігаючи за світом.) Більше того, дитина опиниться під багатьма, багатьма предметами за межами 10 класів, які містять CIFAR- 10.

Тож у грі є кілька речей. Одне полягає в тому, що дитина має загальну кількість даних у цілому та більш різноманітне джерело даних, ніж у моделі CIFAR-10. Різноманітність та об'єм даних добре визнані передумовами надійних моделей загалом. У цьому світлі не дивно, що нейронна мережа є гіршою за це завдання, ніж дитина, тому що нейронна мережа, що навчається на CIFAR-10, позитивно голодує за дані тренувань порівняно з дворічним. Роздільна здатність зображення, доступна дитині, краще, ніж зображення CIFAR-10 32x32, тому дитина може дізнатися інформацію про дрібні деталі предметів.

Порівняння CIFAR-10 до двох років не є ідеальним, тому що модель CIFAR-10, ймовірно, буде тренуватися з декількома пропусками над одними і тими ж статичними зображеннями, тоді як дитина побачить, використовуючи бінокулярне бачення, як об'єкти розташовуються в трійці -мірний світ під час руху навколо та з різними умовами освітлення та перспективами на одних і тих же об'єктах.

Анекдот про дитину ОП передбачає друге запитання,

"Як нейронні мережі можуть стати самонавчанням?"

Дитина наділена певним талантом до самонавчання, так що нові категорії предметів можна додавати з часом, не починаючи з нуля.

  • Зауваження ОП щодо називає один вид адаптації моделі в контексті машинного навчання.

  • У коментарях інші користувачі наголошували, що навчання однієї та кількох кадрів * - це ще одне напрямок машинного навчання.

  • Крім того, розглядає моделі самонавчання з іншого погляду, по суті дозволяє роботам проводити експерименти з пробками та помилками, щоб знайти оптимальні стратегії вирішення конкретних проблем (наприклад, грати в шахи).

Напевно, правда, що всі три ці парадигми машинного навчання є вдосконаленими, як машини адаптуються до нових завдань комп’ютерного зору. Швидке пристосування моделей машинного навчання до нових завдань - активна область дослідження. Однак, оскільки практичні цілі цих проектів (визначити нові випадки зловмисного програмного забезпечення, розпізнати накладників на паспортних фотографіях, проіндексувати Інтернет) та критерії успіху відрізняються від цілей дитини, яка пізнає світ, і того, що це робиться в комп’ютер, що використовує математику, а інше робиться в органічному матеріалі з використанням хімії, прямі порівняння між ними залишаться загрозливими.


Як осторонь, було б цікаво вивчити, як розгорнути проблему CIFAR-10 і навчити нейронну мережу розпізнавати 6000 об'єктів з 10 прикладів кожного. Але навіть це не було б справедливим порівнянням з дворічними, тому що все ще буде велика розбіжність у загальному обсязі, різноманітності та роздільній здатності даних про навчання.

* В даний час ми не маємо тегів для навчання одним знімком або навчання з декількох кадрів.


34
Щоб зробити його трохи більш конкретним, людська дитина вже пройшла роки тренувань з десятками тисяч прикладів, що дозволяє їм визначати, як виглядають предмети під різним кутом зору, як визначати їх межі, співвідношення між видимим розміром і фактичним розміром , і так далі.
Девід Шварц,

25
Мозок дитини активний всередині утроби . Дитина може ідентифікувати своїх батьків за звуком , після того як звук фільтрується через воду . У новонародженої дитини були місячні дані, з якими можна працювати, перш ніж вони народиться, але їм ще потрібно років, перш ніж вони можуть скласти слово, потім ще пару років, перш ніж вони можуть скласти речення, потім ще пару для граматично правильного речення тощо ... навчання дуже складне .
Нельсон,

5
@EelcoHoogendoorn пояснює контраст "дитина" та "нейронна мережа", який використовується у питанні. Відповідь - це лише очевидний контраст. Нейронні мережі взагалі не потребують такої кількості прикладів, оскільки діти отримують також багато прикладів (але просто по-іншому), перш ніж вони зможуть розпізнати машини.
Секст Емпірік

4
@Nelson, я не впевнений, в чому причина вашого коментаря, але ви можете змінити "рік" на "рік". Діти з 1 року говорять слова, з 2 років вимовляються перші речення, а з 3-х років граматика, наприклад минулий час і займенники, стає правильно використана.
Секст Емпірік

1
@EelcoHoogendoorn Я думаю, що передумова цього питання - це випадок міркування з помилкової аналогії, тому безпосередньо звернення до аналогії є чуйним. Контрастні біологічні та штучні нейронні мережі також чуйні, оскільки відповідь визначає, як біологічні та штучні нейронні мережі найбільш схожі за своєю назвою (обидва містять фразу "нейронні мережі"), але не схожі за своїми істотними характеристиками, або принаймні за характеристиками припускається питанням.
Відновіть Моніку

49

Перш за все, у дворічному віці дитина багато знає про світ і активно застосовує ці знання. Дитина робить багато "передачі навчання", застосовуючи ці знання до нових понять.

По-друге, перед тим, як побачити ці п’ять «маркованих» прикладів автомобілів, дитина бачить безліч машин на вулиці, на телевізорі, іграшкових машинах тощо, тому також заздалегідь трапляється багато «непідконтрольного навчання».

Нарешті, нейронні мережі майже нічого спільного з людським мозком не мають, тому порівняння їх не має великого значення. Також зауважте, що існують алгоритми для навчання одним ударом, і в даний час досить багато досліджень на ньому відбувається.


9
Четверта точка, дитина також має більше 100 мільйонів років еволюційного відбору до ефективного / точного навчання.
csiz

39

Одним з основних аспектів, яких я не бачу в сучасних відповідях, є еволюція .

Мозок дитини не вчиться з нуля. Це схоже на запитання, як малюки оленів та жирафів можуть ходити через кілька хвилин після народження. Тому що вони народжуються із своїм мозком, вже підключеним до цього завдання. Звичайно, потрібна тонка настройка, але дитячий олень не вчиться ходити з «випадкової ініціалізації».

Так само факт, що існують великі рухомі об’єкти і їх важливо слідкувати, - це те, з чим ми народжуємось.

Тож я думаю, що припущення цього питання просто помилкове. Нейронні мережі людини мали змогу побачити тонни - можливо, не машин, але - рухомих, обертових 3D-об'єктів зі складною текстурою та формою тощо. Але це сталося через багато поколінь, і навчання відбувалося за еволюційними алгоритмами, тобто тими, чий мозок був краще структурований для цього завдання, міг жити, щоб відтворюватися з більшими шансами, залишаючи наступне покоління з кращою та кращою проводкою мозку з самого початку.


8
Весело вбік: є докази того, що, коли мова йде про дискримінацію різних моделей автомобілів, ми фактично використовуємо спеціалізований центр розпізнавання обличчя нашого мозку . Імовірно, що, хоча дитина може не розрізняти різні моделі, неявна наявність "обличчя" на мобільному об'єкті може призвести до того, що автомобілі будуть класифіковані як тип істоти, і тому вони будуть віддані переваги ідентифікації еволюцією, оскільки визнають мобільний предмети з обличчями корисні для виживання.
Ден Брайант

7
Ця відповідь стосується саме того, про що я думав. Діти не народжуються як порожні сланці . Вони оснащені функціями, які полегшують розпізнавання деяких моделей, деякі речі легші для засвоєння тощо
Ефф,

1
Хоча тварини, які вигулюють прямо з утроби, насправді є захоплюючими, вважається, що таке еволюційне напруження є в протилежній крайності навчання людини, яка вважається крайністю досвіду, керованого досвідом у природному світі. Звичайно, машини залишать мінімальний еволюційний вплив на еволюцію нашого мозку.
Eelco Hoogendoorn

5
@EelcoHoogendoorn Можливість пізнавати та розуміти навколишнє середовище еволюційно обрана. Мозок був створений еволюцією, щоб бути надзвичайно ефективним у навчанні. Можливість з'єднувати точки, бачити візерунки, розуміти форми і рух, робити умовиводи тощо
Ефф,

3
Це хороший момент, але також правда, що коли дослідники розуміють це, вони будують НН, які мають жорстко кодовані структури, що полегшують певні типи навчання. Вважайте, що конволюційна мережа NN має жорстко кодовані сприйнятливі поля, які значно прискорюють навчання / підвищують ефективність візуальних завдань. Ці поля можна було вивчити з нуля у повністю підключеній мережі, але це набагато складніше. @EelcoHoogendoorn, людський мозок сповнений структури, яка полегшує навчання.
gung - Відновіть Моніку

21

Я не знаю багато про нейронні мережі, але знаю небагато про дітей.

У багатьох дворічних дітей виникає багато питань, якими мають бути загальні слова. Наприклад, у такому віці діти часто використовують "собаку" для будь-яких чотириногих тварин. Це складніше розрізнення, ніж "машина" - подумайте, наскільки відрізняється пудель від великого датчанина, наприклад, і все ж вони обидва "собаки", а кішки - ні.

А дитина у 2 роки побачила багато-багато більше ніж 5 прикладів "машини". Дитина бачить десятки, а то й сотні прикладів автомобілів у будь-який час, коли сім'я їде на привід. І багато батьків будуть коментувати "подивитись на машину" набагато більше 5 разів. Але діти також можуть думати так, як про них не розповідали. Наприклад, на вулиці малюк бачить багато речей, що вишикувалися. Його тато каже (з одного) "дивись на блискучу машину!" і дитина думає, "може, всі інші речі, що вишикувалися, теж машини?"


2
Інші приклади: таксі, автомобілі з уроками водіння та автомобілі міліції однакові. Кожен раз, коли автомобіль червоний, то це пожежа. Кампервані - це машини швидкої допомоги. Вантажівка з краном-навантажувачем класифікується як екскаватор. Автобус, який щойно проїхав, їде до залізничного вокзалу, тому наступний автобус, який виглядає так само, також повинен їхати до залізничного вокзалу. А побачити Місяць під час білого дня - це дуже особлива подія.
Секст Емпірік

10

Це захоплююче питання, над яким я багато розмірковував, і можу придумати кілька пояснень, чому.

  • Нейронні мережі працюють не так, як мозок. Зворотна розмноження унікальна для нейронних мереж і не відбувається в мозку. У цьому сенсі ми просто не знаємо загального алгоритму навчання в нашому мозку. Це може бути електричним, може бути хімічним, навіть поєднанням двох. Нейронні мережі можна вважати неповноцінною формою навчання порівняно з нашими мізками через те, наскільки вони спрощені.
  • Якщо нейронні мережі справді схожі на наш мозок, то людські діти в перші дні проходять обширну "підготовку" ранніх шарів, як вилучення особливостей. Таким чином, їхні нейронні мережі насправді не навчаються з нуля, а навпаки, останній шар перенавчається, щоб додавати все більше класів та міток.

9

Людській дитині у віці 2 років потрібно близько 5 екземплярів автомобіля, щоб мати можливість ідентифікувати його з розумною точністю незалежно від кольору, марки тощо.

Поняття "екземпляри" легко затуманюється. Незважаючи на те, що дитина, можливо, бачила 5 унікальних екземплярів автомобіля, вони насправді бачили тисячі тисяч кадрів у багатьох різних умовах. Вони, ймовірно, бачили машини в інших контекстах. У них також є інтуїція щодо фізичного світу, що розвивався протягом їхнього життя - певне навчання трансферу, ймовірно, відбувається саме тут. Але ми все це перекладаємо на "5 екземплярів".

Тим часом кожен кадр / зображення, яке ви передаєте CNN, вважається "прикладом". Якщо ви застосовуєте послідовне визначення, обидві системи реально використовують набагато більш подібний обсяг навчальних даних.

Також я хотів би зазначити, що конволюційні нейронні мережі - CNN - більш корисні для комп’ютерного зору, ніж ANN, і насправді підходять до роботи людини у таких завданнях, як класифікація зображень. Глибоке навчання - це, мабуть, не панацея, але воно справді спрацьовує в цій галузі.


5

Як вказували інші, ефективність даних штучних нейронних мереж різниться досить істотно, залежно від деталей. Власне кажучи, існує багато так званих методів навчання, що дозволяють вирішити завдання маркування трамваїв з досить хорошою точністю, використовуючи лише один маркований зразок.

Один із способів зробити це - так зване трансферне навчання; мережа, що навчається на інших етикетках, зазвичай дуже ефективно пристосовується до нових міток, оскільки важка робота з розумним чином розбиває компоненти зображення на низькому рівні.

Але нам не потрібні такі мічені дані для виконання такого завдання; так само, як немовлятам, не потрібно майже стільки ж мічених даних, скільки нейронних мереж, про які ви думаєте.

Наприклад, один з таких непідконтрольних методів, які я також успішно застосовував в інших контекстах, - це взяти без мітки набір зображень, випадковим чином обертати їх і навчити мережу передбачати, яка сторона зображення "вгору". Не знаючи, якими є видимі об’єкти, або як їх називають, це змушує мережу дізнатися величезну кількість структури зображень; і це може стати чудовою основою для набагато більш ефективного подальшого навчання з маркуванням даних.

Хоча це правда, що штучні мережі сильно відрізняються від справжніх, мабуть, значущими способами, такими як відсутність очевидного аналога зворотного розповсюдження, дуже ймовірно, що реальні нейронні мережі використовують ті самі хитрощі, намагаючись навчитися структуру в даних, що мають на увазі деякі прості пріори.

Ще один приклад, який майже напевно відіграє роль у тварин і також показав велику обіцянку в розумінні відео, - це припущення, що майбутнє має бути передбачуваним з минулого. Тільки починаючи з цього припущення, ви можете навчити нейронну мережу багато. Або на філософському рівні я схильний вважати, що це припущення лежить в основі майже всього того, що ми вважаємо «знаннями».

Я не кажу тут нічого нового; але відносно новим є той сенс, що ці можливості занадто молоді, щоб знайти ще багато застосувань, і ще не проникла до підручника розумінням того, «що може зробити АНН». Отже, щоб відповісти на питання ОП; ANN вже закрили велику частину прогалини, яку ви описуєте.


4

Один із способів дресирування глибокої нейронної мережі - це трактувати її як групу автокодерів ( обмежені машини Больцмана ).

Теоретично, автокодер вивчає без нагляду: він займає довільні, без маркування вхідні дані та обробляє їх для отримання вихідних даних. Потім він бере ці вихідні дані та намагається відновити свої вхідні дані. Він налаштовує параметри своїх вузлів, поки не наблизиться до кругового відключення своїх даних. Якщо ви подумаєте над цим, авто-кодер пише власні автоматизовані тестові одиниці. По суті, він перетворює свої "незазначені вхідні дані" в мічені дані: Оригінальні дані служать міткою для круглих даних.

Після того, як шари автокодерів будуть навчені, нейронна мережа налагоджується за допомогою мічених даних для виконання призначеної функції. По суті, це функціональні тести.

Оригінальний плакат запитує, чому потрібно багато даних для тренування штучної нейронної мережі, і порівнює це з нібито низькою кількістю тренувальних даних, необхідних дворічній людині. Оригінальний плакат порівнює яблука-апельсин: загальний тренувальний процес для штучної нейронної сітки порівняно з тонкою настройкою етикеток для дворічного віку.

Але насправді дворічний навчає своїх автокодерів на випадкових, маркованих даними вже більше двох років. Діти мріють, коли вони перебувають у внутрішньоутробному періоді . (Так роблять кошенята.) Дослідники описали ці сни як такі, що включають випадкові вистріли нейронів у центрах зорової обробки.


1
Домовились; за винятком того, що автокодери на практиці не є дуже потужним інструментом для того, щоб взагалі багато не контролювати; все, що ми знаємо, вказує на те, що там відбувається більше, тому фразування "дворічний тренував свої автокодери" не слід сприймати занадто буквально.
Eelco Hoogendoorn

4

Ми не вчимося "бачити машини", поки не навчимось бачити

Потрібно досить багато часу і багато прикладів, щоб дитина навчилася бачити предмети як такі. Після цього дитина може навчитися ідентифікувати конкретний тип предмета лише з кількох прикладів. Якщо ви порівнюєте дворічну дитину з системою навчання, яка буквально починається з чистого сланцю, це порівняння яблук і апельсинів; дитина в цьому віці бачила тисячі годин "відеоматеріалів".

Аналогічним чином потрібні штучні нейронні мережі чимало прикладів, щоб навчитися "бачити", але після цього можна передати ці знання на нові приклади. Трансферне навчання - це ціла область машинного навчання, і такі речі, як "навчання одним пострілом", можливі - ви можете побудувати ANN, які навчаться ідентифікувати нові типи об'єктів, яких раніше не бачили, з одного прикладу, або визначити конкретна людина з однієї фотографії їхнього обличчя. Але для того, щоб добре виконати цю початкову частину «навчитися бачити», потрібно досить багато даних.

Крім того, є деякі докази того, що не всі дані про навчання однакові, а саме, що дані, які ви «вибираєте» під час навчання, ефективніші, ніж дані, які вам просто надаються. Наприклад, експеримент з кошенятами-близнюками Held & Hein. https://www.lri.fr/~mbl/ENS/FONDIHM/2013/papers/about-HeldHein63.pdf


4

Одне, чого я досі не бачив у відповідях, - це той факт, що один "екземпляр" реального світового об'єкта, який бачиться людською дитиною, не відповідає екземпляру в контексті тренінгу в НН.

Припустимо, ви стоїте на залізничному перехресті з 5-річною дитиною і спостерігаєте за тим, як 5 поїздів проходять протягом 10 хвилин. Тепер ви можете сказати: «Моя дитина бачила лише 5 поїздів і може надійно ідентифікувати інші поїзди, тоді як для NN потрібні тисячі зображень!». Хоча це, ймовірно, так, ви повністю ігноруєте той факт, що кожен потяг, який бачить ваша дитина, містить ВІДБІльше інформації, ніж одне зображення поїзда. Насправді мозок вашої дитини обробляє кілька десятків зображень поїзда в секунду, поки він проходить повз, кожне з дещо іншого кута, різних тіней тощо, тоді як одне зображення надасть НН дуже обмеженою інформацією. У цьому контексті у вашої дитини навіть є інформація, недоступна для NN, наприклад, швидкість поїзда або звук, який потяг видає.

Далі, ваша дитина може розмовляти та задавати питання! "Потяги дуже довгі, правда?" "Так.", "І вони теж дуже великі, правда?" "Так.". За допомогою двох простих запитань дитина пізнає дві найважливіші особливості за менше хвилини!

Ще один важливий момент - виявлення об'єктів. Ваша дитина може відразу визначити, на який об’єкт, тобто на яку частину зображення, йому потрібно зосередити увагу, тоді як мережа мереж NN повинна навчитися визначати відповідний об'єкт, перш ніж він зможе спробувати його класифікувати.


3
Я також додаю, що дитина має контекст : вона бачить поїзд на рейках, будь то на станції, рівне переправа тощо. Якщо він бачить величезну кулю (розміром зеппеліна) у формі кулі та намальовану, щоб виглядати як потяг у небі, це не скаже, що це поїзд. Він скаже, що він схожий на поїзд, але він не прикріпить до нього етикетку "поїзд". Я скептично налаштований, що НН поверне етикетку "Повітряна куля" в цьому випадку. Так само дитина не помилиться з білбордом із поїздом на ньому з фактичним поїздом. Зображення малюнка поїзда - це зображення поїзда до НН - воно поверне ярлик "поїзд".
corey979

3

Я б заперечив, що вистава не така вже й інша, як ви могли очікувати, але ви задаєте чудове запитання (див. Останній абзац).

Як ви згадуєте трансферне навчання: Щоб порівняти яблука з яблуками, ми повинні подивитися, скільки всього малюнків і скільки зображень цікавого класу "бачить" людина / нейронна сітка.

1. Скільки картин дивиться людина?

Рух очей людини займає близько 200 мс, що можна розглядати як якусь "біологічну фотографію". Дивіться розмову експерта з комп’ютерного зору Фей-Фей Лі: https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures#t-362785 .

Вона додає:

Тож до 3 років дитина побачила б сотні мільйонів фотографій.

У ImageNet, ведуча база даних для виявлення об'єкта, є ~ 14million позначені фотографії. Таким чином, нейронна мережа, що навчається ImageNet, побачила б стільки знімків, як дитина 14000000/5/60/60/24 * 2 ~ 64 дні, тобто два місяці (якщо припустити, що дитина прокинулася половину свого життя). Чесно кажучи, важко сказати, скільки на цих фотографіях позначено етикетками. Більше того, малюнки, які бачить дитина, не такі різноманітні, як у ImageNet. (Напевно, дитина бачить, що мати має час, ...;). Однак я вважаю, що справедливо сказати, що ваш син побачив сотні мільйонів фотографій (а потім застосовує трансферне навчання).

Отже, скільки картинок нам потрібно, щоб вивчити нову категорію з урахуванням міцної бази пов'язаних картинок, про які можна (перенести) дізнатися?

Перше повідомлення в блозі, яке я знайшов, було таке: https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html . Вони використовують 1000 прикладів на заняття. Я міг уявити, що через 2,5 роки навіть менше потрібно. Однак 1000 зображень людина може побачити за 1000/5/60 за 3,3 хвилини.

Ти написав:

Людській дитині у віці 2 років потрібно близько 5 екземплярів автомобіля, щоб мати змогу ідентифікувати його з розумною точністю незалежно від кольору, марки тощо.

Це було б рівнозначним сорока секундам на екземпляр (з різними кутами цього об'єкта, щоб зробити його порівнянним).

Підводячи підсумок: Як я вже згадував, мені довелося зробити кілька припущень. Але я думаю, можна побачити, що вистава не настільки різна, як можна було очікувати.

Однак я вважаю, що ви задаєте чудове запитання, і ось чому:

2. Чи буде нейронна мережа працювати краще / відрізнятися, якби вони працювали більше, як мізки? (Джеффрі Хінтон каже так).

В інтерв'ю https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/ , наприкінці 2018 року він порівнює поточні реалізації нейронних мереж із мозком. Він зазначає, що з точки зору ваги штучні нейронні мережі менше, ніж мозок в 10 000. Тому мозку потрібні набагато менше ітерацій тренувань, щоб навчитися. Для того, щоб зробити можливість штучним нейронним мережам працювати так, як наші мізки, він слідкує за іншою тенденцією в обладнанні, запускається у Великобританії запуск Graphcore. Це скорочує час обчислення розумним способом зберігання ваг нейронної мережі. Тому можна використовувати більше ваг і час тренування штучних нейронних мереж може скоротитися.


2

Я фахівець у цьому. Я людина, я була дитиною, у мене є машина, і я роблю AI.

Причиною, чому малюки підбирають машини з набагато обмеженими прикладами, - це інтуїція. Людський мозок вже має структури для вирішення 3D обертань. Крім того, є два очі, які забезпечують паралакс для відображення глибини, що справді допомагає. Ви можете інтуїтизувати між автомобілем та фотографією автомобіля, тому що немає фактичної глибини зображення. Хінтон (дослідник AI) запропонував ідею Capsule Networks, яка змогла б керувати речами більш інтуїтивно. На жаль для комп'ютерів, навчальні дані - це (як правило) 2D зображення, масиви плоских пікселів. Для того, щоб не надто підходити, потрібно багато даних, тому орієнтація автомобілів на зображеннях узагальнена. Дитячий мозок може це вже робити і може розпізнати машину в будь-якій орієнтації.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.