Прискорення розмірів у машинному навчанні


10

Яка проблема скакання виміру в машинному навчанні (виникає в конволюційних нейронних мережах і розпізнаванні зображень)? Я про це поглянув, але все, що я отримую, - це інформація про фізику деформації форми матеріалу. Мені буде корисніше, якщо хтось пояснить це на прикладі, пов'язаному з машинним навчанням. Хтось може мені допомогти у цьому чи вкаже на ресурси, які можуть?

Відповіді:


7

Ласкаво просимо до DataScience.SE! Я ніколи не чув про цю проблему, тому переглянув її. Це пояснено на третьому слайді цієї презентації Джеффом Гінтоном:

Більше речей, які ускладнюють розпізнавання предметів

• Зміни точки зору спричиняють зміни в зображеннях, з якими не можуть впоратися стандартні методи навчання.

- Інформаційні переходи між вхідними розмірами (тобто пікселями)

• Уявіть медичну базу даних, у якій вік пацієнта іноді скаче на вхідний вимір, який зазвичай кодує вагу!

- Щоб застосувати машинне навчання, ми спершу хотіли б усунути цей параметр-стрибок.

Іншими словами, мова йде про концептуальні особливості, що мігрують або перескакують з одного виміру вхідної функції в інший, одночасно представляючи те саме. Хотілося б мати можливість захопити або витягти суть функції, незважаючи на те, для якого вхідного виміру вона закодована.


Я розумію, що в програмі Computer Vision хочеться бути інваріантною для місць на зображенні, але я не отримую приклад віку.
Мартін Тома

Я вважав, що вік і вага залежать, але я не впевнений; це не моя презентація! А може, вони означали, що вони буквально використовують неправильний стовпець, і ми хочемо це виявити.
Емре

@sdream Я лише зробив коментар; Емре дав відповідь. (Але, мабуть, ви все-таки повинні прийняти це). Справа із CNN полягає в тому, що не лише одна особливість змінюється, коли об’єкт знаходиться десь в іншому місці, але повна схема є на іншому вході.
Мартін Тома

@Emre, те, що я отримую з вашої відповіді, полягає в тому, що незалежно від того, з якого напрямку вводиться певна властивість, особливість, яку викликає ця специфічна властивість, повинна бути інваріантною для вхідного виміру цієї властивості. Дякую! :). Ще чекаю на деякі конкретніші відповіді, інакше позначте вашу відповідь як відповідь.
sdream

3
Приклад віку повинен виділити набір даних, що не має стрибків розмірів. Вік і вага не "скачують" або змінюють значення випадковим чином між прикладами - вони не є взаємозамінними, і приклад показує, як це не дивно (і як важко було б зробити прості завдання, такі як лінійна регресія). Значення пікселів у зображеннях (і подібні дані у багатьох завданнях по обробці сигналу) змінюються або переміщуються легко через характер проблеми.
Ніл Слейтер

7

Наскільки я розумію, проблема полягає в наступному: для розпізнавання зображень вхідними даними в вашу мережу можуть бути пікселі (масштаб сірого або лише 1 і 0 для чорно-білих). Якщо ви хочете, наприклад, розпізнати рукописні номери, дуже важко працювати лише з такими значеннями, оскільки ви ніколи не знаєте, де саме буде число (тобто чорні значення).

Піксель 140 чорний чи 142 чорний? В обох випадках це цілком може бути трійка. У прикладі віку та ваги ці дані чітко визначені. Особливість 2 - вага. Особливість 3 - вік. Ці "розміри" не повинні "скакати" у вашому наборі даних.

Отже: у вашій навчальній роботі з зображеннями "трійки" або "машини" чи "будинки" повинні бути розпізнані незалежно від місця їх розташування на зображенні, тобто значення пікселів, тобто вектор функції / вводу, тобто розміри на відміну від чітко визначених входи, такі як дані пацієнта.

Як ви вирішите це в розпізнаванні зображень? Ви використовуєте додаткові трюки, наприклад згортання.


2

Я прочитав попередні відповіді, і коментар Ніла Слейтера до повідомлення Емре, скопійований ще нижче, потрапляє в цвях. "Прискорення вимірності" - це термін, створений доктором Хінтоном із слави піонерів машинного навчання в контексті точки зору. Цитуючи доктора Хінтона: "Отже, зазвичай передбачають, що вхідні розміри відповідають пікселям, і якщо об'єкт рухається у світі, і ви не рухаєте очима за ним, інформація про об'єкт буде міститися на різних пікселях". Вік і вага - це вхідний вимір, який не легко переплутати. Доктор Хінтон використовував цю, очевидно, НЕ вірогідну ситуацію, що скачує розмір віку та ваги пацієнтів, щоб означати, що ми, безумовно, зможемо виявити і виправити помилки між цими типами даних (Важко не помітити, що більшість дорослих молодше 100 років і більше ніж 100 фунтів). Ймовірна проблема перестрибування розмірів, з якою звертався доктор Хінтон, - це пікселі, які можуть бути зміщені, оскільки у нас є інша точка зору (наприклад, об’єкт міг би переміститися або ми дивимось на нього під іншим кутом). Лінійні нейронні мережі не зможуть цього виявити, тоді як згорткові нейронні мережі за проектом роблять би.

"Віковий приклад повинен виділити набір даних, що не має стрибків розмірів. Вік і вага не" скачують "або змінюють значення випадковим чином між прикладами - вони не взаємозамінні, і приклад показує, наскільки це буде дивним (і як Складно зробити такі прості завдання, як лінійна регресія). Значення пікселів у зображеннях (і подібних даних у багатьох завданнях з обробки сигналів) змінюються або переміщуються легко через характер проблеми - Ніл Слейтер 29 травня 1616 о 18:01 "


1

Пояснення прямо з курсу Хінтона з "Нейрових мереж для машинного навчання ....

" " Переміщення розмірів відбувається, коли можна взяти інформацію, що міститься в розмірах деякого вводу, і перемістити цю між розмірами, не змінюючи цілі . Канонічний приклад - це прийняття зображення рукописної цифри і переведення її всередині зображення. Розміри, які містять "чорнило", тепер різні (вони були переміщені в інші виміри), проте мітка, яку ми присвоюємо цифрі, не змінилася. Зверніть увагу, що це не щось це відбувається послідовно в наборі даних, тобто у нас може бути набір даних, що містить дві рукописні цифри, де одна є перекладеною версією іншої, однак це все ще не змінює відповідну мітку цифр. "


0

Сподівання стосується лише проблем із частиною зображення або пікселів, що рухаються в межах розмірності (в основному) і десь в інший тьмяний (інше сприйнятливе поле), але вихід залишається однаковим.

Це питання стосується інваріантності чи еквівалентності і виглядає як приклад ваги та віку - це простий спосіб констатувати. Припустимо, якщо ми усвідомлюємо цей стрибок у вазі та віці, ми легко внесемо зміни до альго та отримаємо правильний результат. Але, як і перестрибування даних / інформації, трапляється і скачування зображень, якщо ми вважаємо, що "4" і "4" змістили кілька пікселів ліворуч для різних класів, які мають різну ціль.

Завдяки «Інваріації перекладу» або кращій еквівалентності фільтра фільтра цей рух або стрибок не є великим питанням, хоча він збільшує складність і витрачається на викидання інформації, наприклад, місця розташування.

Будь ласка, дайте мені знати, якщо вам потрібна більш чітка я постараюся.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.