Чи впливає формат зображення (png, jpg, gif) на те, як тренується нейронна мережа розпізнавання зображень?


23

Я знаю, що було досягнуто великого прогресу щодо розпізнавання зображень, класифікації зображень тощо з глибокими, згорнутими нейронними сітками.

Але якщо я треную мережу на, скажімо, зображеннях PNG, чи буде вона працювати лише для таких закодованих зображень? Які інші властивості зображення впливають на це? (альфа-канал, переплетення, роздільна здатність тощо?)


2
У мене немає достатнього досвіду зі статистикою зображень, щоб дати впевнену відповідь, але я би сподівався, що різні моделі використовують абсолютно різні схеми для кодування зображень у функції, на деякі з яких впливатиме стиснення JPEG, альфа-канали тощо ., а деякі з них не будуть, оскільки деталі залежать від моделі. Я знаю, що існують як моделі, які розглядають кожен піксель як особливість, так і моделі, які вирізають зображення в регіони і використовують властивості регіону як функції.
Кодіолог

Відповіді:


20

Коротка відповідь - НІ .

Формат, в якому закодовано зображення, має відношення до його якості. Нейронні мережі - це, по суті, математичні моделі, які виконують багато і багато операцій (матричне множення, доповнення елементів і функції відображення). Нейронна мережа розглядає Тензор як свій вхід (тобто багатовимірний масив). Форма зазвичай 4-D (кількість зображень на партію, висота зображення, ширина зображення, кількість каналів).

Різні формати зображень (особливо згубні) можуть створювати різні вхідні масиви, але строго кажучи, нейронні мережі бачать масиви у своєму введенні, а НЕ зображення.


4

Хоча відповідь Djib2011 правильна, я розумію ваше запитання як більш орієнтоване на те, як якість / властивості зображення впливають на навчання нейронної мережі в цілому. У цій темі дослідження мало (афаїк), але в майбутньому може бути ще багато досліджень. Я лише знайшов цю статтю на ній. Проблема на даний момент полягає в тому, що це більше проблема, яка виникає в практичних програмах і менше в академічній галузі досліджень. Я пам’ятаю один поточний подкаст, де дослідники зауважили, що навіть камера, яка використовується для фотографування, може мати великий ефект.


Не могли б ви вказати мені на подкаст, будь ласка?
Девід Ернст

Це одногодинний епізод "розмовних машин", де вони обговорюють з дослідником, який практикує машинне навчання в Африці (приблизно від середини до кінця) посилання iTunes: itunes.apple.com/de/podcast/talking-machines/…
Bobipuegi

2

Це риф на першу відповідь від Djib2011. Коротка відповідь повинна бути «ні». Більш довгі - По-перше, фотографії завжди кодуються як тензор. Зображення - це кількість пікселів. Якщо вважається, що на фотографії є ​​m рядків та n стовпців, кожен піксель визначається розташуванням рядків та стовпців, тобто парою (m, n). Зокрема, є m * n пікселів, що дуже навіть для «маленьких» фотографій. Кожен піксель фотографії кодується числом між нулем і одиницею (інтенсивність чорноти), якщо фотографія чорно-біла. Він кодується трьома номерами (інтенсивності RGB), якщо фотографія кольорова. Таким чином, один заводиться з тензором, який є або 1xmxn, або 3xmxn. Розпізнавання зображень здійснюється за допомогою CNN, які, скориставшись тим, що фотографії не сильно змінюються від пікселя до пікселя, стискаютьдані за допомогою фільтрів та об'єднання. Тож справа в тому, що робота CNN стискає неймовірно велику кількість точок даних (або особливостей) фотографії на меншу кількість значень. Тож із будь-якого формату ви починаєте, CNN починається шляхом подальшого стискання даних фотографії. Звідси сама по собі незалежність від розміру представлення фотографії.
Однак CNN вимагатиме, щоб усі зображення, що проходять через нього, були однакового розміру. Тож є та залежність, яка буде змінюватися залежно від того, як збережено зображення. Крім того, за умови, що різні формати файлів одного розміру дають різні значення для їх тензорів, не можна використовувати ту саму модель CNN для ідентифікації фотографій, що зберігаються різними методами.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.