Тому я намагаюся провести пошук зображень людей за допомогою звивистих сіток. Я читав документи ( Paper1 і Paper2 ) і цю посилання StackOverflow , але я не впевнений , я розумію структуру мережі (вона не визначена в роботах).
Запитання:
Я можу мати свій вхід, після якого проходить шар шуму, а потім шар conv, а потім шар об'єднання - там після - чи я зніму пул, перш ніж давати вихід (який є таким же моїм вхідним зображенням)?
Скажіть, у мене є декілька (135 240) зображень. Якщо я використовую 32, (12,21) ядра з подальшим об'єднанням (2,2), я отримаю 32 (62, 110) карти функцій. Тепер я де-делінгую, щоб отримати 32 (124, 220) карти зображень, а потім згладити їх? перед тим, як надати мій (135 240) вихідний шар?
Якщо у мене є кілька таких шарів conv-пулу, чи варто тренувати їх один за одним - як у складених позначених автоенкодерах? Або - чи можу я мати щось на кшталт input-conv-pool-conv-pool-conv-pool-output (вихід такий же, як і input)? У такому випадку, як слід керувати об'єднанням, депонуванням? Чи повинен я дезаліювати лише останній шар пулу перед виходом? І знову ж таки - яким повинен бути коефіцієнт зміни цього дезолідування? Чи є намір повернути карти зображень у форму вхідних даних?
Чи слід вводити шари шуму після кожного шару conv-pool-depool?
І тоді, коли ви точно налаштовуєте - я повинен просто видалити шари для деолінгування, а решту залишити так само. Або я повинен видалити як шумові, так і шари дезолірування
Чи може хтось вказати мені на URL / папір, який детально розробив архітектуру такого складеного згорткового автоматичного кодера, щоб пройти попередню підготовку зображень?