Первісне значення "абляції" - це хірургічне видалення тканини тіла . Термін "дослідження абляції" сягає корінням у галузі експериментальної нейропсихології 1960-х та 1970-х років, де частини мозку тварин були вилучені для вивчення впливу, який це вплинуло на їх поведінку.
У контексті машинного навчання, і особливо складних глибоких нейронних мереж, було прийнято «дослідження абляції» для опису процедури, коли певні частини мережі видаляються, щоб краще зрозуміти поведінку мережі.
Цей термін привернув увагу після твіту Франсуа Чолле , основного автора рамки глибокого навчання Кераса, у червні 2018 року:
Дослідження абляції мають вирішальне значення для глибоких навчальних досліджень - не можна цього наголосити достатньо. Розуміння причинності у вашій системі - це найпростіший спосіб отримання надійних знань (мета будь-якого дослідження). А абляція - це дуже мало зусиль, щоб розібратися в причинності.
Якщо ви скористаєтеся будь-якими складними експериментальними налаштуваннями для глибокого навчання, швидше за все, ви можете видалити кілька модулів (або замінити деякі підготовлені функції на випадкові), не втрачаючи продуктивність. Позбавтеся від шуму в процесі дослідження: робіть дослідження абляції.
Не можете повністю зрозуміти вашу систему? Багато рухомих частин? Хочете переконатися, що причина його роботи справді пов’язана з вашою гіпотезою? Спробуйте видалити речі. Витратьте щонайменше ~ 10% часу на експерименти на чесні зусилля, щоб спростувати свою тезу.
Як приклад, Гіршик та його колеги (2014) описують систему виявлення об'єктів, яка складається з трьох «модулів»: Перший пропонує області зображення, в яких слід шукати об’єкт, використовуючи алгоритм «Вибірковий пошук» ( Uijlings і колеги 2012 ), який подається у велику згорнуту нейронну мережу (з 5 згортковими шарами та 2 повністю з'єднаними шарами), яка виконує видобуток функцій, що, в свою чергу, подається у набір підтримуючих векторних машин для класифікації. Для того, щоб краще зрозуміти систему, автори провели дослідження абляції, де були видалені різні частини системи - наприклад, видалення одного або обох повністю пов'язаних шарів CNN призвело до напрочуд невеликої втрати продуктивності, що дозволило авторам зробити висновок
Значна частина представницької сили CNN походить від її згорткових шарів, а не з набагато більших щільно з'єднаних шарів.
ОП запитує детальну інформацію про / як / для проведення дослідження абляції та вичерпну інформацію. Я не вірю, що на це є відповідь "один розмір, який підходить усім". Показники можуть відрізнятися залежно від застосування та типів моделі. Якщо ми звузимо проблему просто до однієї глибокої нейронної мережі, то порівняно прямо вперед можна побачити, що ми можемо принципово видаляти шари і вивчити, як це змінює продуктивність мережі. Крім цього, на практиці кожна ситуація є різною, і у світі великих складних програм машинного навчання це означає, що для кожної ситуації, ймовірно, потрібен унікальний підхід.
У контексті прикладу в ОП - лінійна регресія - дослідження абляції не має сенсу, оскільки все, що може бути «вилучено» з лінійної регресійної моделі, є деякими з предикторів. Робити це "принципово" - це просто зворотна ступінчаста процедура вибору, яка, як правило, нахмурена - детальніше дивіться тут , тут і тут . Процедура регуляризації, наприклад, Лассо, є набагато кращим варіантом для лінійної регресії.
Відгуки:
Girshick, R., Donahue, J., Darrell, T. and Malik, J., 2014. Багаті ієрархії функцій для точного виявлення об'єктів та семантичної сегментації. У працях конференції IEEE з комп'ютерного зору та розпізнавання образів (с. 580-587).
Uijlings, JR, Van De Sande, KE, Gevers, T. and Smeulders, AW, 2013. Селективний пошук розпізнавання об'єктів. Міжнародний журнал комп’ютерного зору, 104 (2), с.154-171.