У мене були подібні запитання, коли читав документи з інших поданих матеріалів. І задали багато питань, пов’язаних із цим, як, наприклад, цей у спільноті Data Data Mining:
навіщо використовувати квадратичні втрати на ймовірності замість логістичних втрат?
Тут я викладу безліч особистих думок.
Я вважаю, що функція втрати не має великого значення в багатьох випадках практичного використання. Деякі дослідники, можливо, знають більше про квадратичні втрати та будують її систему, вона все ще працює і вирішує проблеми реального світу. Дослідники ніколи не можуть знати логістичну втрату чи втрату шарніру, і хочуть спробувати. Крім того, вони можуть не зацікавлені в пошуку оптимальної математичної моделі, але хочуть вирішити реальні проблеми, які ніхто раніше не намагався вирішити.
Це ще один приклад: якщо ви перевірите цю відповідь на моє запитання, всі вони є подібними. Які наслідки вибору різних функцій втрат у класифікації для приблизної втрати 0-1
Більше думок: дослідження машинного навчання можуть витратити багато часу на те, яку модель обрати та як оптимізувати модель. Це тому, що дослідник машинного навчання може не мати можливості збирати більше даних / отримувати більше заходів. А робота дослідника машинного навчання стає все кращою математикою, а не краще вирішує конкретну проблему реального світу.
З іншого боку, в реальному світі, якщо дані кращі, це б'є кожну річ. Отже, вибір нейронної мережі або випадкового лісу може не мати великого значення. Всі ці моделі схожі на те, що людина хоче використовувати машинне навчання як інструмент для вирішення реальних проблем. Людина, яка не зацікавлена у розробці математики чи інструментів, може витратити більше часу на використання конкретних знань про домен, щоб покращити систему.
Як я згадував у коментарі. І якщо хтось неохайний з математикою, він все одно зможе побудувати щось, що працює.