В даний час я навчаю себе, як робити класифікацію, і конкретно розглядаю три методи: підтримку векторних машин, нейронні мережі та логістичну регресію. Я намагаюся зрозуміти, чому логістична регресія коли-небудь буде краще, ніж інші дві.
З мого розуміння логістичної регресії, ідея полягає у пристосуванні логістичної функції до всіх даних. Отже, якщо мої дані є двійковими, всі мої дані з міткою 0 мають бути зіставлені у значення 0 (або близько до нього), а всі мої дані зі значенням 1 мають бути зіставлені у значення 1 (або близько до нього). Тепер, оскільки логістична функція безперервна і гладка, для виконання цієї регресії потрібні всі мої дані, щоб відповідати кривій; немає більшої важливості, що застосовується до точок даних поблизу межі прийняття рішення, і всі точки даних сприяють втратам на різну кількість.
Однак для апаратів вектора підтримки та нейронних мереж важливі лише ті точки даних, що знаходяться біля межі рішення; до тих пір, поки точка даних залишатиметься на тій же стороні межі рішення, це призведе до тієї ж втрати.
Тому чому логістична регресія коли-небудь перевершує підтримку векторних машин або нейронних мереж, враховуючи, що вона "витрачає ресурси" на спробу підлаштувати криву до безлічі неважливих (легко класифікуються) даних, а не зосереджуватись лише на складних даних навколо рішення межа?