Проблеми класифікації тексту, як правило, є досить високими розмірами (багато функцій), і проблеми з високими розмірами, ймовірно, будуть лінійно відокремлювані (оскільки ви можете відокремити будь-які точки d + 1 у двовимірному просторі за допомогою лінійного класифікатора, незалежно від того, як точки маркуються). Тож лінійні класифікатори, чи то регресія хребта, чи SVM з лінійним ядром, ймовірно, спрацюють добре. В обох випадках параметр ridge або C для SVM (як tdc згадує +1) контролюють складність класифікатора і допомагають уникнути переналагодження, розділяючи шаблони кожного класу на великі поля (тобто поверхня рішення переходить вниз середина проміжку між двома збірками балів). Однак, щоб отримати хороші показники, параметри гребеня / регуляризації потрібно правильно налаштувати (я використовую перехресну перевірку "відпустити один виїзд", як це дешево).
Однак причиною того, що регресія хребта працює добре, є те, що нелінійні методи є надто потужними і важко уникнути перенапруги. Можливо, існує нелінійний класифікатор, який дає кращі показники узагальнення, ніж найкраща лінійна модель, але важко оцінити ці параметри, використовуючи кінцевий зразок навчальних даних, який ми маємо. На практиці, чим простіша модель, тим менше проблем у нас в оцінці параметрів, тим менша тенденція до перезміщення, тому ми отримуємо кращі результати на практиці.
Інша проблема - це вибір функції, регресія хребта дозволяє уникнути переналагодження, регулюючи ваги, щоб вони залишалися невеликими, а вибір моделі прямий вперед, оскільки вам потрібно вибрати лише значення одного параметра регресії. Якщо ви намагаєтеся уникнути перевиконання, вибираючи оптимальний набір функцій, то вибір моделі стає складним, оскільки існує певна свобода (свого роду) для кожної функції, що дає можливість перевиконати критерій вибору функції, і ви в кінцевому підсумку набір функцій, оптимальних для даного конкретного зразка даних, але які дають низькі показники узагальнення. Таким чином, невиконання вибору функцій та використання регуляризації часто можуть дати кращу прогнозовану ефективність.
Я часто використовую Баггінг (формую комісію моделей, що навчаються на завантажених зразках з навчального набору) з хребтом-регресійними моделями, що часто покращує продуктивність, і оскільки всі моделі лінійні, ви можете комбінувати їх для формування єдиної лінійної моделі , тому в експлуатації не спостерігається показник продуктивності.