Чому класифікатор регресійного регресу досить добре працює для класифікації тексту?


18

Під час експерименту з класифікації тексту я виявив класифікатор хребта, що генерує результати, які постійно перевершують тести серед тих класифікаторів, які частіше згадуються та застосовуються для завдань з виведення тексту, таких як SVM, NB, kNN тощо. Хоча я ще не розробив про оптимізацію кожного класифікатора в цій конкретній задачі класифікації тексту, за винятком деяких простих налаштувань параметрів.

Такий результат згадувався також Дікран Марсупіал .

Не виходячи зі статистичних даних, після прочитання деяких матеріалів в Інтернеті я все ще не можу з’ясувати основні причини цього. Чи міг би хтось дати зрозуміти такий результат?

Відповіді:


16

Проблеми класифікації тексту, як правило, є досить високими розмірами (багато функцій), і проблеми з високими розмірами, ймовірно, будуть лінійно відокремлювані (оскільки ви можете відокремити будь-які точки d + 1 у двовимірному просторі за допомогою лінійного класифікатора, незалежно від того, як точки маркуються). Тож лінійні класифікатори, чи то регресія хребта, чи SVM з лінійним ядром, ймовірно, спрацюють добре. В обох випадках параметр ridge або C для SVM (як tdc згадує +1) контролюють складність класифікатора і допомагають уникнути переналагодження, розділяючи шаблони кожного класу на великі поля (тобто поверхня рішення переходить вниз середина проміжку між двома збірками балів). Однак, щоб отримати хороші показники, параметри гребеня / регуляризації потрібно правильно налаштувати (я використовую перехресну перевірку "відпустити один виїзд", як це дешево).

Однак причиною того, що регресія хребта працює добре, є те, що нелінійні методи є надто потужними і важко уникнути перенапруги. Можливо, існує нелінійний класифікатор, який дає кращі показники узагальнення, ніж найкраща лінійна модель, але важко оцінити ці параметри, використовуючи кінцевий зразок навчальних даних, який ми маємо. На практиці, чим простіша модель, тим менше проблем у нас в оцінці параметрів, тим менша тенденція до перезміщення, тому ми отримуємо кращі результати на практиці.

Інша проблема - це вибір функції, регресія хребта дозволяє уникнути переналагодження, регулюючи ваги, щоб вони залишалися невеликими, а вибір моделі прямий вперед, оскільки вам потрібно вибрати лише значення одного параметра регресії. Якщо ви намагаєтеся уникнути перевиконання, вибираючи оптимальний набір функцій, то вибір моделі стає складним, оскільки існує певна свобода (свого роду) для кожної функції, що дає можливість перевиконати критерій вибору функції, і ви в кінцевому підсумку набір функцій, оптимальних для даного конкретного зразка даних, але які дають низькі показники узагальнення. Таким чином, невиконання вибору функцій та використання регуляризації часто можуть дати кращу прогнозовану ефективність.

Я часто використовую Баггінг (формую комісію моделей, що навчаються на завантажених зразках з навчального набору) з хребтом-регресійними моделями, що часто покращує продуктивність, і оскільки всі моделі лінійні, ви можете комбінувати їх для формування єдиної лінійної моделі , тому в експлуатації не спостерігається показник продуктивності.


Ви маєте на увазі будь точки у мірному просторі? наприклад, якщо у 2-денному просторі у вас є 3 бали, причому два - класу 1 і одного - класу 2, які лежать на прямій, причому точка класу 2 знаходиться між двома іншими, їх не можна розділити лінія (1-д гіперплан)d1г
tdc

Зазвичай прийнято вважати, що точки знаходяться в «загальному положенні», так що (наприклад) вони не лежать на прямій лінії; у цьому випадку у 2-денному просторі можна відокремити будь-які 3 точки. Якщо всі точки лежать по прямій, то вони дійсно населяють 1-денний підпростір, вбудований у 2-денний простір.
Дікран Марсупіал

У Вікіпедії є твердження, «оскільки метод в середньому включає кілька предикторів, він не корисний для вдосконалення лінійних моделей», хоча я не впевнений, чому це має бути правдою?
tdc

Я не бачу, чому це теж має бути правдою. Я підозрюю, що мішкована лінійна модель може бути представлена ​​саме однією лінійною моделлю, однак питання полягає в оцінці параметрів однієї моделі, а не у формі моделі. Я виявив, що пакетування покращує узагальнення, але, як правило, коефіцієнт підсилення невеликий, якщо у вас набагато більше особливостей, ніж спостереження (так що оцінка моделі нестабільна і невелика зміна даних призводить до значних змін у моделі).
Дікран Марсупіал

Можливо, вам слід оновити сторінку Вікіпедії! Ви добре
знаєте

6

Регресія хребта, як випливає з назви, є методом регресії, а не класифікацією. Імовірно, ви використовуєте поріг, щоб перетворити його в класифікатор. У будь-якому випадку ви просто вивчаєте лінійний класифікатор, який визначається гіперпланом. Причина, по якій він працює, полягає в тому, що завдання, яке знаходиться в роботі, по суті лінійно відокремлюється, тобто простий гіперплан - це все, що потрібно для розділення класів. Параметр "хребет" дозволяє йому працювати у випадках, які не є повністю лінійно відокремленими, або проблем, які не мають дефіциту (у такому випадку оптимізація була б виродженою).

У цьому випадку немає ніяких причин, чому інші класифікатори також не повинні працювати добре, якщо вважати, що вони були виконані правильно. Наприклад, SVM знаходить «оптимальну роздільну гіперплану» (тобто гіперплан, що максимально збільшує запас або розрив між класами). CПараметр SVM є параметр , аналогічне регулювання потужності до параметру коника, який дозволяє для деяких неправильної класифікації (що відхиляються значень). Якщо припустити, що процес вибору параметрів проводився старанно, я би сподівався, що ці два методи дадуть майже такі самі результати на такому наборі даних.


2
Я пам'ятаю, як читав, можна показати, що бінарна класифікація LS-SVM еквівалентна регресійній регресії на -1,1 мітках, їх формулювання однакові.
Firebug

Подумайте, напевно, у вас є права
tdc
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.