SVM, Overfitting, прокляття розмірності


37

Мій набір даних невеликий (120 зразків), проте кількість функцій велика варіюється від (1000-200 000). Хоча я роблю підбір функцій, щоб вибрати підмножину функцій, це все одно може бути надмірним.

Перше моє запитання - як SVM справляється із переозброєнням, якщо взагалі.

По-друге, коли я детальніше вивчаю питання про перевиконання у випадку класифікації, я дійшов висновку, що навіть набори даних з невеликою кількістю функцій можуть перевищувати. Якщо у нас немає функцій, пов’язаних з етикеткою класу, перевиконання все одно відбувається. Тому мені зараз цікаво, в чому сенс автоматичної класифікації, якщо ми не зможемо знайти потрібні функції для етикетки класу. У разі класифікації документів це означатиме ручне складання тезаурусу слів, що стосуються міток, що дуже забирає багато часу. Я здогадуюсь, що я намагаюся сказати: без ручного підбору правильних особливостей дуже складно побудувати узагальнену модель?

Крім того, якщо експериментальні результати не показують, що результати мають низький / відсутність перевитрати, це стає безглуздим. Чи є спосіб її виміряти?

Відповіді:


41

На практиці причиною того, що СВМ, як правило, є стійкими до переналагодження, навіть у випадках, коли кількість атрибутів більше, ніж кількість спостережень, полягає в тому, що він використовує регуляризацію. Вони важливі для уникнення переналагодження у ретельному налаштуванні параметра регуляризації , а у випадку з нелінійними SVM, ретельному виборі ядра та налаштування параметрів ядра.C

С

GC Cawley та NLC Talbot, Запобігання надмірному підбору моделей за допомогою байєсівської регуляризації гіперпараметрів, Journal of Machine Learning Research, том 8, сторінки 841-861, квітень 2007 р. ( Www )

і

GC Cawley та NLC Talbot, Надмірна відповідність вибору моделі та подальша упередженість вибору в оцінці продуктивності, Journal of Machine Learning Research, 2010. Research, vol. 11, стор. 2079-2107, липень 2010 р. ( Www )

Обидва ці документи використовують регресію хребта ядра, а не SVM, але така ж проблема виникає так само легко, як і для SVM (також подібні межі застосовуються до KRR, тому на практиці не так багато вибирати між ними). Таким чином, SVM не реально вирішують проблему переналагодження, вони просто переносять проблему з підгонки моделі до вибору моделі.

Часто є спокуса полегшити життя SVM, виконавши спочатку якийсь вибір функції. Це, як правило, робить гірше, оскільки, на відміну від SVM, алгоритми вибору функцій, як правило, демонструють більше перевищення, оскільки кількість атрибутів збільшується. Якщо ви не хочете знати, які є інформативні атрибути, зазвичай краще пропустити крок вибору функції та просто скористатися регуляризацією, щоб уникнути перенастроювання даних.

Коротше кажучи, немає проблеми з використанням SVM (або іншої регуляризованої моделі, такої як регресія хребта, LARS, Lasso, пружна сітка тощо) для проблеми зі 120 спостереженнями та тисячами атрибутів, за умови правильного налаштування параметрів регуляризації .


Чи є якісь документи, що показують методи вибору функцій, такі як ранжування на основі інформаційного посилення, більш схильні до перевищення?
користувач13420

1
Не те, про що я знаю, справа в тому, що SVM має деякі теоретичні результати, які дозволяють припустити, що вони стійкі до перезміщення через кількість атрибутів, але методи вибору функцій навіть не мають цього. FWIW, монографія Міллера про "вибір підмножини в регресії" радить використовувати методи регуляризації, якщо прогнозовані показники є все необхідним. Там були деякі відкритими проблеми на відборі ознак, які припускають , що регуляризація має тенденцію випереджати вибір функції (див nipsfsc.ecs.soton.ac.uk і causality.inf.ethz.ch/challenge.php ).
Дікран Марсупіал

Як зазначено в першому абзаці, SVM мають тенденцію до стійкості до перенапруги, це те, що він використовує регуляризацію (параметр C) , тому за замовчуванням svmмають ці параметри регуляризації C ? І я не впевнений, які змінні, контрольовані цим C , ви маєте на увазі ці слабкі змінні ?
авокадо

10

Почну з другого та останнього запитань.

Проблема узагальнення, очевидно, важлива, оскільки якщо результати машинного навчання неможливо узагальнити, то вони є абсолютно марними.

Методи забезпечення узагальнення походять із статистичних даних. Зазвичай ми припускаємо, що дані генеруються з деякого розподілу ймовірностей, який бере початок у реальності. Наприклад, якщо ви чоловік, який народився у 2000 році, існує ймовірність розподілу, яка ваша вага / зріст / колір очей, коли ви досягнете 10, що є результатом наявного генофонду в 2000 році, можливих факторів навколишнього середовища тощо. Якщо у нас є маса даних, ми можемо сказати щось про основні розподіли, наприклад, що з великою часткою ймовірності вони є гауссовими або багаточленними. Якщо ми маємо точну картину розподілів, то враховуючи зріст, вагу та колір очей 10-річної дитини в 2010 році, ми можемо отримати хорошу приблизну ймовірність того, що дитина буде чоловіком. І якщо ймовірність близька до 0 або 1, ми можемо добре зрозуміти, яким є насправді секс для дітей.

kδk+ϵk+ϵ

Тепер повернемося до SVM. Якщо ви не використовуєте ядра або не використовуєте ядра, які відображають в кінцеві розмірні простори, так званий розмір Вапніка-Червоненкіса, який є мірою складності простору гіпотези, є кінцевим, і з цим і достатньо прикладів навчання ви можете отримати це з високою ймовірність помилки на тестовому наборі не буде набагато більшою, ніж помилка на навчальному наборі. Якщо ви використовуєте ядра, які відображаються в нескінченномірних просторах, то розмірність Вапніка-Червоненкіса також нескінченна, і що гірше, самі навчальні зразки не можуть гарантувати хорошого узагальнення, незалежно від кількості їх. На щастя, розмір поля SVM виявляється хорошим параметром для забезпечення узагальнення. З великим запасом і навчальним набором ви можете гарантувати, що помилка тесту не буде набагато більшою, ніж помилка тренувань.


7

Існує щонайменше два основних джерела набору, які ви можете розглянути.

  1. Переобладнання за алгоритмом, який виводив занадто багато з доступних навчальних зразків. Це найкраще захищати емпірично, використовуючи міру узагальнюючої здатності моделі. Перехресне підтвердження - один з таких популярних методів.

  2. Переоформлення, оскільки базовий розподіл не є зразком. Зазвичай з цим можна зробити мало, якщо ви не зможете зібрати більше даних або додати знання домену про проблему до своєї моделі.

Завдяки 120 зразкам та великій кількості функцій, ви, швидше за все, зірветеся з 2, а також можете схилити до 1.

Ви можете зробити щось близько 1, уважно спостерігаючи за впливом складності моделі на помилки тесту та навчання.


Але, як ми виявимо, чи переозброюємо ми? Якщо моделі роблять досить хорошими в перехресній валідації, чи роблять вони це через те, що це насправді добре, або через надмірну обробку через 1 або 2? Також, маючи тисячі функцій, аналіз кожної функції вручну був би громіздким. Якщо неможливо визначити перевиконання, як можна довіряти будь-якому результату перехресної перевірки?
user13420

1
Без додаткових даних дуже складно дізнатись, чи подолаєтеся ви серед населення, яке не має вибірки. Ви можете розділити дані на три набори, використовуючи набір перевірки для налаштування моделі, а потім окремий тестовий набір для тестування. Інший підхід полягає в тому, щоб змінити складність моделі та побачити, як змінюються точність навчальних і тестових задач. Помилка помилки тестового набору вказуватиме на деяку ступінь перевиконання моделі з даних.
image_doctor

Застосування повторних випробувань 50/50 витримки дасть вам певне відчуття, якщо навчальний і тестовий набори збалансовані. Їх, мабуть, не буде. Деякі моделі, такі як KNN, дозволять домогтися ідеальної точності на тренувальному наборі, тому в деякому сенсі вони притаманні. Але вони все ж можуть досягти прийнятних показників на тестовому наборі. Так як, як і в машинному навчанні, зрештою, все залежить від точної специфіки даних.
image_doctor

@image_doctor Чи можете ви детальніше розповісти про "зміни складності моделі"?
Кіт Хугітт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.