Переобладнання лінійних класифікаторів

10

Сьогодні наш професор на уроці заявив, що "переобладнати лінійними класифікаторами неможливо". Я вважаю, що це неправильно, оскільки навіть лінійні класифікатори можуть бути чутливими до людей, що перебувають у навчальному наборі - візьмімо, наприклад, жорсткий запас підтримки Vector Machine: Один єдиний шумний точок даних може змінити, який гіперплан буде використовуватися для розділення наборів даних. Або я помиляюся? Очевидно, лінійність, ймовірно, заважатиме скоріше переозброювати через меншу складність моделі, все ж я не бачу, чому перевиконання має бути неможливим. Ще одним моментом є те, що коли я намагався замислитися над цією проблемою, я зрозумів, що «надмірне оздоблення», здається, формально не визначене. Чому так? Чи не міг би якийсь показник відстані між навчанням та результатами тестового набору забезпечити таку формалізацію? Дякую

classification overfitting

— Мопс
джерело

4

Чому ви кажете лінійний класифікатор? Більшість лінійних моделей призначені для прогнозування, а не для класифікації. І ви маєте рацію - лінійні моделі можуть бути дуже схильні до переобладнання. Не стільки, скільки методи машинного навчання, але все-таки надмірне обладнання може бути проблемою.

— Френк Харрелл

5

Перевиконати лінійний класифікатор дуже просто. Просто підходьте модель до якогось набору даних (галасливий, реальний) і не використовуйте ніяких регуляризацій.

— Владислав Довгалеч

2

Остерігайтеся класифікації - зазвичай не потрібно встановлювати приціли таким чином низьким.

— Френк Харрелл

2

@FrankHarrell ... і чому?

— Пугл

1

Y

$Y$

Y

$Y$

12

Лінійна регресія / класифікатор абсолютно може бути надмірною, якщо використовувати її без належного догляду.

$5000$

set.seed(154)
N <- 5000
y <- rbinom(N, 1, .5)

$5000$ $500$

N.classes <- 500
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))

Не повинно бути ніякого зв’язку між нашими переворотами yта нашими випадковими класами rand.class, вони визначалися повністю незалежно.

Однак, якщо ми спробуємо передбачити випадковий фліп із випадковим класом за допомогою логістичної регресії (лінійного класифікатора), він впевнений, що вважає, що існує зв'язок

M <- glm(y ~ rand.class, family="binomial")
hist(coef(M), breaks=50)

Справжнє значення кожного з цих коефіцієнтів дорівнює нулю. Але, як бачите, у нас досить поширення. Цей лінійний класифікатор точно є надмірним.

$-15$ $15$ y == 1y == 0 $15$

Здається, "перевиконання" формально не визначене. Чому так?

Перевищення можливо найкраще зрозуміти в контексті класу моделей, який має певний параметр складності. У цьому випадку можна сказати, що модель є надмірною, коли зменшення складності трохи призводить до кращих очікуваних результатів вибірки.

Було б дуже важко точно визначити поняття модельно незалежно. Єдина модель просто підходить, вам потрібно щось порівняти, щоб вона була надмірно підходящою. У моєму прикладі вище це порівняння було з правдою, але ви правди зазвичай не знаєте, отже, модель!

Чи не міг би якийсь показник відстані між навчанням та результатами тестового набору забезпечити таку формалізацію?

Є така концепція, вона називається оптимізмом. Він визначається:

ω = E_{test} - E_{train}

$\omega = E_{\text{test}} - E_{\text{train}}$

$E$

Але це не зовсім суть переоснащення, тому що продуктивність на тестовому наборі може бути трохи гіршою, ніж у поїзді, навіть якщо модель більшої складності зменшує і те, і інше .

— Метью Друрі
джерело

вау, яка хороша відповідь, велике спасибі. одне питання: чи лінійні СВМ менш схильні до надмірного розміщення, ніж, наприклад, журнал. регресія, яку ви згадали (через різні способи оптимізації для лінійної межі рішення)?

— Пугл

1

Треба визнати, я не знавець SVM і не маю практичного досвіду їх використання. Я не дуже хочу ризикувати відповіддю і ризикую помилитися. Якщо ви можете сформулювати це точно, напевно, варто запитати його власне.

— Меттью Друрі

SVM регулюються і тому менш схильні до надмірного набору. Для того, щоб усвідомити, що вам потрібно лише подивитися на функцію, яку ви мінімізуєте: вона включає або норму l1, або l2 норму ваг, скорочуючи їх в оптимізації і тому віддаючи перевагу "простим" моделям перед "складними" моделями. Параметр, що управляє цим, є гіпер-параметром C. У обмежувальному випадку (C = нескінченність) SVM "ідеально" підходить для тренувального набору, і це, мабуть, надмірно (зауважте, що я сказав, ймовірно, вам потрібен тестовий набір, щоб бути впевненим!). Також зауважте, що я використав багато цитат, але це можна правильно визначити.

— скд

2

У 70-х роках експерименти з алгоритмами розпізнавання візерунків на великих наборах даних виявили, що додавання додаткових функцій в деяких випадках збільшує частоту помилок набору тестів. Це проти інтуїтивно зрозуміло, тому що можна було б очікувати, що додавання додаткової функції завжди збільшує продуктивність класифікатора, або у випадку, якщо додана функція - "білий шум", її додавання зовсім не впливає на продуктивність класифікатора. Ефект від додавання ще більше додаткових функцій до класифікатора, що врешті-решт призводить до зниження продуктивності тестового набору, став відомим як найвищий феномен [1].

Особливість піку викликається надмірним узагальненням під час навчання. Додаткові функції викликають включення такої кількості додаткових параметрів, що класифікатор починає переповнювати дані. Звідси проходить вершина .

Загалом ми стикаємося з відхиленням у відхиленні відхилення при навчанні класифікаторів. Чим більше змінних функцій ми використовуємо, тим краще буде ( невідомий ) базовий механізм класифікатора моделювати наш класифікатор. Отже, систематичне відхилення між пристосованою моделлю та «істинністю» зменшиться, тобто менші результати зміщення. З іншого боку, збільшення простору функцій класифікатора обов'язково передбачає додавання параметрів (тих, що відповідають доданим функціям). Таким чином, дисперсія вмонтованого класифікатора теж зростає.

Таким чином, класифікатор, що перевищує максимум, є лише однією стохастичною реалізацією великомірної проблеми класифікації, і нове пристосування призведе до сильно різного вектора параметрів. Цей факт відображає підвищену дисперсію.

[1. Г. В. Магістраль, "Проблема розмірності: простий приклад", в операціях IEEE з аналізу візерунків та машинного інтелекту, т. ПАМІ-1, вип. 3, стор. 306-307, липень 1979 р.]

— Match Maker EE
джерело

1

Я думаю, що надмірна відповідність стосується складності моделі, а не здатності до узагальнення. Я розумію, що цитата "лінійний класифікатор не може бути переоснащена", оскільки її складність невелика, і немає іншого простішого класифікатора, що забезпечує кращі показники.

Приклад пов’язаний із здатністю до узагальнення лінійних класифікаторів (і складних). Навіть у цій другій частині лінійні класифікатори зазвичай надають меншу дисперсію, ніж складні, тому значення лінійних класифікаторів, відповідно до цієї концепції, також є меншим (хоча емпіричний ризик для них може бути таким великим). atb

— пепе Катро
джерело

0

Як сказав @ match-maker-ee, лінійні класифікатори можуть переповнювати залежно від вхідних функцій.

Наступна модель f є лінійною за своїми параметрами a , b і c , але може бути встановлена на квадратичну криву в просторі функцій x :

f (x) = a x^{2} + b x + c

$f(x) = ax^2+bx+c$

SVM також можуть надмірно підходити, наприклад, коли вони використовують хитрість ядра, незважаючи на те, що вони в основному є лінійною моделлю в розширеному просторі функцій.

— малоадаізичний
джерело