Дискримінаційний аналіз проти логістичної регресії


16

Я знайшов деякі плюси дискримінаційного аналізу, і у мене є питання щодо них. Так:

Коли класи добре розділені, оцінки параметрів логістичної регресії напрочуд нестабільні. Коефіцієнти можуть піти в нескінченність. LDA не страждає від цієї проблеми.

Якщо кількість ознак невелика і розподіл предикторів Х приблизно нормальний у кожному з класів, лінійна дискримінантна модель знову стабільніше, ніж модель логістичної регресії.

  1. Що таке стабільність і чому вона важлива? (Якщо логістична регресія забезпечує гарну форму, яка виконує свою роботу, то чому я повинен дбати про стабільність?)

LDA популярний, коли у нас є більше двох класів відповідей, оскільки він також забезпечує низький розмір перегляду даних.

  1. Я просто не розумію цього. Як LDA забезпечує низькомірні перегляди?
  2. Якщо ви можете назвати більше плюсів чи мінусів, це було б непогано.

3
Ви також можете прочитати інші питання на цю тему (lda vs logistic). Будь ласка, пошукайте цей сайт.
ttnphns

Відповіді:


13

Коли класи добре розділені, оцінки параметрів логістичної регресії напрочуд нестабільні. Коефіцієнти можуть піти в нескінченність. LDA не страждає від цієї проблеми.

Якщо є коваріатні значення, які можуть ідеально передбачити бінарний результат, то алгоритм логістичної регресії, тобто оцінка Фішера, навіть не збігається. Якщо ви використовуєте R або SAS, ви отримаєте попередження про те, що ймовірності нуля і одиниці були обчислені і алгоритм вийшов з ладу. Це крайній випадок ідеального розділення, але навіть якщо дані розділені лише значною мірою, а не ідеально, оцінювач максимальної ймовірності може не існувати, і навіть якщо він існує, оцінки не є достовірними. Отримане придатність зовсім не добре. На цьому веб-сайті є багато тем, що займаються проблемою розділення, тому будь ласка, подивіться

Навпаки, не часто трапляються проблеми з оцінкою із дискримінанткою Фішера. Це все ще може статися, якщо або між матрицею коваріації є сингулярним, але це досить рідкісний примірник. Насправді, якщо відбувається повне або квазіповне розлучення, то тим краще, оскільки дискримінант швидше матиме успіх.

Варто також зазначити, що всупереч поширеній думці LDA не ґрунтується на припущеннях щодо розповсюдження. Нам потрібно лише неявно вимагати рівності матриць коваріації сукупності, оскільки об'єднаний оцінювач використовується для матриці коваріації. За додаткових припущень щодо нормальності, рівних попередніх імовірностей та витрат на помилкову класифікацію, LDA є оптимальним у тому сенсі, що мінімізує ймовірність помилкової класифікації.

Як LDA забезпечує низькомірні перегляди?

Простіше зрозуміти, що це стосується двох груп та двох змінних. Ось мальовниче зображення того, як працює LDA у такому випадку. Пам'ятайте, що ми шукаємо лінійні комбінації змінних, що забезпечують максимальну відокремленість. введіть тут опис зображення

Отже, дані проектуються на вектор, напрямок якого краще досягає цього поділу. Як ми знаходимо, що вектор є цікавою проблемою лінійної алгебри, ми в основному максимізуємо коефіцієнт Релея, але покинемо це осторонь. Якщо дані проектуються на цей вектор, розмірність зменшується з двох до одного.

Загальний випадок більш ніж двох груп та змінних розглядається аналогічно. Якщо розмірність велика, то для її зменшення використовують більш лінійні комбінації, дані прогнозуються на площинах або гіперпланах у цьому випадку. Існує обмеження на кількість лінійних комбінацій, звичайно, можна знайти, і це обмеження є результатом вихідного виміру даних. Якщо позначити кількість змінних предиктора на та кількість сукупностей на g , то вийде, що число становить не більше min ( g - 1 , p ) .pg min(g1,p)

Якщо ви можете назвати більше плюсів чи мінусів, це було б непогано.

Тим не менш, низьке розмірне представництво не обходиться без недоліків, головне - це, звичайно, втрата інформації. Це менше проблеми, коли дані лінійно відокремлюються, але якщо вони не є, втрата інформації може бути істотною і класифікатор буде погано працювати.

Можуть також бути випадки, коли рівність матриць коваріації може бути неприйнятним припущенням. Ви можете використати тест, щоб переконатися, але ці тести дуже чутливі до відхилень від нормальності, тому вам потрібно зробити це додаткове припущення, а також перевірити його. Якщо буде встановлено, що популяції є нормальними з нерівними матрицями коваріації, замість цього може використовуватися правило квадратичної класифікації (QDA), але я вважаю, що це досить незручне правило, не кажучи вже про контрінтуїтивність у великих розмірах.

Загалом, основною перевагою LDA є наявність чіткого рішення та його обчислювальна зручність, що не стосується більш досконалих методів класифікації, таких як SVM або нейронні мережі. Ціна, яку ми платимо, - це сукупність припущень, що йдуть із нею, а саме лінійна роздільність і рівність матриць коваріації.

Сподіваюсь, це допомагає.

EDIT : Я підозрюю, що моє твердження про те, що LDA щодо конкретних випадків, про які я згадував, не вимагає ніяких припущень щодо розподілу, крім рівності коваріаційних матриць, коштувало мені зниження рівня. Але це не менш вірно, тому дозвольте бути більш конкретним.

Якщо дозволити позначає засоби з першої та другої сукупності, а S об'єднаний позначає об'єднану коваріаційну матрицю, дискримінант Фішера вирішує задачуx¯i, i=1,2Spooled

maxa(aTx¯1aTx¯2)2aTSpooleda=maxa(aTd)2aTSpooleda

Вирішення цієї проблеми (до постійної) може бути показано як таке

a=Spooled1d=Spooled1(x¯1x¯2)

Це еквівалентно LDA, який ви отримуєте за умови нормальності, рівних матриць коваріації, витрат на помилкову класифікацію та попередніх ймовірностей, правда? Ну так, хіба що зараз ми не припустили нормальності.

Ніщо не заважає вам використовувати дискримінант вище у всіх налаштуваннях, навіть якщо коваріаційні матриці насправді не рівні. Це може бути не оптимальним у сенсі очікуваної вартості неправильної класифікації (ECM), але це навчання під наглядом, тому ви завжди можете оцінити його ефективність, використовуючи, наприклад, процедуру затримки.

Список літератури

Бішоп, Крістофер М. Нейронні мережі для розпізнавання образів. Оксфордська університетська преса, 1995.

Джонсон, Річард Арнольд і Дін В. Вічерн. Застосовується багатоваріантний статистичний аналіз. Вип. 4. Скелі Енглвуд, штат Нью-Джерсі: Зал Прентісе, 1992.


1
(Я не той користувач, котрий взяв на себе відповідальність). Щоб спробувати узгодити свою відповідь з Френком Гареллом, мені здається, що все-таки потрібно припустити, що всі змінні є безперервними (інакше я думаю, що максимальний коефіцієнт Релея не був би унікальним).
user603

1
@ user603 Я ніде не бачив цієї умови. Рішення визначається тільки до постійної в будь-якому випадку.
ДжонК

Джон, уявіть, що є лише 2 класи (і так, лише одна дискримінантна лінія), що мають однакові, симетричні (еліпсоїдальні) розподіли та рівні попередні ймовірності. Тоді нам насправді не потрібно припускати конкретно нормального розповсюдження, оскільки нам не потрібен жоден pdf, щоб призначити справу класу. У більш складних налаштуваннях (таких як 3+ класи) ми повинні використовувати деякі pdf, і це зазвичай нормально.
ttnphns

1
W1BWB

1
Джон, ваш останній коментар - це те, що з вами, і я згоден.
ttnphns

10

LDA робить суворі припущення щодо розподілу (багатоваріантна нормальність всіх прогнозів) на відміну від логістичної регресії. Спробуйте отримати задні ймовірності членства в класі на основі статі предметів, і ви побачите, що я маю на увазі - ймовірності не будуть точними.

Y=1β±±30

Дивіться це для отримання додаткової інформації.

Зауважимо, що якщо виконується багатовимірна нормальність, то по теоремі Байєса припущення логістичної регресії дотримуються. Зворотний неправда.

Нормальність (або принаймні симетрія) повинна майже дотримуватися відхилень і коваріацій, щоб "виконати роботу". Немультиварні зазвичай розподілені предиктори навіть зашкодять фазі екстрагування, що дискримінує.


1
На мій погляд, нормальність потрібна конкретно на етапі класифікації (прогнозування класу) ЛДА. Це не є необхідним на етапі вилучення (зменшення розмірності) дискримінантів, який, однак, все ще передбачає дисперсію-коваріантну однорідність. (Цікаво, що останнє припущення може бути дещо звільнене при класифікації: ви можете використовувати окремі коваріації в межах класу для дискримінантів.)
ttnphns

3
tt

2
т

2
Так, SD робить різні припущення і не є надійними. Меншою мірою середнє робить деякі припущення значущими. Найменші квадрати, PCA та LDA ефективно роблять більше припущень щодо розподілу, ніж багато хто думає.
Френк Харрелл

2
Я не переконаний у цих міркуваннях, і я все ще вважаю, що протистояння було несправедливим, але я не авторитет у цьому питанні. Я надав посилання, однак, я вам скажу те саме.
JohnK

0

Коли класи добре розділені, оцінки параметрів логістичної регресії напрочуд нестабільні. Коефіцієнти можуть піти в нескінченність. LDA не страждає від цієї проблеми.

Відмова: Що далі випливає, не вистачає математичної суворості повністю.

Для того, щоб добре вписатись у (нелінійну) функцію, вам потрібні спостереження у всіх областях функції, де "її форма змінюється". Логістична регресія відповідає сигмоїдної функції даним:

введіть тут опис зображення

У випадку добре відокремлених класів всі спостереження потраплять на два "кінці", де сигмоїда наближається до своїх асимптотів (0 і 1). Оскільки всі сигмоїди «виглядають однаково» в цих регіонах, так би мовити, недарма у поганого алгоритму підходу буде складно знайти «правильний».

Давайте подивимось на два (сподіваємось повчальні) приклади, обчислені за допомогою glm()функції R.

Випадок 1: Дві групи значною мірою перетинаються:

введіть тут опис зображення

і спостереження добре розподіляються навколо точки згину прилаштованої сигмоїди:

введіть тут опис зображення

Це встановлені параметри з приємними низькими стандартними помилками:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

і відхилення також виглядає нормально:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Випадок 2: дві групи добре розділені:

введіть тут опис зображення

і спостереження практично лежать на асимптотах. glm()Функція робила все можливе , щоб відповідати що - то, але скаржилися на числовому 0 або 1 ймовірності, тому що просто немає спостережень , доступних для «отримати форму сигмовидної права» навколо його перегину точки:

введіть тут опис зображення

Діагностувати проблему можна, зазначивши, що стандартні похибки розрахункових параметрів проходять через дах:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

і в той же час відхилення виглядає підозріло добре (адже спостереження добре відповідають асимптотам):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

Принаймні інтуїтивно з цих міркувань слід зрозуміти, чому "оцінки параметрів логістичної регресії напрочуд нестабільні".


Подивіться на відповідь @Frank Harrell, яка явно не погоджується з вами! І вивчіть його посилання та посилання ...
kjetil b halvorsen

@kjetilbhalvorsen Моя головна думка - це інтуїтивна ілюстрація того, що "напрочуд нестабільне" пристосування. Я видалив останнє речення з посиланням на LDA.
Laryx Decidua
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.