Логістична регресія проти LDA як двокласні класифікатори


36

Я намагаюся обернути голову навколо статистичної різниці між лінійним дискримінантним аналізом та логістичною регресією . Чи правильно я розумію, що для задачі класифікації двох класів LDA прогнозує дві функції нормальної щільності (по одній для кожного класу), яка створює лінійну межу, де вони перетинаються, тоді як логістична регресія лише передбачає функцію відхилення журналу між двома класами, яка створює межу, але не бере на себе функції щільності для кожного класу?


Дивіться також подібне запитання stats.stackexchange.com/q/14697/3277
ttnphns

Відповідна відповідь, stats.stackexchange.com/a/31466/3277
ttnphns

Відповіді:


35

Мені здається, що ти прав. Логістична регресія справді не передбачає конкретних форм щільності в просторі прогнозних змінних, але LDA це робить. Ось деякі відмінності між двома аналізами, коротко.

Бінарна логістична регресія (BLR) проти лінійного дискримінантного аналізу (з 2 груп: також відома як FDA's LDA):

  • BLR : На основі оцінки максимальної ймовірності. LDA : На основі оцінки найменших квадратів; еквівалентний лінійній регресії з бінарним передбаченням (коефіцієнти пропорційні і R-квадрат = лямбда-1-Вілка).

  • BLR : Оцінюється ймовірність (членство в групі) негайно (передбачення вважається самим імовірним, спостерігається) і умовно. LDA : опосередковує оцінку ймовірності (передбачення розглядають як бінну безперервну змінну, дискримінант) за допомогою класифікаційного пристрою (наприклад, наївного Байєса), який використовує як умовну, так і граничну інформацію.

  • BLR : Не настільки вимогливий до рівня масштабу та форми розподілу в предикторах. LDA : бажано, щоб прогнозувачі були інтервальним рівнем з багатоваріантним нормальним розподілом.

  • BLR : Немає вимог щодо матриць коваріації в межах групи прогнозів. LDA : Коваріаційні матриці всередині групи повинні бути однаковими за сукупністю.

  • BLR : Групи можуть мати зовсім інші . LDA : Групи повинні мати схожі .нн

  • BLR : Не настільки чутливий до людей, що вижили. LDA : Досить чутливий до людей, що втратили лиць.

  • BLR : Молодший метод. LDA : Старіший метод.

  • BLR : Зазвичай краще, тому що менш вимогливий / більш надійний. LDA : З урахуванням усіх його вимог часто класифікується краще, ніж BLR (асимптотична відносна ефективність на 3/2 рази вище, ніж тоді).


21

Дозвольте додати кілька пунктів до приємного списку @ttnphns:

  • Прогноз Байєса щодо ймовірності членства в задньому класі LDA також слід логістичній кривій.
    [Ефрон, Б. Ефективність логістичної регресії порівняно з нормальним дискримінантним аналізом, J Am Stat Assoc, 70, 892-898 (1975).]

  • Хоча цей документ показує, що відносна ефективність ЛДА перевершує ЛР, якщо допущення ЛДА виконуються (Посилання: Довідка Ефрона вище, остання точка @tthnps), згідно з Елементами статистичного навчання на практиці майже немає різниці.
    [Хасті, Т. і Тібшірані, Р. і Фрідман, Дж. Елементи статистичного навчання; Обмін даними, Inference andPrediction Springer Verlag, Нью-Йорк, 2009]

  • Ця надзвичайно підвищена відносна ефективність ЛДА здебільшого трапляється в асимптотичних випадках, коли абсолютна помилка в будь-якому випадку практично незначна.
    [Harrell, FE & Lee, KL Порівняння дискримінації дискримінантного аналізу та логістичної регресії за багатовимірною нормальністю, Biostatistics: Statistics in Biomedical, Public Health and Environmental Sciences, 333-343 (1985).]

  • Хоча я на практиці стикався з великими розмірами малих розмірів вибірки, коли ЛДА здається вищим (незважаючи на те, що як багатоваріантна нормальність, так і припущення про рівну коваріантну матрицю явно не виконуються).
    [ Белеїт, С .; Гейгер, К .; Кірш, М .; Соботка, С.Б .; Schackert, G. & Salzer, R. Raman спектроскопічне оцінювання тканин астроцитоми: використовуючи м'яку довідкову інформацію., Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]

  • Але зауважте, що в нашому документі LR, можливо, бореться з проблемою, що можна знайти напрямки з (майже) ідеальною відокремлюваністю. З іншого боку, LDA може бути менш сильним.

  • Відомі припущення щодо LDA потрібні лише для доказу оптимальності. Якщо їх не виконати, процедура все одно може бути хорошою евристикою.

  • Різниця, яка для мене важлива на практиці, оскільки проблеми класифікації, над якими я працюю іноді / часто виявляються, насправді зовсім не такі чіткі проблеми з класифікацією: LR легко можна виконати з даними, де посилання має проміжний рівень належності до класу. Зрештою, це техніка регресії .
    [див. папір, пов’язаний вище]

  • Можна сказати, що LR концентрується більше, ніж LDA на прикладах біля межі класу, і в основному ігнорує випадки на «задній частині» розподілів.

  • Це також пояснює, чому він менш чутливий до людей, що вижили (тобто тих, хто знаходиться на задній стороні), ніж ЛДА.

  • (підтримуючі векторні машини були б класифікатором, який іде в цьому напрямку до самого кінця: тут все, крім випадків на кордоні, не враховується)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.