Як пропонує AdamO у наведеному вище коментарі, ви не можете дійсно краще, ніж прочитати главу 4 Елементів статистичного навчання (яку я називаю HTF), яка порівнює LDA з іншими методами лінійної класифікації, наводячи багато прикладів, а також обговорює використання LDA як техніка зменшення розмірів у вені PCA, яка, як вказує ttnphns, досить популярна.
З точки зору класифікації, я думаю, що ключова відмінність полягає в цьому. Уявіть, що у вас є два класи, і ви хочете їх розділити. Кожен клас має функцію щільності ймовірності. Найкращою можливою ситуацією було б, якби ви знали ці функції густини, тому що тоді ви могли б передбачити, до якого класу належить точка, оцінивши специфічні для цього класу щільності.
Деякі види класифікатора діють, знаходячи наближення до функцій щільності класів. LDA - одна з таких; це робить припущення, що щільності є багатоваріантними нормальними з однаковою матрицею коваріації. Це сильне припущення, але якщо воно приблизно правильне, ви отримуєте хороший класифікатор. Багато інших класифікаторів також застосовують такий підхід, але намагаються бути більш гнучкими, ніж припускати нормальність. Наприклад, див. Сторінку 108 HTF.
З іншого боку, на сторінці 210 HTF попереджає:
Якщо класифікація є кінцевою метою, то добре вивчити щільність окремих класів може бути непотрібним, а насправді може бути оманливим.
Інший підхід - просто шукати межу між двома класами, що і робить перцептрон. Більш досконалою версією цього є підтримка векторної машини. Ці методи також можна поєднувати з додаванням функцій до даних за допомогою техніки, що називається кернелізацією. Це не працює з LDA, оскільки він не зберігає нормальність, але це не проблема для класифікатора, який просто шукає роздільну гіперплан.
Різниця між LDA та класифікатором, який шукає роздільну гіперплану, схожа на різницю між t-тестом та якоюсь непараметричною альтернативою у звичайній статистиці. Останнє є більш надійним (наприклад, для людей, що переживають люди), але перший є оптимальним, якщо його припущення будуть задоволені.
Ще одне зауваження: можливо, варто згадати, що деякі люди можуть мати культурні причини для використання таких методів, як LDA або логістична регресія, які можуть обов'язково викласти таблиці ANOVA, тести гіпотез та заспокоїти подібні речі. LDA був винайдений Фішером; перцептрон був спочатку моделлю для нейрона людини або тварини і не мав зв'язку зі статистикою. Це також працює і в інший спосіб; Деякі люди можуть віддати перевагу таким методам, як підтримка векторних машин, оскільки вони мають вигляд передового хіпстерського кредиту, який методів двадцятого століття просто не може відповідати. Це не означає, що вони кращі. (Хороший приклад цього обговорюється в машинному навчанні для хакерів , якщо я пригадую правильно.)