Чому збільшення кількості функцій знижує продуктивність?


12

Я намагаюся зрозуміти, чому збільшення кількості функцій може знизити продуктивність. Наразі я використовую класифікатор LDA, який працює краще двозначно серед певних функцій, але гірше, коли дивлюся більше функцій. Моя точність класифікації виконується за допомогою стратифікованого 10-кратного xval.

Чи є простий випадок, коли класифікатор працював би краще одноразово, ніж двоваріантно, щоб отримати дещо фізичну чи просторову інтуїцію того, що відбувається в цих вищих вимірах?


8
Як короткий коментар, додавання невідповідних прогнозів може погіршити ефективність нових даних - збільшиться розбіжність прогнозування (над придатністю). Це тому, що ви закінчуєте підходити до шуму і розбавляти "справжній сигнал".
B_Miner

Відповіді:


9

Див. " Проблема розмірності: простий приклад " - дуже коротка і дуже стара стаття Г. В. Трунка. Він вважає проблему двох класів з умовними розподілами Гаусса, де ознаки є усіма актуальними, але зі зменшенням актуальності. Він показує, що коефіцієнт помилок класифікатора, підготовленого на кінцевій вибірці, дорівнює 0,5, тоді як помилка Байєса наближається до 0, оскільки кількість ознак збільшується.


(+1) Це мила маленька довідка.
кардинал

2

Це названо " Прокляття розмірності ". Я не знаю, чи є якась конкретна причина для LDA, але, як правило, має велику міру щодо результатів векторних ознак з необхідністю більш складних меж рішення. Маючи складні межі, також виникає питання "У якому ступені?" оскільки ми також вважаємо надмірну підгонку. Крім того, з додатковими вимірами складність алгоритму навчання також зростає. Таким чином, робота з відносно повільним алгоритмом навчання з величезним векторним функцією робить вашу роботу погіршенням. На додаток до вимірності, можливо, у вас є зростаюча можливість, щоб ви співвідносили функції, в яких не дуже зручно застосовувати багато алгоритмів навчання, таких як Neural Net або деякі інші.

Ви можете перерахувати інші причини, які знаходяться в розділі "Прокляття розмірності", але факт полягає у тому, щоб мати достатню кількість примірників із стислим векторним ознакою, який відходить за допомогою деяких процедур вибору функції.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.