Заходи відокремленості класу в задачах класифікації


11

Прикладом гарної міри відокремленості класів у лінійних дискримінантних учнів є лінійне дискримінантне відношення Фішера. Чи є інші корисні показники для визначення того, чи забезпечують набори функцій гарне розділення класів між цільовими змінними? Зокрема, мені цікаво знайти хороші багатовимірні атрибути введення для максимізації поділу цільових класів, і було б непогано мати нелінійний / непараметричний захід для швидкого визначення, чи забезпечують вони хорошу відокремлюваність.


Я читав про розширення Karhunen Loeve дозволяє використовувати інформацію про клас для вилучення функцій. Крім того, існують розширення на PCA, як, наприклад, використання середньозваженого коефіцієнта коваріації класів замість глобальної матриці. Крім цієї інформації, мене також цікавлять можливі відповіді на ваше запитання.
Зоран

Відповіді:


1

Те, що ви шукаєте, можуть бути мінливими мірами важливості (VIM) з випадкових лісів. Короткий огляд двох із них наведено у статті Огляд випадкової методології лісів та практичних вказівок з акцентом на обчислювальну біологію та біоінформатику Boulesteix et al.

Ідея GIM VIM полягає в тому, що ви отримуєте деяку статистику того, як часто випадковий ліс використовував певний атрибут як критерій розщеплення. Тут вибирають інформаційні функції частіше.

Перестановка VIM заснована на ідеї про те , що з -за помилки оцінки RF-класифікаторі по порівнянню між

  • оригінальний набір даних та
  • штучний набір даних, де перестановлено значення для атрибута ONE.

Отримана в результаті різницю помилок-оцінок буде важливою для важливих особливостей.

Наскільки я пам’ятаю, VIM також можна використовувати для виявлення залежностей між функціями.


0

Пошук оптимального набору функцій може бути досить обчислювально дорогим. Основні категорії доступних рішень можна згрупувати у два набори: або прив’язати до конкретного класифікатора (обгортки), або просте ранжування ознак на основі якогось критерію (методи фільтрації).

Виходячи з ваших вимог (швидкий / непараметричний / нелінійний), ймовірно, вам потрібні кандидати з методів Filter. Прикладів, описаних у літературі, є досить багато . Наприклад, інформаційний приріст - який оцінює значення атрибуту, вимірюючи приріст інформації стосовно класу; або Кореляція, яка оцінює значення атрибута на основі співвідношення між атрибутом і класом.

Методи обгортки прив'язуються до класифікатора і можуть закінчуватись кращим набором функцій для цікавого класифікатора. В силу свого характеру (повне тренування / тестування в кожній ітерації) вони не можуть вважатися швидкими або непараметричними, однак вони можуть мати справу з нелінійними співвідношеннями ознак (ваша третя вимога). Прикладом може бути рекурсивне усунення функцій, яке базується на SVM, таким чином, націлене на максимальне збільшення запасу між класами та може мати справу з нелінійними відношеннями функцій (використовуючи нелінійне ядро).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.