Співвідношення вибору та класифікації точності класифікації


10

Однією з методологій вибору підмножини доступних функцій для вашого класифікатора є класифікація їх за критерієм (наприклад, інформаційним посиленням), а потім обчислення точності за допомогою вашого класифікатора та підмножини ранжированих функцій.

Наприклад, якщо ваші функції є A, B, C, D, E, і якщо вони класифіковані як наступні D,B,C,E,A, то ви обчислюєте точність, використовуючи D, D, Bпотім D, B, C, потім D, B, C, E... поки ваша точність не почне зменшуватися. Як тільки воно починає зменшуватися, ви припиняєте додавати функції.

Приклад1

У прикладі1 (вище) ви вибрали б функції F, C, D, Aта відкинули інші функції, оскільки вони зменшують вашу точність.

Ця методологія передбачає, що додавання додаткових функцій до вашої моделі підвищує точність класифікатора до певного моменту, після чого додавання додаткових функцій знижує точність (як це показано в прикладі 1)

Однак моя ситуація інша. Я застосував описану вище методологію і виявив, що додавання більше функцій знижує точність до моменту, після якого вона збільшується.

Приклад2

У такому сценарії, як цей, як ви вибираєте свої функції? Ви лише вибираєте Fі скидаєте решту? Чи маєте ви ідею, чому точність знизиться, а потім зросте?

Відповіді:


4

Вибір особливостей включає декілька підходів, подібно до методів машинного навчання. Ідея полягає в тому, щоб зберегти найбільш релевантну, але не зайву особливість для прогнозної моделі, яка може забезпечити оптимальну точність.

У вашому випадку я не бачу, який метод ви використовуєте для вибору особливостей, але припускаючи, що ви не враховуєте багатоваріантність залежності функції. Скажімо, у вас N функцій, ймовірно, причина точності вашої моделі падає після n головних функцій, але покращується, додаючи n + k (де n <k <N, коли функції знаходяться у низхідному порядку на основі посилення інформації) пояснюється інтер- залежність (більш відповідність та менша надмірність) топових n та k ознак. Універсальний вибір функцій не обов'язково отримує оптимальну точність моделі, коли функції взаємозалежні та не є взаємовиключними. З філософської точки зору, набір оптимальних рис є аналогічним цитаті Арістотеля: "Ціле більше, ніж сума його частин"!

Для оптимального вибору функцій я часто є пакетом Caret Rмовою, де можна зробити вибір функції, використовуючи рекурсивне усунення функції (RFE) серед кількох інших підходів. Існує також пакет під назвою mRMRe для вибору функцій на основі максимальної релевантності та мінімальної надмірності.

Найкраще,
Самір


Я готував відповідь з мобільного і не розумів, що попередні дві відповіді дуже схожі! Моя помилка в тому, що не коментую це, а замість цього відповідаю окремо.
Самір

Ваша думка про зайві функції - це місце. Я перевірив, і можу підтвердити, що 3 функції з високим коефіцієнтом посилення інформації справді є зайвими (сильно співвідносяться між собою). Це пояснює, чому точність падає при сумісному використанні цих функцій: після першої функції додаткова функція не додає нового "виміру даних" до мого набору даних, а натомість вони створюють шум, оскільки вони лише "повторюють" те, що класифікатори вже знають завдяки перша особливість. Інші функції, однак із меншим збільшенням інформації, додають нового виміру даних.
Поліна

1

Про конкретне питання

Не слід очікувати конкретної поведінки (збільшення, а потім зниження точності) під час вибору підмножини функцій, оскільки це буде повністю залежати від проблеми (і кожної моделі)

Підраховуючи змінну важливість функцій, ви одночасно враховуєте внесок усіх функцій. Вибравши підмножину функцій та побудувавши нову модель, ви отримаєте інше представлення чи моделювання проблеми (що не враховує інших особливостей - інформативних чи ні -).

Тепер ви хочете вибрати найкращу кількість функцій. Це також залежатиме від вашої проблеми та характеристик або умов, які вам потрібно виконати. Якщо вам потрібно мати меншу кількість можливих функцій під час оптимізації точності прогнозування, ви можете вибрати найменшу кількість функцій, яка досягає найменшої помилки ... і, якщо у вас різні випадки з дуже схожими помилками, то виберіть поріг, дотримуйтесь найкращі випадки, чия парна різниця помилок є нижчою за порогову, і виберіть одну (наприклад, ту, яка має меншу кількість функцій - оскільки помилки незначно однакові -).

Розглянемо рекурсивне усунення особливостей

Метод, який ви використовуєте, може бути не найбільш стабільним підходом. Вам слід спробувати спробувати щось на зразок рекурсивного усунення функцій (RFE), методу обгортки, де ви будуєте класифікатор, класифікуєте всі функції, видаляєте найгірші та перебудовуєте модель на решті функцій. Потім ви повторите метод ще раз. Це буде, як правило, більш стабільним ... і вам слід очікувати різного рейтингу кожного разу.

Варіантність також є критичним фактором

Крім фактичної помилки (або точності), яку модель дає вам з кожним підмножиною, вам слід розглянути можливість побудови кожної моделі за допомогою процедури перехресної перевірки і врахувати як середню помилку складок, так і стандартне відхилення цих помилок. Якщо стандартне відхилення є високим, то вибраний підмножина функцій не є стабільним і, як правило, сильно відрізнятиметься при тестуванні з небаченими даними. Це важливо для оцінки очікуваних можливостей узагальнення моделі і може бути корисним для вирішення між моделями (побудованими з різними підмножинами).


1

Вам потрібно видалити як зайві, так і невідповідні функції зі свого набору даних. Видно, що у вашому наборі даних є неактуальні та зайві функції.

Я рекомендую вам переглянути алгоритм вибору мінімальної релевантності (MRMR) мінімальної надмірності. Це дуже популярний і потужний фільтр перед тим, як поїхати модель.

"Однак моя ситуація інша. Я застосував описану вище методологію, і я виявив, що додавання більше функцій знижує точність до моменту, після якого вона збільшується"

Це також можливо, але це призведе до більш складної моделі.


1

Зазвичай існує три класи алгоритмів вибору функцій.

  • Методи фільтрації, які аналізують внутрішні властивості даних і присвоюють бал кожній функції, не включаючи жодної моделі. Деякі приклади - зміна складок, t-тест для студентів.

  • Методи загортання, які різні підмножини функцій вибираються за допомогою конкретних алгоритмів. Потім ми вписуємось у класифікаційну чи регресійну модель, щоб оцінити кожен вибір і вибрати той, який найкраще підходить для фітнесу. Деякі приклади - генетичний алгоритм вибору особливостей, оптимізація Монте-Карло для вибору особливостей, ступінчастий вибір вперед / назад.

  • Вбудовані методи, що дозволяють самій моделі вибирати характеристики, що найкращим чином сприяють придатності моделі. Типовими є ЛАССО, регресія хребта.

Ось чудова стаття з деталями вступу до вибору функцій .


Метод, представлений у публікації, є прикладом фільтра. Фільтр оцінив усі функції, і тема полягає в тому, як вибрати підмножину цих ранжированих функцій.
Поліна
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.