Як кількісно оцінити надмірність функцій?

У мене є три функції, які я використовую для вирішення проблеми класифікації. Спочатку ці функції давали булеві значення, тому я міг оцінити їх надмірність, дивлячись, наскільки набори позитивних і негативних класифікацій перетинаються. Тепер я розширив можливості для отримання реальних значень (балів) замість цього, і я хотів би ще раз проаналізувати їх надмірність, але я зовсім втрачаю, як це зробити. Чи може хтось надати мені вказівник чи ідею, як це зробити?

Я знаю, що це питання є дуже розпливчастим, тому що я не дуже розумію статистику. Отже, якщо ви не маєте для мене відповіді, можливо, у вас є якісь запитання, які можуть допомогти мені краще зрозуміти себе.

Редагувати: Я зараз переглядаю Вікіпедію з цього приводу, у мене є відчуття, що те, що я хочу, є коефіцієнтом кореляції, але я все ще не впевнений, чи це правильний підхід, і який із багатьох доступних коефіцієнтів є відповідним.

Редагувати 2: У булевому випадку я спершу створив для кожної функції набір зразків, для яких це було правдою. Тоді кореляцією між двома ознаками був розмір перетину цих множин над розміром об'єднання цих множин. Якщо це значення дорівнює 1, вони є абсолютно зайвими, бо завжди однакові. Якщо це 0, вони ніколи не є однаковими.

correlation feature-selection

— Бьорн Поллекс
джерело

це допоможе, якби ви навели приклад того, як ви визначаєте надмірність у булевій справі та які результати ви очікували б у безперервному випадку

— mpiktas

@mpiktas: Відредагуйте моє запитання у відповідь на ваш коментар.

— Бьорн Поллекс

Це звучить як проблема вибору функцій, якщо це так, я думаю, ви хочете обчислити взаємну інформацію між усіма підмножинами функцій та класифікаційним результатом. Підмножиною з найвищою взаємною інформацією буде набір функцій, що містить найбільше «інформації» про отриману класифікацію запису.

Якщо у вас є лише 3 функції, ви можете обчислити всі можливі підмножини за розумну кількість часу, якщо ваш набір функцій зростає, вам доведеться наблизити це (як правило, використовуючи жадібний підхід: брати функції з найвищим ІМ на кожному кроці ).

— Нік
джерело

(+1) для взаємної інформації. Додаткове зауваження: а) Я пропоную інформаційний прибуток як особливий випадок взаємної інформації. b) Автоматичний вибір функцій не тільки видалить зайві, але й усі функції, які негативно впливають на дискримінацію класів.

— steffen

Дякую! Це звучить дуже багатообіцяюче, я розберуся.

— Björn Pollex