(Зараз у вас мало часу, тому я коротко відповім, а потім розгорніть пізніше)
Скажіть, що ми розглядаємо проблему бінарної класифікації та маємо навчальний набір m зразки 1 класу та nзразки 2 класу. Тест перестановки для вибору особливостей розглядає кожну особливість окремо. Тестова статистикаθ, наприклад, інформаційний приріст або нормалізована різниця між засобами, обчислюється для функції. Дані для цієї функції потім випадковим чином перестановляються і розподіляються на два набори, один за розміромm і одна за розміром n. Статистика тестуθp Потім обчислюється на основі цього нового розділу p. Залежно від обчислювальної складності проблеми це повторюється над усіма можливими розділами функції на два набори порядкуm і nабо випадкове їх підмножина.
Тепер, коли ми встановили розподіл по θp, ми обчислюємо значення p, яке спостерігається статистичним тестом θвиник із випадкового поділу ознаки. Нульова гіпотеза полягає в тому, що вибірки з кожного класу походять з однакового базового розподілу (особливість не має значення).
Цей процес повторюється над усіма ознаками, і тоді підмножина функцій, що використовуються для класифікації, можна вибрати двома способами:
- The N характеристики з найнижчими p-значеннями
- Усі функції з р-значенням<ϵ