Тест-ква-квадрат - це статистичний тест незалежності для визначення залежності двох змінних. Він поділяє схожість з коефіцієнтом визначення, R². Однак тест-ква-квадрат застосовний лише до категоричних або номінальних даних, тоді як R² застосовується лише для числових даних.
З визначення чі-квадрата ми можемо легко зробити висновок про застосування методу чі-квадрат у виборі функцій. Припустимо, у вас є цільова змінна (тобто мітка класу) та деякі інші функції (змінні функції), що описують кожен зразок даних. Тепер ми обчислюємо статистику чи-квадрата між кожною змінною функції та цільовою змінною та спостерігаємо за існуванням зв’язку між змінними та цільовою. Якщо змінна цілі не залежить від змінної функції, ми можемо відкинути цю змінну. Якщо вони залежать, змінна функція є дуже важливою.
Математичні деталі описані тут: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
Для безперервних змінних chi-квадрат може бути застосований після "Binning" змінних.
Приклад в R, безсоромно скопійований з FSelector
# Use HouseVotes84 data from mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)
#Calculate the chi square statistics
weights<- chi.squared(Class~., HouseVotes84)
# Print the results
print(weights)
# Select top five variables
subset<- cutoff.k(weights, 5)
# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)
Не пов’язане з настільки великим вибором функцій, але відео нижче розглядає деталі https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8