Як знайти та оцінити оптимальну дискретизацію для безперервної змінної з


9

У мене є набір даних з безперервною змінною та бінарною змінною цілі (0 і 1).

Мені потрібно дискретизувати постійні змінні (для логістичної регресії) стосовно цільової змінної та з обмеженням, що частота спостереження в кожному інтервалі повинна бути врівноваженою. Я спробував алгоритми машинного навчання, такі як Chi Merge, дерева рішень. Чи злиття дало мені інтервали з дуже незбалансованими числами в кожному інтервалі (інтервал з 3 спостереженнями і ще один з 1000). Дерева рішень важко інтерпретувати.

Я дійшов висновку, що оптимальна дискретизація повинна максимально збільшити статистику між дискретизованою змінною та цільовою змінною і повинна мати інтервали, що містять приблизно однакову кількість спостережень.χ2

Чи існує алгоритм вирішення цього питання?

Це, як це могло б виглядати в R (def - цільова змінна, а x - змінна, яку слід дискретизувати). Я обчислив Чупроу, щоб оцінити "кореляцію" між трансформованою та цільовою змінною, оскільки статистика має тенденцію до збільшення кількості інтервалів. Я не впевнений, чи це правильний шлях.Tχ2

Чи є інший спосіб оцінити, чи моя оптимізація є оптимальною, крім Ччупрова (збільшується, коли кількість класів зменшується)?T

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}

2
Ви, можливо, це знаєте; але, для запису, (1) не потрібно і не часто бажано дискретизувати провідників для логістичної регресії; & (2) за допомогою відповіді для визначення предикторів вносить оптимістичний ухил в оцінку прогнозних показників вашої моделі, і це тому важливо підтвердити всю процедуру підгонки (тобто, включаючи метод, який ви використовуєте для формування прогнозів).
Scortchi

Гаразд, як я можу підтвердити дискретизацію, як це працює?
Шарлотта,

Якщо ви використовуєте, наприклад, перехресну перевірку, то в кожному складі ви не просто здійснюєте логістичну регресію, використовуючи "оптимальну" дискретизацію прогнозів, визначену з усієї вибірки, але також перераховуєте "оптимальну" дискретизацію.
Scortchi

Відповіді:


8

Існує багато можливих способів дискретизації суцільної змінної: див. [Garcia 2013]

На сторінці 739 я міг побачити принаймні 5 методів на основі chi-квадрата. Оптимальність дискретизації фактично залежить від завдання, в якому ви хочете використовувати дискретизовану змінну. У вашому випадку логістична регресія. І як було обговорено в Garcia2013, пошук оптимальної дискретності, що задається завданням, не є повним.

Однак є багато евристики. У цій роботі вони обговорюють щонайменше 50 з них. Враховуючи моє вивчення машинного навчання (я думаю, що люди в статистиці віддають перевагу іншим), я часто упереджений до методу мінімальної довжини опису Файяда та Ірані (MDL). Я бачу, він доступний у розсуді пакету R

Як ви вже говорили, Chi-квадрат є упередженим щодо великої кількості інтервалів та багатьох інших статистичних даних (як приріст інформації, що використовується в методі MDL). Однак MDL намагається знайти гарний компроміс між інформаційним посиленням дискретизованої змінної та класом та складністю (кількістю інтервалів) дискретизованої змінної. Спробувати.


Здається, ваше посилання на Garcia 2013 порушено ... Ви б не хотіли розмістити докладніші відомості про цю статтю або повторно зв’язатись?
Кіран К.

2
@KiranK. Дякую, що повідомив. Я зафіксував посилання.
Симона
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.