Особливість важливості з високою кардинальністю для регресії (числова змінна залежність)

Я намагався використовувати імпорт функцій з Random Forests, щоб здійснити деякий емпіричний вибір функції для проблеми регресії, де всі функції є категоричними і багато з них мають багато рівнів (порядку 100-1000). Зважаючи на те, що одне гаряче кодування створює фіктивну змінну для кожного рівня, імпорт функцій - для кожного рівня, а не для кожної функції (стовпця). Який хороший спосіб об'єднати ці функції?

Я думав про підсумовування або отримання середнього значення для всіх рівнів функції (можливо, колишній буде упередженим щодо тих рис, що мають більше рівнів). Чи є посилання на це питання?

Що ще можна зробити, щоб зменшити кількість функцій? Я знаю груповий ласо, не міг знайти нічого простого для використання в науці.

— user90772
джерело

Чи може хтось відповісти на питання, чи має сенс підсумовувати значення змінної кожного рівня категоріальної змінної?

— .24

@ See24 Ні , ви не можете просто підвести їх: stats.stackexchange.com/questions/314567 / ...

— Дан

Це залежить від того, як ви їх однозначно кодуєте. Багато автоматизованих рішень для цього дозволять назвати всі перетворені булеви з малюнком, так що категорична змінна назва "буква" зі значеннями AZ закінчиться таким чином:

letter_A, letter_B, letter_C, letter_D,….

Якщо після того, як ви з'ясували важливість функції, у вас з'явився масив функцій і пов'язана з цим вага / важливість, я би проаналізував масив і, можливо, підсумував би ваги важливості функції для всього, що починається з "літер%".

— CalZ
джерело

Хіба сума не дає переваги тим функціям, які мають більше рівнів?

— user90772

Хм, хороший момент. Можливо, підсумуйте його, а потім розділіть на кількість рівнів / зашифровані одним гарячим змінними, щоб отримати "середнє" значення.

— CalZ

Я дещо подумав над цим, і це залежить від того, наскільки важливість набрана. У деяких випадках значення для кожної функції є відносною вагою, коли весь набір дорівнює 1. У цьому випадку, я думаю, було б доцільно підбити підсумки «гарячих» ознак. Якщо оцінка за характеристикою більше нагадувала коефіцієнт регресії і не зважувалась відносно чистого ефекту, то середнє значення, ймовірно, було б краще.

— CalZ

Дякую за відповідь Зважаючи на те, що я досить новачок у цій галузі, я подумав, що це стандартна річ для людей, що займаються наукою даних, але або це не те, що я повинен робити, щоб оцінити важливість колонки, або ця публікація не отримала достатньо переглядів. У будь-якому випадку, дякую!

— user90772

Багато хто виступає за те, щоб розглянути внутрішню модель як чорну скриньку і замість цього оцінити продуктивність. У деяких випадках (наприклад, нейронні мережі) це відбувається тому, що ви не можете реально глибоко вивчити це. У деяких випадках, коли ви можете легко зрозуміти, які функції є важливими (наприклад, лінійна регресія), ви можете легко ввести в оману (див .: stats.stackexchange.com/questions/105114/… ). Я думаю, що тому люди іноді ухиляються від того, щоб дивитися на важливість особистості.

— CalZ