Як поєднати результати логістичної регресії та випадкового лісу?


12

Я новачок у машинному навчанні. Я застосував логістичну регресію та випадковий ліс на одному і тому ж наборі даних. Тож я набуваю змінної важливості (абсолютний коефіцієнт для логістичної регресії та змінне значення для випадкових лісів). Я думаю об'єднати два, щоб отримати остаточне значення змінної. Чи може хтось поділитися своїм досвідом? Я перевірив мішковину, підсилення, моделювання ансамблів, але вони не те, що мені потрібно. Вони більше поєднують інформацію для однієї і тієї ж моделі в репліках. Що я шукаю, це поєднувати результат декількох моделей.


5
Ансамблеве моделювання може також комбінувати моделі. Наприклад, розгляньте голосування більшості. Дивіться також, укладання.
пат

4
Власне, використання розміру коефіцієнтів не є хорошим способом визначення «змінної важливості» в логістичній регресії. Навіть якщо ви дивитесь на стандартизовані коефіцієнти, це не гарний метод. Чому? Пам'ятайте, що коефіцієнти - це лише оцінки, і з ними пов'язана помилка. Вибір коефіцієнтів за розміром означає, що ви вибираєте ті, для яких ви переоцінили розмір коефіцієнта, і випадаєте ті, для яких ви недооцінили розмір коефіцієнта.
user765195

Відповіді:


12

Це, мабуть, залежить від того, для чого ви хочете використовувати змінні імпорти. Чи його слід використовувати як критерій вибору ознак для третьої моделі класифікації? У цьому випадку ви можете спробувати обчислити середньозважену значущість змінних (можливо, після нормалізації кожного окремого вектору значення змінної до одиниці довжини) для різних значень та усередненої ваги, а потім підбирати значення, що дає найкращий перехресний валідний бал для остаточного модель.

Що стосується поєднання результатів логістичної регресійної моделі та випадкової лісової моделі (без урахування змінних значень), наступна публікація блогу є дуже інформативною і демонструє, що єдине усереднення результатів - це простий, але дуже ефективний метод ансамблю для регресійних моделей.


1
Дякую за вашу відповідь Блог, про який ви згадали, справді цікаве дослідження. Я думаю, що я отримав ідею. Єдине занепокоєння викликає його перехресна формула ентропії. Здається, вона відрізняється від тієї, яку я знайшов в Інтернеті. Його використання: cross.entropy <- функція (цільова, передбачувана) {передбачена = pmax (1e-10, pmin (1-1e-10, передбачувана)) - сума (target * log (прогнозований) + (1 - target) * журнал (1 - передбачувано))}
користувач1946504

2
і коли я застосував ту саму ідею до власного набору даних, я використав помилку помилкової класифікації як критерії, сюжет нічого подібного. Випадковий ліс виявляється набагато краще, ніж логістичний регрес. похибка неправильної класифікації РФ становить 0,2, для LR - 0,4. При цьому AUC для РФ дорівнює 0,8, для LR - 0,73.
користувач1946504

5

(Коментуючи вищевказану відповідь та відгуки)

Дякуємо, що прочитали блог!

Функція помилки перехресної ентропії має невеликий обман, обрізаючи передбачувані значення до [1e-10, 1-1e-10], як дешевий і простий спосіб запобігти помилкам у функціях журналу. Інакше це стандартна формула.

Для набору даних дуже можливо мати набори даних, де випадковий ліс значно перевершує журнал. рег. і журнал. рег. нічого не додає до ансамблю. Звичайно, переконайтеся, що ви використовуєте дані витримки - випадковий ліс майже завжди матиме найкращі результати щодо даних тренувань завдяки наявності набагато ефективніших параметрів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.