Кластеризація як засіб поділу даних для логістичної регресії


11

Я намагаюся передбачити успіх чи невдачу студентів на основі деяких особливостей з логістичною регресійною моделлю. Щоб покращити ефективність моделі, я вже думав про розподіл учнів на різні групи на основі очевидних відмінностей та побудови окремих моделей для кожної групи. Але я думаю, що може бути складно визначити ці групи за допомогою іспиту, тому я подумав розділити учнів шляхом кластеризації їхніх особливостей. Це звичайна практика побудови таких моделей? Ви б запропонували мені розбити його на очевидні групи (наприклад, студенти першого курсу проти студентів, що повертаються), а потім виконувати кластеризацію на цих групах або кластер з самого початку?

Щоб спробувати уточнити:

Я маю на увазі те, що я розглядаю можливість використовувати алгоритм кластеризації для розбиття мого навчального набору для логістичної регресії на групи. Тоді я б робив окремі логістичні регресії для кожної з цих груп. Тоді, використовуючи логістичну регресію для прогнозування результату для студента, я вибрав би, яку модель використовувати, виходячи з того, до якої групи вони найкраще вписуються.

Можливо, я міг би зробити те саме, включивши груповий ідентифікатор, наприклад, 1, якщо студент повертається, і 0, якщо ні.

Тепер ви подумали про те, чи може бути вигідним кластеризувати набір даних про навчання та використовувати їх кластерну мітку як особливість логістичної регресії, а не будувати окремі моделі логістичної регресії для кожної групи населення.

Якщо корисно включити ідентифікатор групи для тих, хто повертає студентів порівняно з новими учнями, може бути корисним також розширити список груп? Кластеризація здається природним способом цього зробити.

Сподіваюся, це зрозуміло ...


Думаю, я не розумію, як «кластеризація» та модель логістичної регресії взаємодіяли б або впливали одна на одну. Чи можете ви пояснити різницю між "кластеризацією" у цьому контексті та включенням ідентифікатора групи як пояснювальної змінної в регресію?
whuber

Відповіді:


4

Я вважаю, що якщо у вас є значна різниця у вашій залежній змінній між вашими кластерами, тоді підхід кластеризації спочатку буде ВИКОНАНО корисним. Незалежно від обраного алгоритму навчання.

На мою думку, використання алгоритму, що навчається на всій основі, може приховати значущі відмінності на нижчому рівні агрегації.

Кожен, хто чув про парадокс Сімпсона, це важкий випадок глибшої проблеми, коли у вас різні кореляції в різних групах, які охоплені більшим шумом вибірки та слабкішими кореляціями більшої групи.


Ви можете мати рацію, але я не дотримуюся ваших аргументів. Ви виступаєте за те, щоб ОП виконували окремі LR на знайдених кластерах, додавали індекс кластеру на додаток до коваріатів або замість коваріатів? Це, безумовно, правда, що коваріати можуть бути збиті з огляду / пропущеними змінними при спостережних дослідженнях, але ви хочете сказати, що CA може генерувати інформацію, яка не знаходиться в змінних, на яких вона працює? Щодо парадоксу Сімпсона, то він обговорюється на CV тут, якщо вам цікаво.
gung - Відновіть Моніку

Я припускаю, що непідконтрольний аналіз виводить гомогенні групи з довільним набором IV (незалежні змінні). Після цього ви можете вирішити, чи будете ви просуватися з тим же набором varbs або новим набором або комбінованим набором для наступного етапу моделювання з LR. Метою є створення та налаштування 1 LR на кластер (враховуючи, що кластер має суттєво різні значення DV або частоти).
кланч

Я реально це здійснив сам у контексті моделі перехресного продажу продуктів страхування життя та виявив покращене прогнозування для 2 кластерів, які були розведені 3-м кластером.
clancy

Цікаво, чи могла потрібна модель сплайну. Чи можете ви включити моделювання деяких даних, базовий показник, CA та остаточний (покращений) показник підключення з кластером? Мені було б цікаво побачити це і трохи пограти з ним, щоб зрозуміти, що відбувається.
gung - Відновіть Моніку

Привіт Гунг, я б хотів, але не можу знайти час. Я дуже інвестую в сім'ю, працюю і вдосконалюю свої навички моделювання. Я тільки починаю працювати з моделюванням MARS і не впевнений, чи це задовольнить той же бажаний результат, як описаний ансамбль кластера + LR.
clancy

8

Ваш запропонований загальний підхід - використання прихованих розділів для присвоєння різних точок даних різним базовим класифікаторам - є добре дослідженим підходом до класифікації.

Причина, що ці методи не застосовуються широко, є ймовірною, оскільки вони відносно складні та мають триваліший час роботи, ніж логістична регресія або SVM. У багатьох випадках здається, що вони можуть призвести до кращої ефективності класифікації.

Ось кілька посилань:

  • Шахбаба, Б. та Ніл, Р. "Нелінійні моделі з використанням технологічних сумішей Діріхле"

  • Чжу, Дж. Та Чен, Н. та Сін, EP "Нескінченна латентна SVM для класифікації та багатозадачного навчання"

  • Расмуссен, CE та Ghahramani, Z. "Нескінченні суміші експертів Гаусського процесу"

  • Мідс, Е. та Осіндеро, С. "Альтернативна нескінченна суміш фахівців Гаусського процесу"


1

Я хочу з самого початку визнати, що я знаю порівняно мало про кластеризацію. Однак я не бачу сенсу описаної вами процедури. Якщо ви думаєте, наприклад, що перший термін проти студентів, що повертаються, може бути різним, чому б не включити коефіцієнт, який це індексує? Так само, якщо ви вважаєте, що ще одна особливість студентів є актуальною, ви можете також включити її. Якщо ви переживаєте, що взаємозв'язок між вашим основним прогнозувачем інтересу та показником успішності може відрізнятися, ви також можете включити взаємодію між цим прогнозним і першим терміном проти повернення тощо. Логістична регресія добре підходить для вирішення цих питань, включаючи такі терміни в моделі.

З іншого боку, до тих пір, поки ви лише кластеризуєтеся над цими функціями, і робите це спочатку (не дивлячись на відповідь), я не бачу проблем, що виникають. Я підозрюю, що такий підхід був би неефективним, тому що кожна модель має меншу потужність, оскільки вона підходить лише для підмножини даних, але я не думаю, що це змістить параметри або виправдає тести. Тож я гадаю, ви могли б спробувати це, якщо дуже хочете.

Оновлення:

Я здогадуюсь, що найкраще (тобто, найефективніше) розмістити одну модель з усіма даними. Ви можете включити деякі додаткові коваріати (наприклад, повернення проти не) за межами вашого основного інтересу, і індикатор групування, який ви виявили, попередньо виконавши аналіз кластеру. Однак якщо коваріати, що потрапили в кластерний аналіз, також будуть доступні для моделі логістичної регресії, я не впевнений, чи зможу я зрозуміти, що було б досягнуто за рахунок включення всіх коваріатів у модель LR безіндикатор кластера Можливо, в цьому є перевага, яку я не знайомий, оскільки я не знаю кластерного аналізу, але не знаю, що це було б. Мені здається, що КА не генерував би додаткової інформації, якої вже не було в коваріатах, і, таким чином, нічого не додасть до моделі LR. Ви можете спробувати; можливо я помиляюся Але я здогадуюсь, що ви просто спалите кілька зайвих ступенів свободи.

Іншим підходом було б введення індикатора кластера в модель LR замість коваріатів, на яких він заснований. Сумніваюся, це було б вигідно. CA не буде ідеальним, більше, ніж будь-який інший аналіз коли-небудь, і тому перехід від початкових коваріатів до похідного кластерного індикатора, ймовірно, спричинить за собою деяку кількість втрати інформації . (Знову ж, я цього не знаю, але я сильно підозрюю, що це правда.) Знову ж, ви можете спробувати це в обох напрямках і порівняти як академічну вправу, хоча просто намагаєтеся багато чого і вирішити результат, який найкраще виглядає, це нахмуриться. якщо ви хочете серйозно поставитися до своїх результатів.

Я не хочу просто брати участь у кластерних аналізах. Загалом від них може бути багато переваг, і тут може бути корисно. Однак, як я розумію вашу ситуацію, я думаю, що просто побудувати модель LR з коваріатами, які, на вашу думку, можуть бути доречними.


1

Якщо ви не пов'язані з логістичною регресією, я б запропонував вам скористатися випадковим лісовим класифікатором, оскільки він має вбудований тип кластеризації. Ідея полягала б у використанні матриці близькості для кластеру. Матриця близькості - це матриця N_Obs від N_Obs для частки дерев мішків, де спостереження, де в одному і тому ж кінцевому вузлі. Потім можна об'єднати це в рівень функції за матрицею рівня функції, де елементи є середнім значенням дробу в матриці близькості. Потім ви об'єднаєте всі рівні разом, коли вони пройдуть поріг, і побачите, чи покращує це ваш прогноз. Ймовірно, найкраще скористатися поетапним ітеративним підходом для пошуку оптимальної кластеризації, але ви можете вибрати поріг іншими способами. Коли ця кластеризація завершена, ви можете замінити функцію мітками кластера або додати мітки кластера як нову функцію. Я гадаю, що в цей момент ви могли б перейти до логістичної регресії, якби справді цього хотіли.


0

Під час створення мультисегментованих моделей я думаю, що найкращим підходом є створення сегментів, які говорять про реальні відмінності в базових розподілах. Студенти, які навчаються на перших курсах та студенти, які повертаються, - чудовий приклад, оскільки розподіли прогнозів, ймовірно, будуть дуже різними для цих двох груп населення. Що ще важливіше, ці відмінності мають інтуїтивне пояснення.


Я отримую значення інтуїтивного пояснення - це допомагає вам інтерпретувати свою модель. Але чи не є підставою думати, що якщо ви згрупуєте людей у ​​групи на основі їх подібності, з точки зору наявних у вас функцій, ви отримаєте подібну вигоду, хоча і не з однаковою інтерпретацією? Я думаю, що ідея використання кластеризації полягає в тому, що коли мова йде про виявлення груп, які не чітко відповідають категоріям, якими ми користуємося в повсякденному житті, машини краще, ніж люди ...
Дейв

Крім того, якщо ви тренуєте регресійну модель на наборі схожих студентів, ця модель буде точнішою у своїх прогнозах успіху тих студентів, ніж модель, яка готувалася з використанням більш широкого набору студентів.
Дейв
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.