Поетапна логістична регресія та вибірка


13

Мені підходить поетапна логістична регресія на наборі даних у SPSS. Під час процедури я підганяю свою модель до випадкового підмножини, що становить приблизно. 60% від загальної вибірки, що становить близько 330 випадків.

Що мені здається цікавим, це те, що кожного разу, коли я повторно відбираю свої дані, у кінцевій моделі я отримую різні змінні. Кінцеві прогнози завжди присутні у кінцевій моделі, але інші з'являються та виходять залежно від вибірки.

Моє запитання таке. Який найкращий спосіб впоратися з цим? Я сподівався побачити конвергенцію змінних прогнозів, але це не так. Деякі моделі мають набагато більш інтуїтивний сенс з оперативного погляду (і їх було б легше пояснити особам, які приймають рішення), а інші трохи краще підходять до даних.

Коротше кажучи, оскільки змінні перетасовуються навколо, як би ви порадили розібратися з моєю ситуацією?

Заздалегідь дякую.

Відповіді:


16

Якщо ви збираєтеся використовувати покрокову процедуру, не повторюйте повторно. Створіть один випадковий підпроб раз і назавжди. Виконайте на ньому свій аналіз. Обґрунтуйте результати на основі даних, що витримуються. Можливо, більшість "значущих" змінних виявляться несуттєвими.

( Редагувати 12/2015: Ви дійсно можете вийти за рамки такого простого підходу шляхом перекомпонування, повторення покрокової процедури та повторної перевірки: це призведе до форми перехресної перевірки. Але в такому випадку більш складні методи змінної вибір, такий як регресія хребта, лассо та еластична сітка, ймовірно, кращий для поступової регресії.)

Орієнтуйтеся на змінні, які мають сенс, а не на ті, які трохи краще відповідають даних. Якщо у вас є декілька змінних для 330 записів, ви в першу чергу маєте велику небезпеку перевитрати. Подумайте про використання досить жорстких критеріїв введення та виходу для поступової регресії. Базуйте його на AIC або замість порогів для тестів чи тестів. F tСpЖт

(Я припускаю, що ви вже провели аналіз та дослідження, щоб виявити відповідні повторні вираження незалежних змінних, що ви виявили ймовірні взаємодії, і що ви встановили, що дійсно існує приблизно лінійна залежність між logit залежної змінної і регресорів. Якщо ні, виконайте цю важливу попередню роботу і лише потім поверніться до поступової регресії.)

Будьте обережні дотримуючись загальних порад, як я щойно дав, до речі :-). Ваш підхід повинен залежати від мети аналізу (прогнозування? Екстраполяція? Наукове розуміння? Прийняття рішень?), А також від характеру даних, кількості змінних тощо.


2
+1 для висвітлення важливості інтерпретації моделі. Я нічого не додаю про неінформований підхід до ML (або ансамблевих методів) із складнішими схемами перехресної валідації, тому що я відчуваю, що ви вже сказали, що тут дійсно важливо: (1) Вибір функції через перекомпонування навряд чи можна інтерпретувати окремо (тобто, порівнюючи один результат за іншим) та (2) все залежить від того, чи шукаємо ми прогнозну чи пояснювальну модель.
chl

Дякуємо за ваше розуміння. Я зробив кілька попередніх екранів, щоб звузити мій простір пошуку і просто хочу знайти найкращу модель для прогнозування з найменшими змінними. Я вкидаю в модель лише 7 предикторів, що, як я розумію, повинно бути нормальним. Я розумію ідею дотримуватися зразка, але, з іншого боку, моя модель була принципово іншою і показує, що результати повністю залежать від вибірки, що змусило мене зробити паузу.
Btibert3

@ Btibert3 Право: коли результати різняться між випадковими підмножинами ваших даних, ви можете сприймати це як доказ того, що незалежні змінні не є сильними або послідовними провісниками незалежної змінної.
whuber

12

Важливе запитання - «навіщо робити, чому ви хочете, щоб модель мала якомога менше змінних?». Якщо ви хочете мати якомога менше змінних, щоб мінімізувати витрати на збір даних для оперативного використання вашої моделі, то відповіді, надані whuber та mbq, - це відмінний початок.

Якщо прогнозована ефективність - це дійсно важливо, то вам, мабуть, краще взагалі не робити будь-якого вибору функцій і використовувати замість них регульовану логістичну регресію (cf ridge regression). Насправді, якщо передбачувальна ефективність мала найважливіше значення, я б використовував мішкову регульовану логістичну регресію як своєрідну стратегію «ременів і брекетів», щоб уникнути переналагодження невеликого набору даних. Міллар у своїй книзі про підбір підмножини в регресії дає майже таку пораду в додатку, і я вважав, що це прекрасна порада при проблемах з великою кількістю функцій та не дуже багато спостережень.

Якщо розуміння даних важливе, тоді не потрібно, щоб модель, яка використовується для розуміння даних, була такою ж, як і для прогнозування. У такому випадку я б переупорядковував дані багато разів і переглядав шаблони вибраних змінних у зразках, щоб виявити, які змінні були інформативними (як пропонує mbq, якщо вибір функції нестабільний, один зразок не дасть повного зображення), але я б все-таки використовував мішковий регуляризований ансамбль моделей регресії для прогнозування.


1
+1 для вказівника на регульовану логістичну регресію. Незрозуміло, як можна формально "подивитися на зразки", коли перекомпонувати "дані багато разів". Це дуже схоже на прослуховування даних і тому, здається, може призвести до розладу та помилок.
whuber

5
Вибір особливостей, коли вибір нестабільний, завжди буде рецептом фрустрації та помилок. Використання лише одного зразка зменшує розчарування, але збільшує ймовірність помилок, оскільки це спонукає вас робити висновки про відповідні функції проблеми, виходячи з того, що найкраще працює на конкретному зразку, який ви дивитесь - що є формою надмірного пристосування Повторне відбір проб дає уявлення про невизначеність у виборі функції - що часто так само важливо. У цьому випадку ми не повинні робити жодних чітких висновків щодо відповідних особливостей, оскільки недостатньо даних.
Дікран Марсупіал

Гарна думка; Я ненавиджу, коли люди розраховують лише на те, що від переутворення, це така трата.

10

Загалом є дві проблеми вибору функцій:

  • мінімально оптимальний , де ви шукаєте найменший набір змінних, які дають вам найменшу помилку
  • всі відповідні , де ви шукаєте всі змінні, що стосуються проблеми

Конвергенція вибору предиктора є сферою всієї відповідної проблеми, яка є пекло важкою і тому потребує набагато більш потужних інструментів, ніж логістична регресія, важкі обчислення та дуже обережне ставлення.

Але, здається, ви робите першу проблему, тому вам не варто турбуватися з цього приводу. Я, як правило, можу відповісти друге, але я не погоджуюся з твердженням, що вам слід відмовитися від переустановки - тут це не буде методом стабілізації вибору функцій, але, тим не менше, це буде імітацією для оцінки ефективності поєднаного вибору функції + навчання , так дасть вам зрозуміти впевненість у вашій точності.


+1 Я переживаю, що багато перекомпонування буде лише заплутаним та оманливим. Перекомплектування контрольованим способом, за допомогою перехресної перевірки або витримки для перевірки, очевидно, не є проблематичним.
whuber

6

Ви можете поглянути на статтю " Вибір стабільності " Майнсхаузена та Бульмана в JR Statist. Soc B (2010) 72 Частина 4 та обговорення після неї. Вони розглядають, що відбувається, коли ви неодноразово ділите набір точок даних навмання на дві половини і шукаєте функції в кожній половині. Припускаючи, що те, що ви бачите в одній половині, не залежить від того, що ви бачите у відповідній іншій половині, ви можете довести межі на очікувану кількість помилково вибраних змінних.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.