Вибір моделі та продуктивність моделі при логістичній регресії


9

У мене є питання щодо вибору моделі та продуктивності моделі при логістичній регресії. У мене є три моделі, які базуються на трьох різних гіпотезах. Перші дві моделі (дозволяють назвати їх z і x) мають лише одну пояснювальну змінну в кожній моделі, а третя (дає назву w) є більш складною. Я використовую AIC для вибору змінної для моделі w, а потім AIC для порівняння, яка з трьох моделей найкраще пояснює залежну змінну. Я виявив, що модель w має найнижчий AIC і тепер хочу зробити деяку статистику продуктивності цієї моделі, щоб отримати деяке уявлення про прогнозовану потужність моделі. Оскільки я знаю лише те, що ця модель краща за інші дві, але не наскільки вона хороша.

Оскільки я використовував усі дані для вивчення моделі (щоб можна було порівняти всі три моделі), як мені рухатись із ефективністю моделі? З того, що я зібрав, я не можу просто зробити перехресну перевірку k-кратній підсумкової моделі, яку я отримав від вибору моделі за допомогою AIC, але потрібно починати спочатку з усіма пояснювальними змінними, чи правильно це? Я б подумав, що саме остаточну модель, яку я обрав з AIC, я хочу знати, наскільки добре вона працює, але розумію, що я навчився всім даним, щоб модель могла бути упередженою. Тож якщо мені слід почати спочатку з усіма пояснювальними змінними у всіх складках, я отримаю різні кінцеві моделі для деяких складок, чи можу я просто вибрати модель зі складки, яка дала найкращу прогнозовану силу та застосувати її до повного набору даних для порівняння AIC з двома іншими моделями (z і x)? Або як це працює?

Друга частина мого запитання - це основне запитання про перепараметризацію. У мене 156 точок даних, 52 - це 1, решта - 0. У мене є 14 пояснювальних змінних для вибору моделі w, я розумію, що я не можу включати все через перепараметризацію, я читав, що вам слід використовувати лише 10% групи залежної змінної з найменшими спостереженнями, які тільки 5 було б для мене. Я намагаюся відповісти на питання з екології, чи нормально вибирати вихідні змінні, які, на мою думку, пояснюють залежне найкраще просто на основі екології? Або як вибрати вихідні пояснювальні змінні? Не вважає правильним повністю виключати деякі змінні.

Тож у мене справді три питання:

  • Чи може бути нормальним тестувати продуктивність на моделі, що навчається на повному наборі даних з перехресною валідацією?
  • Якщо ні, то як я вибираю остаточну модель під час перехресної перевірки?
  • Як я вибираю початкові змінні, щоб мені хотілося перепараметризувати?

Вибачте за мої брудні запитання та моє незнання. Я знаю, що задавались подібні запитання, але все ще відчуваю трохи розгубленості. Вдячні за будь-які думки та пропозиції.

Відповіді:


7

Це правда, що для перевірки вашої моделі краще використовувати тестовий набір даних. Однак ви все одно можете сказати, наскільки добре ваша модель працювала на ваших даних, якщо ви чесно ставитеся до того, що зробили. Те, що ви насправді не можете зробити, це сказати, що це зробить це добре за іншими даними: це, швидше за все, не буде. На жаль, багато опублікованих статей принаймні натякають на це неправильне поняття.

Ви запитаєте

чи добре вибирати вихідні змінні, які, на мою думку, пояснюють залежне найкраще просто на основі екології?

Це не тільки добре, це краще, ніж будь-яка автоматизована схема. Дійсно, це також можуть бути остаточними змінними. Це дещо залежить від ступеня знань у цій галузі. Якщо про те, що ви досліджуєте, відомо мало, тоді може знадобитися більш дослідницький підхід. Але якщо у вас є вагомі підстави думати, що певні змінні повинні бути в моделі, тоді, будь-ласка, введіть їх. І я б заперечував, щоб вони їх залишили там, навіть якщо вони не суттєві.


1

Якщо ви збираєтеся робити вибір моделі, то, я думаю, вам краще зробити вичерпний пошук і зважування кожної моделі, а не вибір вишні. У вас є лише 14 змінних, що, безумовно, можливо - 16384 різних моделей не надто великі, тим більше, що розмір вибірки невеликий. Я також хотів би переглянути нормалізовані ваги, визначені:

wm=[lexp(12[AIClAICm])]1

Ці ваги припускають, що AIC від'ємний удвічі більший за ймовірність журналу плюс удвічі більша кількість бета. Якщо найкраща модель має вагу, близьку до тоді просто використовуйте її. в іншому випадку слід оцінити результати серед моделей із загальною вагою близько . Зазвичай відбувається так, що "основну" групу змінних слід завжди включати з невизначеністю щодо "неосновного" набору та третього набору неважливих змінних, які ніколи не з'являються в моделях з великою вагою.11

Ви також можете замінити AIC на BIC або якийсь інший штраф на основі IC, щоб побачити, як ваги залежать від певної складності застосовуваного штрафу.


Використання AIC на всіх можливих моделях - це процес з надзвичайною кратністю, для якого я цікавлюсь ефективністю. Якщо говорити в широких загальних рисах, не завжди логічно розглядати це як проблему вибору змінної, а як проблему пеналізації (усадки).
Френк Харрелл

Чи є процес, який не має надзвичайної кратності у виборі моделі? Ви маєте справу з масовим дискретним простором - це незмінно призводить до великої кількості порівнянь. Я думаю, питання більше в тому, чи є неявна прихованість попередніх моделей розумною.
ймовірністьлогічний

Добре кажучи. Але я вважаю, що більшість вправ щодо вибору моделей є непотрібними (тобто парситизм не є вашим другом) і результатом того, що взагалі немає пріорів.
Френк Харрелл

Я також погоджуюсь, я думаю, що фактори Байєса найкраще використовуються для питань структури моделі, таких як, наприклад, використовувати звичайний або t розподіл. Вони не марні для ковариантного відбору, але неефективні порівняно з усадкою.
ймовірністьлогічний

Вибачте за мій пізній коментар, але чи знаєте ви будь-який простий спосіб обчислити це в R? У мене AIC: s у списку чи матриці. Я досить новачок у R, тому будь-яка складна функціональна побудова є складною. Дякую!
mael

0

Відповісти "Чи може бути нормальним тестувати працездатність на моделі, навченій на повний набір даних з перехресною валідацією?" НІ, я не думаю, що це нормально. Ви повинні підходити всі 3 моделі до одного підмножини вашого набору даних. Потім зробіть перехресну перевірку, щоб побачити, яка з них краща.


1
Тож якщо я правильно вас розумію, я повинен використовувати лише один тренувальний і один тестовий набір для всіх моделей? Чи можу я все-таки використовувати свої 5 змінних для останньої моделі тоді чи це ризик перенастроювання параметрів? І чи не ризик це лише один навчальний набір - адже це буде дуже залежно від того, де буде роздвоєння відносно мало даних, які я маю, - чи це не про що турбуватися? Інакше відчувається, що це був би найбільш правильний спосіб зробити це.
mael

0

Чи може бути нормальним тестувати продуктивність на моделі, що навчається на повному наборі даних з перехресною валідацією?

Я думаю, НЕ. Можливо, кращим методом було б оцінити кожну з трьох моделей за допомогою повторної перехресної перевірки. Зважаючи на те, що ви вибрали свої функції на основі попередніх знань, вам не потрібно турбуватися про вибір функції. Цей метод дозволяє оцінити працездатність моделі.

Якщо ні, то як я вибираю остаточну модель під час перехресної перевірки?

Після того, як ви оцінили працездатність вашої моделі за допомогою повторної перехресної перевірки, ви зможете тренувати кінцеву модель, використовуючи всі наявні дані.

Як я вибираю початкові змінні, щоб мені хотілося перепараметризувати?

Якщо я правильно розумію: За пропозицією дописувача вище, ви можете або додати свої функції на основі попередніх знань про місцевість, або ж вам потрібно зробити вибір функції в межах перехресної перевірки, щоб уникнути перевитрати. Потім ця сама процедура вибору функцій застосовуватиметься до всіх даних під час підготовки кінцевої моделі. Ви не можете використовувати цю модель для повідомлення про узагальнену продуктивність моделі, це повинно випливати з оцінки перехресної перевірки.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.