У мене є питання щодо вибору моделі та продуктивності моделі при логістичній регресії. У мене є три моделі, які базуються на трьох різних гіпотезах. Перші дві моделі (дозволяють назвати їх z і x) мають лише одну пояснювальну змінну в кожній моделі, а третя (дає назву w) є більш складною. Я використовую AIC для вибору змінної для моделі w, а потім AIC для порівняння, яка з трьох моделей найкраще пояснює залежну змінну. Я виявив, що модель w має найнижчий AIC і тепер хочу зробити деяку статистику продуктивності цієї моделі, щоб отримати деяке уявлення про прогнозовану потужність моделі. Оскільки я знаю лише те, що ця модель краща за інші дві, але не наскільки вона хороша.
Оскільки я використовував усі дані для вивчення моделі (щоб можна було порівняти всі три моделі), як мені рухатись із ефективністю моделі? З того, що я зібрав, я не можу просто зробити перехресну перевірку k-кратній підсумкової моделі, яку я отримав від вибору моделі за допомогою AIC, але потрібно починати спочатку з усіма пояснювальними змінними, чи правильно це? Я б подумав, що саме остаточну модель, яку я обрав з AIC, я хочу знати, наскільки добре вона працює, але розумію, що я навчився всім даним, щоб модель могла бути упередженою. Тож якщо мені слід почати спочатку з усіма пояснювальними змінними у всіх складках, я отримаю різні кінцеві моделі для деяких складок, чи можу я просто вибрати модель зі складки, яка дала найкращу прогнозовану силу та застосувати її до повного набору даних для порівняння AIC з двома іншими моделями (z і x)? Або як це працює?
Друга частина мого запитання - це основне запитання про перепараметризацію. У мене 156 точок даних, 52 - це 1, решта - 0. У мене є 14 пояснювальних змінних для вибору моделі w, я розумію, що я не можу включати все через перепараметризацію, я читав, що вам слід використовувати лише 10% групи залежної змінної з найменшими спостереженнями, які тільки 5 було б для мене. Я намагаюся відповісти на питання з екології, чи нормально вибирати вихідні змінні, які, на мою думку, пояснюють залежне найкраще просто на основі екології? Або як вибрати вихідні пояснювальні змінні? Не вважає правильним повністю виключати деякі змінні.
Тож у мене справді три питання:
- Чи може бути нормальним тестувати продуктивність на моделі, що навчається на повному наборі даних з перехресною валідацією?
- Якщо ні, то як я вибираю остаточну модель під час перехресної перевірки?
- Як я вибираю початкові змінні, щоб мені хотілося перепараметризувати?
Вибачте за мої брудні запитання та моє незнання. Я знаю, що задавались подібні запитання, але все ще відчуваю трохи розгубленості. Вдячні за будь-які думки та пропозиції.