Моя ситуація:
- невеликий розмір зразка: 116
- двійкова змінна результат
- довгий список пояснювальних змінних: 44
- пояснювальні змінні не надходили з моєї голови; їх вибір ґрунтувався на літературі.
- більшість випадків у вибірці та більшість змінних мають відсутні значення.
Вибраний підхід до вибору функцій: LASSO
Пакет glmnet R не дозволить мені запустити програму glmnet, мабуть, через відсутність значень у моєму наборі даних. Здається, існують різні методи обробки відсутніх даних, тому я хотів би знати:
- Чи накладає LASSO якесь обмеження з точки зору методу імпутації, який я можу використовувати?
- Що було б найкраще для методу імпутації? В ідеалі мені потрібен метод, який я міг би запустити на SPSS (бажано) або R.
ОНОВЛЕННЯ1: З деяких відповідей нижче зрозуміло, що я маю справу з більш основними питаннями, перш ніж розглянути методи імпутації. Я хотів би додати тут нові запитання щодо цього. У відповіді, що пропонує кодування як постійне значення та створення нової змінної, щоб мати справу з "непридатними" значеннями та використанням групового ласо:
- Ви б сказали, що якщо я використовую груповий LASSO, я зможу використовувати підхід, запропонований для безперервних прогнозів, також до категоричних прогнозів? Якщо так, я припускаю, що це було б рівнозначно створенню нової категорії - я насторожено, що це може внести упередженість.
- Хтось знає, чи підтримує пакет glmnet R групу LASSO? Якщо ні, чи запропонував би хтось інший, який би це робив у поєднанні з логістичною регресією? У сховищі CRAN можна знайти декілька варіантів, де згадується група LASSO, будь-які пропозиції, найбільш відповідні для мого випадку? Можливо, SGL?
Це супроводження попереднього мого питання ( Як вибрати підмножину змінних з мого початкового довгого списку для проведення логістичного регресійного аналізу? ).
ЗАБЕЗПЕЧЕННЯ: Я не статистик.