Фон
Я займаюся клінічними дослідженнями в медицині і пройшов кілька курсів статистики. Я ніколи не публікував папір з використанням лінійної / логістичної регресії і хотів би зробити вибір змінної правильно. Інтерпретабельність є важливою, тому немає фантазійних методик машинного навчання. Я узагальнив своє розуміння варіабельного вибору - чи хтось буде проти пролити світло на якісь помилки? Я знайшов два (1) подібних (2) резюме до цього, але вони не повністю відповіли на мої проблеми. Будь-які думки були б вдячні! У мене є 3 первинних питання в кінці.
Проблема та обговорення
Моя типова проблема регресії / класифікації має 200-300 спостережень, рівень несприятливих подій 15% (якщо класифікація) та інформацію про 25 із 40 змінних, які, як стверджується, мають "статистично значимий" ефект у літературі або роблять правдоподібними. сенс за доменними знаннями.
Я вкладаю "статистично значущі" в лапки, тому що, здається, всі і їх мати використовують ступінчату регресію, але Гаррелл (3) і Флом (4), здається, не люблять це з ряду вагомих причин. Це також підтримується дискусією в блозі Gelman (5). Здається, що єдиний реальний час, який є поетапним, є прийнятним, якщо це справді дослідницький аналіз, або він зацікавлений у прогнозуванні та має схему перехресної перевірки. Тим більше, що багато медичних захворювань страждають від колінеарності І дослідження страждають від малого розміру вибірки, я розумію, що в літературі буде багато помилкових позитивних результатів; це також змушує мене довіряти літературі для включення потенційних змінних.
Інший популярний підхід полягає у використанні ряду універсальних регресій / асоціацій між предикторами та незалежною змінною в якості вихідної точки. нижче певного порогу (скажімо, р <0,2). Це здається невірним або принаймні оманливим з причин, викладених у цій публікації про StackExchange (6).
Нарешті, автоматизований підхід, який видається популярним у машинному навчанні, полягає у використанні пеналізацій, таких як L1 (Lasso), L2 (Ridge) або L1 + L2 combo (Elastic Net). Я розумію, що вони не мають таких самих легких тлумачень, як OLS або логістична регресія.
Gelman + Hill пропонує наступне:
У своєму курсі "Статистика" я також пригадую використання тестів F або "Аналіз відхилення" для порівняння повних і вкладених моделей, щоб зробити модель / зміну вибору змінної за змінною. Це здається розумним, але придатні послідовні вкладені моделі систематично знаходити змінні, які спричиняють найбільше падіння відхилення на df, здається, що це може бути легко автоматизовано (тому я трохи стурбований), а також здається, що він страждає від проблем того порядку, в якому ви перевіряєте змінне включення. Я розумію, що це також слід доповнити дослідженням мультиколінеарності та залишкових сюжетів (залишковий проти прогнозованого).
Запитання:
Чи підсумовується підсумок Gelman? Що ви додали б або змінили у запропонованій йому стратегії?
Крім чистого роздуму над потенційними взаємодіями та перетвореннями (що здається дуже упередженим / схильним / упущеним), чи є інший спосіб виявити потенційні? Мені було рекомендовано багатоваріантний адаптаційний регресійний сплайн (MARS) , але мені повідомили, що нелінійності / перетворення не перетворюються на ті самі змінні в стандартній моделі регресії.
Припустимо, моя мета дуже проста: скажіть, "я хотів би оцінити асоціацію X1 з Y, припадаючи лише на X2" Чи достатньо просто регресувати Y ~ X1 + X2, повідомляти про результат, не посилаючись на фактичну здатність прогнозування (як це можна виміряти за допомогою перехресної перевірки RMSE або мір точності)? Чи змінюється це залежно від частоти подій або розміру вибірки, або якщо R ^ 2 надто низький (я знаю, що R ^ 2 не є добрим, тому що ви завжди можете збільшити його за рахунок перевищення)? Мене, як правило, більше цікавить умовивід / інтерпретація, ніж оптимізація прогнозованої сили.
Приклади висновків:
- "Контроль за X2, X1 не був статистично достовірно пов'язаний з Y відносно еталонного рівня X1." (коефіцієнт логістичної регресії)
- "X1 не був статистично значущим предиктором Y, оскільки в моделі падіння відхилення було недостатньо відносно зміни df." (Аналіз відхилення)
Чи завжди необхідна перехресна перевірка? У такому випадку, можливо, також потрібно виконати балансування класів за допомогою SMOTE, вибірки тощо.