Я працюю над проектом і мені потрібні ресурси, щоб довести мене до швидкості.
Набір даних становить близько 35000 спостережень за 30 або близько змінними. Близько половини змінних є категоричними, при цьому деякі мають багато різних можливих значень, тобто якщо ви розділите категоричні змінні на фіктивні змінні, у вас було б набагато більше 30 змінних. Але все ж напевно на замовлення пару сотень макс. (n> p).
Відповідь, яку ми хочемо передбачити, є порядковою з 5 рівнів (1,2,3,4,5). Прогнози - це сукупність суцільних і категоричних, приблизно половина кожного. Це мої думки / плани поки що: 1. Ставтесь до реакції як до постійної та виконайте лінійну регресію ванілі. 2. Запустити номінальну та порядкову логістичну та пробітну регресію 3. Використовуйте MARS та / або інший аромат нелінійної регресії
Мені знайома лінійна регресія. MARS досить добре описаний Хасті та Тібшірані. Але я в збитку, коли мова йде про порядковий logit / probit, особливо з такою кількістю змінних та великим набором даних.
Пакет r glmnetcr, здається, є найкращим моїм ставкою до цих пір, але документації навряд чи вистачить, щоб я потрапив туди, де мені потрібно бути.
Куди я можу піти, щоб дізнатися більше?