Вивчення порядкової регресії в R?


10

Я працюю над проектом і мені потрібні ресурси, щоб довести мене до швидкості.

Набір даних становить близько 35000 спостережень за 30 або близько змінними. Близько половини змінних є категоричними, при цьому деякі мають багато різних можливих значень, тобто якщо ви розділите категоричні змінні на фіктивні змінні, у вас було б набагато більше 30 змінних. Але все ж напевно на замовлення пару сотень макс. (n> p).

Відповідь, яку ми хочемо передбачити, є порядковою з 5 рівнів (1,2,3,4,5). Прогнози - це сукупність суцільних і категоричних, приблизно половина кожного. Це мої думки / плани поки що: 1. Ставтесь до реакції як до постійної та виконайте лінійну регресію ванілі. 2. Запустити номінальну та порядкову логістичну та пробітну регресію 3. Використовуйте MARS та / або інший аромат нелінійної регресії

Мені знайома лінійна регресія. MARS досить добре описаний Хасті та Тібшірані. Але я в збитку, коли мова йде про порядковий logit / probit, особливо з такою кількістю змінних та великим набором даних.

Пакет r glmnetcr, здається, є найкращим моїм ставкою до цих пір, але документації навряд чи вистачить, щоб я потрапив туди, де мені потрібно бути.

Куди я можу піти, щоб дізнатися більше?


Я пропоную вам також додати тег R.
Крістофер Луден

1
Зважаючи на те, що це питання щодо статистичної моделі, ви можете зайти на веб-сайт CrossValidated , але майте на увазі, що це жахлива практика перекладати запитання: ви хочете сформулювати це, щоб виділити методичні проблеми, які ви стикаються або мігрують ціле питання.
Стаск

Не пояснюючи чому, ISL зазначає (на стор. 137), що дискримінантний аналіз (як LDA, QDA) використовується частіше, ніж множинне розширення логістичної регресії. Таким чином, такі пакети, як пеналізований ЛДА, варто переглянути.
MattBagg

Відповіді:


6

Я пропоную цей підручник із впорядкованого logit: http://www.ats.ucla.edu/stat/r/dae/ologit.htm

Він демонструє використання polrв MASSпакеті, а також пояснює припущення та способи інтерпретації результатів.


6

Один досить потужний пакет R для регресії з порядковим категоричним відгуком - VGAM, на CRAN. Віньєтка містить кілька прикладів порядкової регресії, але, правда, я ніколи не пробував її на такому великому наборі даних, тому не можу оцінити, скільки часу це може зайняти. Ви можете знайти деякі додаткові матеріали про VGAM на автора сторінки . Крім того, ви можете поглянути на компаньйона Лаури Томпсон до книги Агрешті "Категоричний аналіз даних". Глава 7 книги Томпсона описує кумулятивні моделі логітів, які часто використовуються при порядкових відповідях.

Сподіваюся, це допомагає!


3

Якщо ви абсолютно не знайомі з порядковою регресією, я б спробував прочитати розділ Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) на першу тему. - хоча вона не написана для R, книга дуже добре передає загальну логіку і "робити" і "не варто".

Як питання: Які саме відповіді ваші відповіді? Якщо вони мають якусь шкалу, на зразок "добре - погано", було б нормально використовувати лінійну регресію (дослідження ринку робить це весь час ...), але якщо елементи є більш розрізненими, порядкова регресія може бути кращою . Я тьмяно пам’ятаю, що в деяких книгах про моделювання структурного вирівнювання згадувалося, що лінійна регресія була кращою за хорошими масштабами, ніж пробіт - біт, я не можу згадати цю книгу на даний момент, вибачте!

Найбільш серйозною проблемою може бути кількість фіктивних змінних - через пару сотень змінних манекенів буде аналіз повільним, важким для інтерпретації та, ймовірно, нестабільним - чи достатньо випадків для кожної манекена / манекена-комбінації?


3

Один стандартний довідник, написаний з точки зору суспільних наук, - книга обмежених змінних Дж. Скотта Лонга . Це набагато глибше, ніж скажіть, що Табачник запропонував в іншій відповіді : Табачник - це кулінарна книга в кращому випадку, майже не пояснюючи "чому", і, схоже, вам було б корисно розібратися в цьому більш детально, що можна знайти в Лонг книга. Звичайна регресія повинна охоплюватися у більшості вступних курсів з економетрії ( Дані Вудлріджа в перерізі та панелі даних - це чудова книга для випускників), а також у кількісних курсах з соціальних наук (соціологія, психологія), хоча я б міг уявити, що останній циклічно повернеться до книги Лонга.

Зважаючи на те, що ваша кількість змінних wa-a-ay менша за розмір вибірки, пакет R, який ви повинні шукати, ordinalшвидше за все , ніж glmnetcr. Ще одна відповідь згадувала, що цю функціональність ви можете знайти в більш основному MASSпакеті.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.