Розширені приклади регресійного моделювання


22

Я шукаю розширений випадок лінійної регресії, що ілюструє кроки, необхідні для моделювання складних, декількох нелінійних зв’язків за допомогою GLM або OLS. Напрочуд складно знайти ресурси, що виходять за рамки базових шкільних прикладів: більшість прочитаних книг не піде далі, ніж перетворення журналу відповіді, поєднане з BoxCox одного прогноктора, або природний сплайн у кращому випадку. Також усі приклади, які я бачив до цього часу, підходять до кожної проблеми трансформації даних в окремій моделі, часто в одній моделі передбачення.

Я знаю, що таке трансформація BoxCox або YeoJohnson. Я шукаю детальне реальне тематичне дослідження, де відповідь / взаємозв'язок не є чіткими. Наприклад, реакція не є суто позитивною (тому ви не можете використовувати журнал або BoxCox), у передбачувачів є нелінійні зв’язки між собою та проти відповіді, а максимальна ймовірність перетворень даних, схоже, не передбачає стандартних 0,33 або 0,5 показника. Також залишкова дисперсія виявляється непостійною (вона ніколи не буває), тому відповідь має бути також трансформована, і вибір повинен бути зроблений між нестандартною регресією сімейства GLM або перетворенням відповіді. Дослідник, ймовірно, зробить вибір, щоб уникнути перевиконання даних.

EDIT

Поки я зібрав такі ресурси:

  • Стратегії моделювання регресії, Ф. Харрелл
  • Прикладний економетричний часовий ряд, В. Ендерс
  • Динамічні лінійні моделі з R, G. Petris
  • Прикладний регресійний аналіз, Д. Клейнбаум
  • Вступ до статистичного навчання, Г. Джеймс / Д. Віттен

Я читаю лише останній (ISLR), і це дуже хороший текст (5 годин зірок на моєму годиннику), хоча більше орієнтований на ML, ніж на прогресивне регресійне моделювання.

Є також цей хороший пост у резюме, який представляє складний випадок регресії.


8
Я вважаю, що книга Френка Харрелса ( amazon.com/… ) може бути корисною.
Адам Робінссон

@AdamRobinsson Я бачу, що TOC торкається декількох релевантних тем (багатоваріантні моделі, сплайни, мультиколінеарність), але чи ці методології проілюстровані разом на прикладі реального життя або кожна тема пояснюється окремо? Тому що зазвичай на прикладах із реального життя всі проблеми виникають у вас разом, і як ніколи не очевидно, як правильно ними впоратися.
Роберт Кубрик

1
Я ще не прочитав усієї книги, але перші 150 сторінок були абсолютно чудовими (я не статистик, просто ентузіаст). Приклади є великими і детально розроблені. Книга супроводжується пакетом RMS (стратегії регресійного моделювання) для Р. Я також переглянув конкуруючу книгу Девіда Кляйнбаума (на жаль, забув назву), але вона містила набагато менше про стратегії та приклади (і була вдвічі дорожчою).
Адам Робінссон

3
@RobertKubrick: "Багатоваріантна регресія" означає більш ніж одну відповідь (див. Вікі для доданого тегу або тут ). "Множинна регресія" означає, що має більше ніж один предиктор.
Scortchi

3
Можливо, ви захочете перевірити Прикладний економетричний часовий ряд від Enders. Нова версія охоплює нелінійні моделі в кінці книги. Майже всі дані є загальнодоступними на веб-сайті Сент-Луїс-Фед (доступний через Quantmod в R), тому ви можете переглядати приклади реального життя. Динамічні лінійні моделі з R також мають кілька прикладів із реальними даними, які є досить пристойними.
Ерік Брейді

Відповіді:


10

Стратегії моделювання регресії та ISLR, про які вже згадували інші, - це дві дуже хороші пропозиції. У мене є кілька інших, які ви, можливо, захочете розглянути.

Прикладне моделювання прогнозування Куном та Джонсоном містить ряд хороших кейсів та є досить практичним.

Практична наука даних з R розглядає практичне (регресійне) моделювання в контексті його застосувань здебільшого як прогностичні моделі в бізнес-ситуації.-

Узагальнені моделі адитивів: вступ з R від Саймона Вуда - це хороше лікування узагальнених моделей добавок і того, як ви їх поміщаєте, використовуючи його mgcvпакет для Р. Він містить кілька нетривіальних практичних прикладів. Використання моделей GAM є альтернативою з'ясуванню "правильної" трансформації, оскільки це робиться адаптивно до даних шляхом розширення сплайну та пеналізованої максимальної ймовірності. Однак є й інші варіанти, які потрібно зробити, наприклад вибір функції зв'язку.

Пакет mboost для R також підходить для моделей GAM, але використовує інший підхід через підвищення. Я рекомендую підручник для пакета (одна з віньєток).

Я також згадаю емпіричну модель відкриття та оцінювання теорії Гендрі та Дорніка, хоча я ще не читав цієї книги. Це мені було рекомендовано.


Прикладне прогнозування моделювання ... так. Я віддаю перевагу ISLR.
Роберт Кубрик

5

Один з найкращих матеріалів курсу, який ви можете знайти на передових, багаторазових, складних (у тому числі нелінійних) регресіях, заснований на книзі Стратегії моделювання регресії Франка Е. Харрелла-молодшого.

Книга обговорюється в коментарях, але не цей матеріал, який сам по собі є чудовим ресурсом.


2

Я б порекомендував книгу « Найбільш нешкідливі економетрики» Джошуа Д. Ангріста та Йорна-Стеффен Пішке

Це найреальніший, сіль на землю, текст, яким я володію, і це дуже дешево, близько $ 26,00 за новим. Книга написана для випускника статистики / економіста, тому вона є багато просунутою.

Тепер ця книга не є саме тим, що ви вимагаєте, в тому сенсі, що вона не зосереджена на "складних, безлічі нелінійних відносинах", а на основних основах, таких як ендоегенність, інтерпретація та розумний дизайн регресії.

Але я пропоную цю книгу, щоб спробувати зробити точку. Що стосується застосування регресійного аналізу в реальному світі, то найскладніші питання, як правило, не пов'язані з тим, що наші моделі недостатньо складні ... повірте, ми дуже добре спрацьовуємо дуже складні моделей! Найбільш великі проблеми - такі речі

  1. Ендогенність
  2. не маючи всіх потрібних нам даних
  3. Маючи багато даних ... і це все безлад!
  4. Багато людей не можуть правильно інтерпретувати власні моделі (проблема, яка стає більш поширеною, коли ми робимо моделі складнішими)

Тверде розуміння ГММ, нелінійних фільтрів та непараметричної регресії в значній мірі охоплює всі перелічені вами теми та їх можна вивчити під час подальшої роботи. Однак, за даними реального світу, ці рамки мають потенціал бути непотрібними складними, часто шкідливими.

Найчастіше саме завдяки реальному аналізу вам найбільше користь здатність бути розумно простим, а не повністю узагальненим і дуже складним. Ця книга допоможе тобі з першою.


1

Ви можете посилатися на Вступ до статистичного навчання з R (ISLR), книга детально розповідає про сплайни та поліноміальну регресію з кейсами.


1

Я не впевнений, яка мета вашого запитання. Я можу порекомендувати текст Економетричного аналізу Гріна . У ній є багато посилань на документи. Практично кожен приклад у книзі згадує опублікований документ.

Щоб надати вам смак, подивіться приклад 7.6 "Ефекти взаємодії в логіналній моделі доходу" на стор.195. Він посилається на статтю та набір даних: Реджана Т. Ріфхан, Ахім Вамбах та Андреас Мільйон, " Стимулюючі ефекти в попиті на охорону здоров'я: Оцінка даних про кількість обчислених панелей ", Journal of Applied Econometrics, Vol. 18, № 4, 2003, стор 387-405.

Приклад стосується використання лінійних моделей та ефектів взаємодії. Ви можете прочитати цілий папір або опис цього підручника. Це не складений випадок використання. Це справжнє опубліковане дослідження. Ось як люди фактично використовують статистичні методи в економічних дослідженнях.

Як я писав, книга набридає такими випадками використання, як використання сучасних статистичних методів.


0

Ви заглянули в деякі курси / книги з аналізу фінансових часових рядів, про які пише Рюї Цей (UChicago)?

http://facturing.chicagobooth.edu/ruey.tsay/teaching/

Класи Ruey Tsays та підручник дають кілька реальних прикладів у галузі фінансів складних регресій такого типу, які створені для використання на фінансових ринках. Розділ 1 починається з багатофакторних регресійних моделей і поширюється на сезонні моделі Авторегресивного часового ряду за розділами 5 або 6.


2
Так, я це і зовсім не подобається. Він дуже широкий по ширині (все, від моделей волатильності до високої частоти до ARIMA ...), торкайтеся кожного предмета легенько (як не вдалося з такою кількістю тем під рукою), а дослідження та проблеми R зводяться до мінімуму. Це переосмислення наукових робіт і вже заявлених теорій / моделей, які ви можете знайти десь ще. Це саме те, що я маю на увазі під шкільними випадками, які ніколи не стосуються складності безлічі викликів у реальній, передовій проблемі.
Роберт Кубрик
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.