Вибір між лінійною регресійною моделлю або нелінійною регресійною моделлю


10

Як слід вирішити питання використання лінійної регресійної моделі чи нелінійної регресійної моделі?

Моя мета - передбачити Y.

У випадку простого набору даних та я міг би легко визначити, яку регресійну модель слід використовувати, будуючи графік розкиду.уxy

У випадку різновидів, таких як і . Як я можу визначити, яку регресійну модель потрібно використовувати? Тобто, як я прийму рішення про перехід із простою лінійною моделлю або нелінійними моделями, такими як квадричні, кубічні тощо. уx1,x2,...xny

Чи є якась техніка чи статистичний підхід чи графічні графіки, щоб зробити висновок і вирішити, яку регресійну модель слід використовувати?


"Нелінійна модель" - досить широка категорія. Ти мав це на увазі? Які ваші цілі аналізу?
shadowtalker

Це залежить від ваших цілей. Ви будуєте модель прогнозування / прогнозування?
Аксакал

Прогнозування - моя мета.
shakthydoss

1
Якщо ви користуєтеся чимось на кшталт підходу "побудувати дані", але для декількох прогнокторів додаються змінні графіки, які можуть мати певну цінність. Але якщо ваша мета - передбачення, проблема полягає в тому, що ви вибираєте, що слід використовувати, базуючись на перегляді даних, тож це буде набагато краще виглядати на даних, які ви маєте, ніж на інших даних (і існує безліч інших проблем, які поставляються з таким підхід до вибору моделі) - для правильного оцінювання спроможності прогнозування вибірки вам потрібно оцінити речі на вибірці проведення / розглянути щось на зразок перехресної перевірки.
Glen_b -Встановіть Моніку

1
Можливо, вам стане в нагоді пов’язана дискусія, яку я розпочав деякий час тому.
Олександр Блех

Відповіді:


10

Це сфера статистики, яка називається вибір моделі. У цій галузі проводиться багато досліджень, і на це немає однозначної та простої відповіді.

Припустимо, у вас є і і ви хочете знати, чи слід включати в термін . У такій ситуації ваша більш парсимонізована модель вкладена у вашу більш складну модель. Іншими словами, змінні і ( модель) є підмножиною змінних і (складна модель). У побудові моделі ви маєте (принаймні) одну з наступних двох головних цілей:X1,X2X3X32X1,X2X3X1,X2,X3X32

  1. Поясніть дані: ви намагаєтесь зрозуміти, як деякий набір змінних впливає на вашу змінну відповіді, або вас цікавить, як впливає на , контролюючи ефектиX1YX2,...Xp
  2. Прогнозуйте : ви хочете точно передбачити , не піклуючись про те, що або скільки змінних є у вашій моделіYY

Якщо ваша мета - номер 1, то я рекомендую тест на коефіцієнт ймовірності (LRT). LRT використовується, коли ви вклали моделі і хочете знати, "чи дані значно частіше походять зі складної моделі, ніж парсимонові?". Це дасть вам зрозуміти, яка модель краще пояснює взаємозв’язок між вашими даними.

Якщо ваша мета - номер 2, то я рекомендую якусь техніку перехресної перевірки (CV) ( кратне резюме, резюме-випуск-резюме, CV-тест-навчання) залежно від розміру ваших даних. Підводячи підсумок, ці методи будують модель на підмножині ваших даних і прогнозують результати на решті даних. Виберіть модель, яка найкраще працює, передбачивши інші дані.k


Будь ласка, не могли б ви зробити / пояснити різницю між цілями (1) та (2) більш вираженими? В даний час різниці немає.
ttnphns

@ttnphns Я додав короткий опис двох цілей.
TrynnaDoStat

@TrynnaDoStat Тут просто заплутався вислів Виберіть модель, яка найкраще справляє роботу. Під найкращою моделлю ви маєте намір вибрати між лінійною (парсимоніальної) моделлю та складною моделлю .... так? Оскільки те, що я знаю, є k-кратним, CV-один-один використовується для перевірки працездатності моделі на небачених даних. Вони не використовуються для вибору моделі. Я тут розгублений.
tushaR

1

Коли я переглядаю "лінійну чи нелінійну модель регресії", я отримую кілька посилань, які призводять до цієї книги: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Ця книга не цікава, і мені це не подобається не вірять їй на 100% (з якихось причин).

Я знайшов і цю статтю: http://hunch.net/?p=524 з назвою: Майже всі природні проблеми потребують нелінійності

Я також знайшов подібне запитання з досить хорошим поясненням: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

На основі мого досвіду, коли ви не знаєте, яку модель використовуєте, використовуйте обидві та спробуйте інші функції.


0

Як ви заявляєте, лінійні моделі, як правило, простіші, ніж нелінійні моделі, тобто вони працюють швидше (побудова та прогнозування), їх легше інтерпретувати та пояснювати, і, як правило, прямо вперед при вимірюванні помилок. Отже, мета - з'ясувати, чи припущення про лінійну регресію відповідають вашим даним (якщо ви не підтримуєте лінійну, то просто перейдіть з нелінійною). Зазвичай ви повторите свою однозмінну ділянку з усіма змінними окремо, тримаючи всі інші змінні постійними.

Можливо, ще важливіше, але ви хочете знати, чи можете ви застосувати якусь трансформацію, змінну взаємодію або фіктивну змінну для переміщення даних у лінійний простір. Якщо ви в змозі перевірити припущення, або якщо ви досить добре знаєте свої дані, щоб застосувати мотивовані або іншим чином інтелектуально інформовані перетворення або модифікації, тоді ви хочете продовжити це перетворення та використовувати лінійну регресію. Отримавши залишки, ви можете побудувати їх на основі прогнозованих значень або незалежних змінних, щоб вирішити, чи потрібно переходити до нелінійних методів.

Тут у Дюка чудово розбивається припущення про лінійну регресію . Перераховано чотири основні припущення, і кожне з них розбивається на вплив на модель, як діагностувати їх у даних та потенційні способи "виправити" (тобто перетворити або додати) дані, щоб припустити припущення. Ось невеликий уривок зверху, який підсумовує чотири звернені припущення, але вам слід піти туди і прочитати розбивки.

Існують чотири основні припущення, які виправдовують використання лінійних регресійних моделей для цілей висновку чи прогнозування:

(i) лінійність та адекватність зв’язку між залежними та незалежними змінними:

(a) Очікуване значення залежної змінної - це пряма функція кожної незалежної змінної, утримуючи інші фіксованими.

(b) Нахил цієї лінії не залежить від значень інших змінних.

(c) Вплив різних незалежних змінних на очікуване значення залежної змінної є адитивним.

(ii) статистична незалежність помилок (зокрема, відсутність кореляції між> послідовними помилками у випадку даних часових рядів)

(iii) гомоскедастичність (постійна дисперсія) помилок

(а) по відношенню до часу (у випадку даних часових рядів)

(b) проти прогнозів

(c) проти будь-якої незалежної змінної

(iv) нормальність розподілу помилок.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.