Яка потреба припущень у лінійній регресії?


15

При лінійній регресії робимо наступні припущення

  • Середнє значення відповіді, E(Yi) , на кожен набір значень предикторів (x1i,x2i,) - це лінійна функція предикторів.
  • Помилки, εi , є незалежними.
  • Похибки, εi , для кожного набору значень предикторів (x1i,x2i,) , як правило, розподіляються.
  • Похибки εi для кожного набору значень предикторів (x1i,x2i,) мають рівні відхилення (позначаються ).σ2
  • Один із способів вирішити лінійну регресію - це через звичайні рівняння, які ми можемо записати як

    θ=(XTX)1XTY

    З математичної точки зору, вищевказане рівняння потребує тільки щоб бути зворотним. Отже, навіщо нам потрібні ці припущення? Я запитав кількох колег, і вони зазначили, що це отримати хороші результати, і звичайні рівняння є алгоритмом для досягнення цього. Але в такому випадку, як допомагають ці припущення? Як їх підтримка допомагає отримати кращу модель?XTX


    2
    Нормальний розподіл необхідний для обчислення довірчих інтервалів коефіцієнтів за допомогою звичайних формул. Інші формули обчислення ІС (я думаю, що це був Білий) дозволяють ненормальне розподіл.
    keiv.fly

    Не завжди потрібні ті припущення, щоб модель працювала. У нейронних мережах у вас є лінійні регресії всередині, і вони мінімізують rmse так само, як формула, яку ви надали, але, швидше за все, жодне з припущень не виконується. Ні нормального розподілу, ні рівної дисперсії, ні лінійної функції, навіть помилки можуть залежати.
    keiv.fly


    1
    @Alexis Незалежні змінні, що є iid, безумовно, не є припущенням (а залежна змінна, що є iid, також не є припущенням - уявіть, якби ми припустили, що відповідь була iid, тоді було б безглуздо робити нічого, крім оцінки середнього). І "відсутні пропущені змінні" насправді не є додатковим припущенням, хоча добре уникати опущення змінних - перше перелічене припущення - це саме те, що бере участь у цьому.
    Дейсон

    1
    @Dason Я думаю, що моє посилання дає досить вагомий приклад того, що "відсутні пропущені змінні" необхідні для коректної інтерпретації. Я також вважаю, що iid (за умови прогнозів, так) необхідний, а випадкові прогулянки слугують прекрасним прикладом того, де нерейтингова оцінка може провалитися (колись вдаючись до оцінки лише середнього значення).
    Олексій

    Відповіді:


    19

    Ви вірні - вам не потрібно задовольняти ці припущення, щоб підходити до точок як мінімум квадратів. Вам потрібні ці припущення для інтерпретації результатів. Наприклад, якщо припустити, що між входом та Y не було зв'язку , яка ймовірність отримати коефіцієнт β 1 принаймні настільки велика, як і те, що ми побачили з регресії?X1Yβ1



    3

    Вам не потрібні ці припущення, щоб відповідати лінійній моделі. Однак ваші оцінки параметрів можуть бути упередженими або не мати мінімальної дисперсії. Порушення припущень ускладнить інтерпретацію результатів регресії, наприклад, побудову інтервалу довіри.


    1

    Гаразд, відповіді поки що так: Якщо ми порушуємо припущення, то можуть трапитися погані речі. Я вважаю, що цікавим напрямком є: Коли всі припущення, які нам потрібні (насправді трохи відрізняються від наведених вище), чому і як ми можемо бути впевнені, що лінійна регресія - найкраща модель?

    p(уi|хi)Е[Yi|Хi=хi]хi) і побачити, що це дійсно функція лінійної регресії. Тоді ми використовуємо це для того, щоб побачити, що це найкраща функція щодо справжнього ризику.


    0

    Два ключових припущення є

    1. Незалежність спостережень
    2. Середнє значення не пов'язане з дисперсією

    Дивіться дискусію в книзі Джуліана Фаравея .

    Якщо це і те, і інше, OLS напрочуд стійкий до порушень в інших перелічених вами припущеннях.

    Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
    Licensed under cc by-sa 3.0 with attribution required.