Чому варто придушити перехоплення в лінійній регресії?

20

У ряді статистичних пакетів, включаючи SAS, SPSS та, можливо, більше, є можливість "придушити перехоплення". Чому б ти хотів це зробити?

regression

— user333
джерело

16

Якщо з якихось - то причин ви знаєте перехоплення (особливо , якщо він дорівнює нулю), то ви можете не витрачати дисперсію в даних для оцінки то , що ви вже знаєте, і більше впевненості в значення , які ви дійсно повинні оцінити.

Дещо спрощений приклад - якщо ви вже знаєте (із знань про домен), що одна змінна (в середньому) кратна іншій, і ви намагаєтеся знайти її.

— Нік Саббе
джерело

Я не цілком його розумію, але в моделі, яку я створюю в R, у мене є щось на кшталт lm (a ~ b / c - 1), яке створює взаємодію між b і c, і пригнічуючи перехоплення ("- 1" в R), я отримую більш легко інтерпретовані відповіді, які по суті такі ж, як ніби я не пригнічую перехоплення. Якось взаємодія робить це можливим.

— Уейн

Легше інтерпретувати відповіді, які по суті однакові? Це, мабуть, суперечить. Можливо, вам слід ввести це як нове запитання?

— Нік Саббе

Якщо я дивлюсь на коефіцієнти, у перехопленні є (перехоплення) і темпвармер (одна з моїх змінних - тимчасова, яка може бути теплішою або прохолоднішою ). Щоб інтерпретувати коефіцієнти, я маю знати, що (перехоплення) безпосередньо відповідає темпкулеру, а темпвармер + (перехоплення) - це безпосередньо інтерпретується темпвармер . Якщо я пригнічую перехоплення, я бачу безпосередньо темплер і тимчасовіший . Можливо, химерність формул R та лінійного моделювання, але ...

— Уейн

12

Розглянемо випадок категоричного коріаріату 3 рівня. Якщо у вас є перехоплення, це потребує 2 змінних індикаторів. Використовуючи звичайне кодування для змінних індикаторів, коефіцієнт для будь-якої змінної індикатора є середньою різницею порівняно з референтною групою. Пригнічуючи перехоплення, у вас було б 3 змінні, що представляють категоричний коеваріат, а не лише 2. Коефіцієнт - це середня оцінка для цієї групи. Більш конкретний приклад того, як це зробити, - це політологія, де можна вивчати 50 штатів США. Замість того, щоб мати перехоплення та 49 змінних індикаторів для станів, часто бажано придушити перехоплення і натомість мати 50 змінних.

— jkd
джерело

Набагато простіше інтерпретувати коефіцієнт таким чином

— вірогідність

1

Так, але він розпадається на дві чи більше категоричних змінних!

— kjetil b halvorsen

2

Щоб проілюструвати точку @Nick Sabbe конкретним прикладом.

Я одного разу побачив, як дослідник представляє модель віку дерева як функцію його ширини. Можна припустити, що коли дерево дорівнює нулю, воно фактично має ширину нуля. Таким чином, перехоплення не потрібно.

— Джеромі Англім
джерело

8

Мудрість або нестача цього залежить від кола залежної змінної, що цікавить. Розгляньте дані гальмування автомобіля там, де у вас швидкість та зупинка. Ви можете підігнати квадратичну модель з перехопленням або без нього. Швидкість, що викликає інтерес, зазвичай починається близько 50 км / год і піднімається, скажімо, до 130 км / год. Встановлення квадрата з перехопленням у цьому випадку має більше сенсу, я думаю, оскільки примушування перехоплення до нуля може спричинити (практично) значні проблеми з невідповідністю. Той факт, що "гальмівний шлях" зупиненого автомобіля дорівнює нулю, не особливо актуальний для проблеми моделювання.

— кардинал

@cardinal Так, мені було цікаво, чи варто мені зробити подібний пункт. Я виявив, що в деяких нелінійних контекстах регресійного моделювання є більший інтерес щодо створення моделі, яка забезпечує теоретично правдоподібну модель, яка точно прогнозує поза діапазоном даних (наприклад, при навчанні швидкості передачі даних кривої моделі не повинні передбачати швидкості нижче 0 секунд ). У таких випадках обмеження перехоплення до нуля може бути більш доцільним, навіть якщо це призводить до падіння прогнозування даних.

— Джеромі Англім

@cardinal Я погоджуюсь, що моделі поліномів рідко прогнозують правдоподібно поза діапазоном даних, і тому обмеження перехоплення до 0 у таких моделях рідко є доброю ідеєю.

— Джеромі Англім

Дякуємо за ваші коментарі. Моє зауваження було не стільки спрямоване на поліноміальні моделі. Вибір квадратику був просто заснований на фактичній фізичній мотивації (тобто класичній механіці). Я намагався сформулювати те, що слід ретельно розглянути проблему моделювання, що цікавить; іноді робити щось, що є (або здається) "теоретично невиправданим" насправді є більш доречним статистично.

— кардинал