Як включити і до регресії і чи слід їх центрувати?


9

Я хочу включити термін та його квадрат (змінні предиктора) до регресії, тому що я припускаю, що низькі значення позитивно впливають на залежну змінну, а високі значення мають негативний ефект. повинен захопити ефект більш високих значень. Тому я очікую, що коефіцієнт буде позитивним, а коефіцієнт буде від'ємним. Крім , я включаю й інші змінні прогнози.хx2хx2хх2х

У деяких публікаціях я читав, що в цій справі корисно зосередити змінні, щоб уникнути мультиколінеарності. Коли ви проводите множинні регресії, коли слід зосереджувати свої провідникові показники, а коли їх стандартизувати?

  1. Чи слід зосереджувати обидві змінні окремо (в середньому), чи слід лише центр а потім взяти квадрат, або я повинен лише центр і включати оригінальний ?хх2х

  2. Це проблема, якщо - числова змінна?х

Щоб не була змінною лічильника, я подумав про поділ її на теоретично визначену площу, наприклад 5 квадратних кілометрів. Це має бути трохи схожим на обчислення точкової точки.х

Однак я боюся, що в цій ситуації моє початкове припущення про ознаку коефіцієнтів більше не витримає, як коли і x² = 4х=2х²=4

х=2/5 км2 = 0,4 км2

але х2 буде менше, тому що х2=(2/5)2=0,16 .


1
Ваше програмне забезпечення для регресії автоматично потурбується про числові проблеми - зокрема, велика ймовірність внутрішньо централізувати та стандартизувати ваші дані. Як відповісти на ваші запитання щодо центрування, зводиться до того, як ви хочете інтерпретувати коефіцієнти.
whuber

Відповіді:


4

Ваше запитання насправді складається з декількох підпитувань, які я спробую вирішити якнайкраще.

  • Як відрізнити залежність низьких і високих значень від регресу?

Вважаючи, що і - це спосіб зробити це, але ви впевнені, що ваш тест є переконливим? Чи зможете ви зробити щось корисне для всіх можливих результатів регресу? Я думаю, що попередньо чітко поставити питання може допомогти, а також задати подібні та пов’язані з цим питання. Наприклад, ви можете розглянути поріг для якого нахили регресії різні. Це можна зробити за допомогою змінних модератора . Якщо різні схили (при накладанні одного і того ж перехоплення) сумісні, то у вас немає різниці, інакше ви надали собі чіткий аргумент щодо їх різниці.хх2х

  • Коли слід зосередити та стандартизувати?

Я думаю, що це питання не слід змішувати з першим запитанням і тестом, і я боюся, що зосередження заздалегідь або може заперечити результати. Я б радив не зосереджуватись, принаймні на першому етапі. Пам'ятайте, що ви, мабуть, не помрете від мультиколінеарності, багато авторів стверджують, що це просто рівнозначно роботі з меншим розміром вибірки ( тут і тут ).хх2

  • Чи змінюється перетворення змінної дискретної кількості в (безперервну) змінну з плаваючою комою змінює інтерпретацію результатів?

Так, але це буде сильно залежати від перших двох пунктів, тому я б запропонував вам зайнятися одним питанням. Я не бачу причини, щоб регресія не спрацювала без цієї трансформації, тому я б радив вам поки що її ігнорувати. Зауважте також, що розділяючи на загальний елемент, ви змінюєте шкалу, при якій , але існують абсолютно різні способи погляду на це, як я писав вище, в якому цей поріг розглядається більш чітко.х2=х


Дуже дякую за вашу відповідь, особливо за посилання !!!
Петро

Приємно було допомогти. =)
pedrofigueira

4

Загалом, центрінг може допомогти зменшити мультиколінеарність, але "ви, мабуть, не помрете від мультиколінеарності" (див. Відповідь предрофігуейри).

Найважливіше, часто потрібне центрування, щоб зробити перехоплення значимим. У простій моделі , перехоплення визначається як очікуваний результат для . Якщо нульове значення не має сенсу, ні ітерап не є. Часто корисно зосереджувати змінну навколо її середнього; у цьому випадку форму а перехоплення - очікуваний результат для суб'єкта, значення якого на дорівнює середньому .уi=α+βхi+εх=0хх(хi-х¯)αхiх¯

У таких випадках потрібно провести центр а потім квадрат. Ви не можете зосереджувати і окремо, тому що ви регресуєте результат на "новій" змінній , тому ви повинні цю нову змінну. Що може означати центрування ?ххх2(хi-х¯)х2

Ви можете відцентрувати змінну лічильника, якщо її середнє значення має сенс , але ви можете просто її масштабувати . Наприклад, якщо і "2" можуть бути базовою лінією, можна відняти 2: . Перехоплення стає очікуваним результатом для суб'єкта, значення якого на дорівнює "2", референтного значення.х=1,2,3,4,5(хi-2)=-1,0,1,2,3хi

Що стосується поділу, не біда: ваші розрахункові коефіцієнти будуть більшими! Гельман і Хілл , §4.1, наведіть приклад:

заробіток=-61000+1300висота (в дюймах)+помилказаробіток=-61000+51висота (у міліметрах)+помилказаробіток=-61000+81000000висота (в милях)+помилка

Один дюйм - міліметра, тому - . Один дюйм - емілей, тому - . Але ці три рівняння цілком еквівалентні.25.4511300/25.41.6е-5810000001300/1.6е-5



Дякую за вашу відповідь Серхіо. Це мені дуже допомогло. На жаль, я можу позначити лише одну відповідь як свою прийняту відповідь.
Петро

Ласкаво просимо. І не хвилюйтесь ;-)
Серхіо

1

Я припускаю, що низькі значення х позитивно впливають на залежну змінну, а високі - негативний.

Хоча я ціную поводження з іншими за допомогою центрування та інтерпретації коефіцієнтів, те, що ви тут описали, - це просто лінійний ефект. Іншими словами, те, що ви описали, не вказує на необхідність тестувати квадрат x .


На мій погляд, якщо у=β0+β1х1+β2х2+ε, (частковий) ефект хi на у (або, краще, на Е[ух]) є Е[ух]/хi=βi. Такі ефекти постійні, вони не залежать від рівня хi. Якщо модель єу=β0+β1х1+β2х2+β3х22+ε, то частковий ефект від х2 є β2+2β3х2 і залежить від рівня х2. Це може траплятися і в інших моделях, наприклад, у лінійних сплайн-моделях, але не у простої лінійної моделі (першого ступеня). Я помиляюся?
Серхіо

@ rolando2: Я не впевнений, чи говоримо ми про те, що робиться самте. Якщо я включатиму лише звичайну змінну предиктора, я отримаю оціночний коефіцієнт для цього прогноктора, який є або позитивним, або негативним. Виходячи з коефіцієнта, я можу сказати, що додавши одну одиницю до x, y збільшиться або зменшиться на певну суму. Але я не можу дізнатись таким чином, чи насправді малі значення призводять до збільшення y, тоді як більш високі значення (з певної невідомої точки далі) призводять до зменшення y.
Петро

@Peter - Я розумію, і пропоную вам відредагувати речення "Я припускаю", щоб прочитати: "Я припускаю, що в деякій області x більш високі значення x позитивно впливають на залежну змінну, тоді як в деяких інших регіонах, більш високі значення мають негативний ефект ".
rolando2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.