Чи є гарною практикою стандартизація даних у регресії з даними на панелі / поздовжньому?


16

Взагалі я стандартизую свої незалежні змінні в регресіях, щоб правильно порівняти коефіцієнти (таким чином вони мають однакові одиниці: стандартні відхилення). Однак, використовуючи дані панелі / поздовжні, я не впевнений, як мені стандартизувати свої дані, особливо якщо я оцінюю ієрархічну модель.

Щоб зрозуміти, чому це може бути потенційною проблемою, припустимо, у вас індивідів, виміряних по t = 1 , , T періодів, і ви виміряли залежну змінну, y i , t та одну незалежну змінну x i , t . Якщо ви запустили повну регресію об'єднання, тоді нормально стандартизувати свої дані таким чином: x . z = ( x - середнє ( x ) ) / sd ( )i=1,,nt=1,,Tyi,txi,tx.z=(xmean(x))/sd(x) , оскільки це не змінить t-статистику. З іншого боку, якщо вам підходить необгрунтована регресія, тобто одна регресія для кожної людини, ви повинні стандартизувати свої дані лише для окремих осіб, а не для всього набору даних (у коді R):

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Однак якщо ви підходите до простої ієрархічної моделі з різним перехопленням у людей, тоді ви використовуєте оцінювач усадки, тобто ви оцінюєте модель між об'єднаною та необгрупованою регресією. Як я повинен стандартизувати свої дані? Використання цілих даних, як об'єднана регресія? Використовуючи лише окремих осіб, як у випадку, якщо це не є об'єднаним?

Відповіді:


10

Я не можу побачити, що стандартизація є гарною ідеєю в звичайній регресії або при поздовжній моделі. Зазвичай це ускладнює отримання прогнозів і не вирішує проблеми, яка потребує вирішення. А що робити, якщо у вас є і х 2 в моделі. Як ви стандартизуєте х 2 ? Що робити, якщо у моделі є безперервна змінна та двійкова змінна? Як ви стандартизуєте двійкову змінну? Безумовно, не за його стандартним відхиленням, що спричинило б велике значення змінних показників поширеності.xx2x2

Взагалі найкраще інтерпретувати ефекти моделі в оригінальній шкалі .x


@Frank Harrell - хороші моменти щодо проблем, пов’язаних із умовами, які ви окреслюєте, але якщо в них є всі безперервні змінні з різними масштабами, то чи не стандартизація є єдиним способом порівняння схилів?
DQdlM

1
@Frank, я думаю, це залежить від того, який тип моделей ви використовуєте, але стандартизація змінних прогнозів часто корисна. Центрування їх означає, що перехоплення стає інтерпретаційним, оскільки середній прогнозований результат і відносна важливість різних прогнозів стає більш очевидним. Зазвичай я залишаю бінарні передбачувачі в спокої, але інколи варто розглянути інші варіанти масштабування. Нарешті, в деяких випадках наявність предикторів із надзвичайно різними стандартними відхиленнями може призвести до проблем з обчисленням / конвергенцією.
Михайло Єпископ

2
R2χ2

1
Якщо у вас є бінарні змінні, не стандартизуйте їх, а лише безперервні. Дивіться цю статтю Гельмана (< stat.columbia.edu/~gelman/research/publish/standardizing7.pdf >), де пропонуються розділити змінні на два стандартних відхилення.
Маноел Галдіно

xx2

0

Існує альтернатива стандартизації для приведення змінних, виміряних з різними масштабами, до однієї метрики. Це називається пропорція максимального масштабування (POMS), і воно не вмирає з багатовимірними розподілами, як правило, z-перетворення.

Тод Літт прямо рекомендує POMS щодо z-стандартизації у своїй книзі про моделювання поздовжнього структурного рівняння. Перетворення Z має додаткові проблеми при роботі з поздовжніми даними, дивіться тут: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.