Змінні часто коригуються (наприклад, стандартизовані) перед виготовленням моделі - коли це гарна ідея, а коли погана?


56

За яких обставин ви хочете чи не хочете масштабувати або стандартизувати змінну до монтажу моделі? І які переваги / недоліки масштабування змінної?


Тут дуже схоже запитання: stats.stackexchange.com/q/7112/3748 є ще якийсь пошук?
Михайло Єпископ

Так - я хотів би знати про моделі взагалі, а не лише про лінійну модель
Ендрю

1
Можливих моделей та можливого використання моделей дуже багато. Якщо ви можете зробити свої питання більш конкретними і зменшити перекриття з іншими питаннями, що краще.
Михайло Єпископ

На додаток до вищенаведеного посилання, це питання: коли-повинен-ви-центр-ваші дані-коли-коли-ви стандартизуєте, буде цікавим.
gung - Відновіть Моніку

Відповіді:


37

Стандартизація - це все щодо ваг різних змінних для моделі. Якщо зробити стандартизацію "лише" заради чисельної стійкості, можуть бути перетворення, які дають дуже схожі числові властивості, але різного фізичного значення, які можуть бути набагато більш підходящими для інтерпретації. Те саме стосується центрування, яке зазвичай є частиною стандартизації.

Ситуації, де ви, мабуть, хочете стандартизувати:

  • змінні - різні фізичні величини
  • і числові значення знаходяться на дуже різних масштабах
  • і немає «зовнішніх» знань, що змінні з великою (числовою) варіацією слід вважати важливішими.

Ситуації, коли ви не хочете стандартизувати:

  • якщо змінні є однаковою фізичною величиною і мають (приблизно) однакову величину, наприклад
    • відносні концентрації різних хімічних видів
    • поглинання при різній довжині хвилі
    • інтенсивність випромінювання (інакше однакові умови вимірювання) на різних довжинах хвиль
  • ви остаточно не хочете стандартизувати змінні, які не змінюються між зразками (базовими каналами) - ви просто підірвете шум вимірювання (ви можете замість цього виключити їх із моделі)
  • якщо у вас є такі фізично пов'язані змінні, ваш вимірювальний шум може бути приблизно однаковим для всіх змінних, але інтенсивність сигналу змінюється набагато більше. Тобто змінні з низькими значеннями мають більш високий відносний шум. Стандартизація може підірвати шум. Іншими словами, вам, можливо, доведеться вирішити, чи потрібно стандартизувати відносний або абсолютний шум.
  • Можливо, є фізично значущі значення, які ви можете використовувати для відновлення вимірюваного значення, наприклад, замість переданої інтенсивності використовуйте відсоток переданої інтенсивності (коефіцієнт пропускання T).

Ви можете зробити щось "між", і перетворити змінні або вибрати одиницю, щоб нові змінні все ще мали фізичний зміст, але зміна числового значення не така вже й інша, наприклад

  • якщо ви працюєте з мишами, використовуйте масу тіла g і довжину в см (очікуваний діапазон коливання близько 5 для обох) замість базових одиниць кг і м (очікуваний діапазон коливання 0,005 кг і 0,05 м - на порядок різний).
  • A=log10T

Подібно до центрування:

  • Можуть бути наявні (фізично / хімічно / біологічно / ...) значущі базові значення (наприклад, управління, жалюзі тощо)
  • Чи означає насправді сенс? (Середній чоловік має один яєчник і одне яєчко)

+1 та прийнято через корисний перелік того, коли потрібно і коли не надто стандартизувати, дякую
Андрій

6
+1 за "Середній чоловік має один яєчник і одне яєчко" (& також для решти відповіді ;-).
gung - Відновіть Моніку

1
@cbeleites Чи є ймовірність, що ви могли б надати посилання на ресурс, який пояснює базові канали в контексті, який ви використовували у своїй відповіді? Я раніше не чув цього терміна, і я отримую результати пошуку, які не допомагають зрозуміти ваше використання цього терміна. Дякую!
mahonya

1
1

9

Я завжди запитую себе перед стандартизацією: "Як я інтерпретую результат?" Якщо є спосіб аналізу даних без трансформації, це може бути кращим виключно з точки зору інтерпретації.


7

Взагалі я не рекомендую масштабування або стандартизацію, якщо це абсолютно не потрібно. Перевага або привабливість такого процесу полягає в тому, що, коли пояснювальна змінна має абсолютно інший фізичний вимір і величину від змінної відповіді, масштабування через поділ за стандартним відхиленням може допомогти з точки зору чисельної стійкості і дозволяє порівнювати ефекти по декількох пояснювальні змінні. При найбільш поширеній стандартизації ефект змінної - це величина зміни змінної відповіді, коли пояснювальна змінна збільшується на одне стандартне відхилення; це також вказує на те, що значення ефекту змінної (величина зміни змінної відповіді, коли пояснювальна змінна збільшується на одну одиницю) буде втрачена, хоча статистичне значення для пояснювальної змінної залишається незмінним. Однак, коли взаємодія розглядається в моделі, масштабування може бути дуже проблематичним навіть для статистичного тестування через ускладнення, пов'язане зі стохастичним регулюванням масштабування при обчисленні стандартної похибки ефекту взаємодії (Preacher, 2003). З цієї причини масштабування за стандартним відхиленням (або стандартизація / нормалізація), як правило, не рекомендується, особливо якщо це стосується взаємодії.

Проповідник, KJ, Куран, PJ, та Бауер, DJ, 2006. Обчислювальні засоби для зондування ефектів взаємодії при множинній лінійній регресії, багаторівневому моделюванні та аналізі латентної кривої. Журнал статистики освіти та поведінки, 31 (4), 437-448.


4
Я сумніваюся у Вашій заяві, що стандартизація прогнозів "взагалі не рекомендується, особливо якщо це стосується взаємодії". Ні Гельман і Хілл, ні Рауденбуш і Брик не згадують про цю стурбованість у своїх текстах. Але коли у мене є можливість, я з цікавістю погляну на згадки, які ви згадаєте.
Михайло Єпископ

Якщо ми використовуємо калібрувальний універсал std в якості змінної масштабування, то масштабування не є стохастичним.
adam

Чи може хтось підтвердити, чи є масштабування шкідливим у разі взаємодії? Здається, це не було вирішено у вищезгаданій дискусії.
Talik3233
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.