центрування та масштабування фіктивних змінних


13

У мене є набір даних, який містить як категоричні, так і безперервні змінні. Мені порадили перетворювати категоріальні змінні у бінарні змінні для кожного рівня (тобто A_level1: {0,1}, A_level2: {0,1}) - я думаю, що деякі називають це "фіктивними змінними".

З огляду на це, чи не введено в оману центр і масштабувати весь набір даних за допомогою нових змінних? Схоже, я втратив би значення "включення / вимкнення" змінних.

Якщо це вводить в оману, чи означає це, що я повинен зосереджувати та масштабувати безперервні змінні окремо, а потім повторно додавати його до свого набору даних?

ТІА.


1
Чи прийнятно чи розумно центрувати та / або масштабувати фіктивні змінні, залежить від програми, аналізу, який ви плануєте, та конкретних міркувань. Тож однозначної правильної відповіді немає. У більшості випадків, груба формулювання, це часто нормально робити з фіктивними змінними; це часто погана ідея для цього з допомогою фіктивних змінних відповідей або в багатоваріантних методах, таких як кластеризація або факторний аналіз.
ttnphns

Відповіді:


13

При побудові фіктивних змінних для використання в регресійних аналізах кожна категорія в категоріальній змінній, крім однієї, повинна отримувати бінарну змінну. Таким чином, ви повинні мати, наприклад, A_level2, A_level3 і т. Д. В одній із категорій не повинно бути двійкової змінної, і ця категорія буде служити опорною категорією. Якщо ви не опустите одну з категорій, ваш регресійний аналіз не працюватиме належним чином.

Якщо ви використовуєте SPSS або R, я не думаю, що масштабування та центрування всього набору даних, як правило, не є проблемою, оскільки ці програмні пакети часто інтерпретують змінні лише з двома рівнями як фактори, але це може залежати від конкретних статистичних методів, які використовуються . У будь-якому випадку, не має сенсу масштабувати та централювати бінарні (або категоричні) змінні, тому вам слід лише центрирувати та масштабувати безперервні змінні, якщо це потрібно зробити.


2
Я сильно відчуваю, що єдиною частиною відповіді, яка справді відповідає на питання ОП, є те, що останнє речення - це частина не пояснена. Ви говорите, не масштабуйте їх, але не поясніть, чому. Тим часом тема не дуже проста.
ttnphns

Це лише один із способів кодування категоричних змінних. Я не встигаю написати повну відповідь, але пошук "контрастів" може допомогти. Відповідна відповідь - stats.stackexchange.com/questions/60817/…
користувач20637

3

Якщо ви використовуєте R і масштабуєте фіктивні змінні або змінні, що мають 0 або 1 до шкали лише від 0 до 1, значень цих змінних не зміниться, решта стовпців будуть масштабовані.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

Цікава порада. Дякую, що поділився. Минуло час, коли я попросив, але приємно бачити, що я все ще можу вчитися на цих старих публікаціях.
користувач2300643

3

Суть середнього центру в регресії полягає в тому, щоб зробити перехоплення більш інтерпретаційним. Тобто, якщо ви маєте на увазі центр усіх змінних у вашій регресійній моделі, тоді перехоплення (зване постійним у виведенні SPSS) дорівнює загальній величині середньої величини для вашої змінної результату. Що може бути зручно при інтерпретації кінцевої моделі.

Щодо середніх манекенів центрування, я щойно розмовляв з моїм професором про середні манекени середнього центрування в регресійній моделі (в моєму випадку ранжирована багаторівнева модель дизайну блоку з 3 рівнями), і моє зняття було те, що середнє центрування фіктивні змінні насправді не змінюють інтерпретацію коефіцієнтів регресії (за винятком того, що рішення є повністю стандартизованим). Зазвичай в регресії не потрібно інтерпретувати фактичне середнє значення одиниці по центру - лише коефіцієнти. І це по суті не змінюється - здебільшого. Вона сказала, що це незначно змінюється, оскільки це стандартизовано, що для муляжів не так інтуїтивно зрозуміти.

Caveat: Це було моє розуміння, коли я покинув посаду свого професора. Я, звичайно, міг помилитися.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.