Чи варто коли-небудь стандартизувати двійкові змінні?


25

У мене є набір даних із набором функцій. Деякі з них є двійковими активний або звільнений, неактивний або спокійний), а решта оцінюються реально, наприклад .(1=0=4564.342

Я хочу подати ці дані в алгоритм машинного навчання, тому я -знаходжу всі реально оцінені функції. Я отримую їх приблизно від до . Тепер двійкові значення такожz32z -скоровані, тому нулі стають а значення стають .0.2220.5555

Чи має сенс стандартизація бінарних змінних?

Відповіді:


14

Стандартизація бінарних змінних не має сенсу. Значення довільні; вони нічого не означають самі по собі. Можливо, існує обґрунтування вибору деяких значень, таких як 0 і 1, стосовно питань чисельної стабільності, але це все.


що робити, якщо вони були між 0-100. Як я вже сказав, вони мають на увазі такі речі, як "розпізнане обличчя" та "не впізнане обличчя", а 0-100 означає рівень довіри. Чи має сенс це оцінювати z?
siamii

Ваш приклад 0-100 звучить як порядковий рейтинг. Існує трохи деталей щодо того, як найкраще вирішити цю ситуацію, і це було обговорено в CV зовсім небагато. Шукайте за порядковим тегом, щоб дізнатися більше.
gung - Відновіть Моніку

ну проблема полягає в тому, що лише деякі змінні 0-100. Інші, наприклад, -400 - +400
siamii

У чому проблема з цим? Це чисельне питання стабільності?
gung - Відновіть Моніку

можливо, ви припускаєте, що я не z-оцінка?
siamii

14

Бінарну змінну зі значеннями 0, 1 можна (як правило) масштабувати до (значення - середнє значення) / SD, що, імовірно, є вашим z-балом.

Найбільш очевидне обмеження в цьому полягає в тому, що якщо у вас трапляються всі нулі або всі, то підключення до SD сліпо означатиме, що z-оцінка невизначена. Існує випадок присвоєння нулю також у тій мірі, коли значення - середнє значення є однаково нулем. Але багато статистичних речей не матиме особливого сенсу, якщо змінна дійсно є постійною. Однак у більш загальному випадку, якщо рівень SD невеликий, існує більший ризик того, що бали нестабільні та / або недостатньо визначені.

Проблема в тому, щоб дати кращу відповідь на ваше запитання, полягає саме в тому, який «алгоритм машинного навчання» ви розглядаєте. Це здається, що це алгоритм, який поєднує дані для декількох змінних, і тому зазвичай має сенс подавати їх у подібних масштабах.

(ПІСНЕ) Оскільки оригінальний плакат додає коментарі по черзі, їх питання стає перетворюючим. Я все ще вважаю, що (значення - середнє значення) / SD має сенс (тобто не є безглуздим) для бінарних змінних до тих пір, поки SD є позитивним. Однак пізніше логістична регресія була названа як додаток, і для цього немає ніякого теоретичного або практичного прибутку (і справді певної втрати простоти) нічого, крім подачі у бінарні змінні, як 0, 1. Ваше програмне забезпечення повинно бути в змозі добре впоратися з що; якщо ні, відмовтесь від цього програмного забезпечення на користь програми, яка може. З точки зору заголовкового питання: може, так; повинен, ні.


3
Коротка відповідь полягає в тому, що це не означає нічого іншого, і я не бачу причин, чому зміна 0, 1 на z-бали допоможе будь-що в цій ситуації. Щоб переконати себе, спробуйте це обома способами і побачите, що нічого важливого не зміниться.
Нік Кокс

3
Навпаки, я думаю, що більшість людей використали б тут 0, 1.
Нік Кокс

1
Коли ви робите логістичну регресію, програмне забезпечення майже напевно виконає стандартизацію під кришкою (для досягнення кращих чисельних властивостей). Таким чином, непогано тримати двійковий показник, виражений значущим чином. Стандартизація цього не звучить ні добре, ні корисно.
whuber

1
Будь-який метод машинного навчання, який вимагає від вас "стандартизації" двійкових предикторів, є підозрюваним.
Френк Харрелл

2
Оскільки це ваша власна реалізація, то ніхто інший не має підстав давати об’єктивну відповідь! Вам потрібно вивчити, як ваше програмне забезпечення поводиться з даними, щоб вирішити, чи має сенс попередня стандартизація.
whuber

3

Один приємний приклад, коли можна корисно стандартизувати дещо по-іншому, наведений у розділі 4.2 Гельмана та Хілла ( http://www.stat.columbia.edu/~gelman/arm/ ). Це здебільшого, коли інтерпретація коефіцієнтів представляє інтерес, і, можливо, коли прогнозів не так багато.

xμx2σx,
σ±0.5x=0x=1σx

Поясніть, будь ласка, "з рівним співвідношенням 0 і 1", оскільки бінарні змінні, які я бачу, рідко такі.
Нік Кокс

Я не думаю, що пропорція насправді зміниться, вони просто використовують її, щоб зробити приклад більш чистим.
Студент

1

Що ви хочете стандартизувати, двійкову випадкову змінну чи пропорцію?

Y:SRY{0,1} .

X[0,1]xR+


0

У логістичній регресії бінарні змінні можуть бути стандартизовані для їх поєднання з континуалами, коли ви хочете дати їм усі неінформативні попередні, такі як N ~ (0,5) або Коші ~ (0,5). Стандартизація пропонується таким чином: Візьміть загальну кількість і дайте

1 = частка 1-х

0 = 1 - частка 1-х.

-----

Редагувати: Насправді я взагалі був неправий, це не стандартизація, а зміщення, яке має бути орієнтоване на 0 і відрізняється на 1 у нижньому та верхньому стані, скажемо, що населення становить 30% у компанії A та 70% інших, ми можемо визначити централізовану змінну "Компанія А", щоб прийняти значення -0,3 та 0,7.


Не можу розуміти це як стандартизацію.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.