Яка дія дихотомізуючих змінних?


14
  • При дихотомізації змінних, яка інформація втрачається в процесі?
  • Як допомагає дихотомізація в аналізах?

Гельман і Парк мають статтю, в якій порівнюється практика створення трьох категорій із змінної тривалості, на відміну від двох. Зазвичай найкраще залишати змінну безперервною з причин, пояснених іншими нижче.
Михайло Єпископ

Відповіді:


10

Яка інформація втрачена: Це залежить від змінної. Взагалі, дихотомізуючи, ви стверджуєте, що між однією змінною та іншою існує пряма лінія ефекту. Наприклад, розгляньте постійне вимірювання впливу забруднювача у дослідженні на рак. Якщо ви дихотомізуєте це на "Високе" та "Низьке", ви стверджуєте, що це єдині два значення, які мають значення. Існує ризик раку у високому, а у низького. Але що робити, якщо ризик невпинно зростає на деякий час, потім вирівнюється, потім знову підвищується, перш ніж нарешті вискочить на високих значеннях? Все це втрачено.

Що ви отримуєте: простіше. Дихотомічні змінні часто набагато простіше вирішити статистично. Для цього є причини - якщо суцільна змінна так чи інакше потрапляє у дві чіткі угрупування , але я схильний уникати дихотомізації, якщо в першу чергу це не є природною формою змінної. Часто також корисно, якщо ваше поле все одно дихотомізує речі, щоб мати дихотомізовану форму змінної. Наприклад, багато хто вважає кількість клітин CD4 менше 400 як критичний поріг для ВІЛ. Як такий, я часто мав змінну 0/1 для Above / Below 400, хоча я б також зберігав змінну безперервної кількості CD4. Це допомагає узгодити своє дослідження з іншими.

Я трохи не погоджуюся з Петром. Хоча поділ безперервної змінної на категорії часто набагато розумніший, ніж груба дихотомізація, я радше проти категоризації. Такі категоризації дуже важко дати змістовні тлумачення. Я думаю, що вашим першим кроком має стати визначення, чи є біологічно чи клінічно добре підтримувана категоризація, яку ви можете використовувати, і лише після того, як ці варіанти будуть вичерпані, ви повинні використовувати кванти.


Привіт @ epigrad. Я думаю, що квантильна регресія має досить просте тлумачення; він дуже схожий на регулярну регресію OLS, за винятком того, щоб замінити "XXX перцентил" на "середній".
Пітер Флом - Відновити Моніку

@PeterFlom Вибачте, я мав би бути більш чітким. Мені важко скласти їх як клінічно / біологічно релевантну інтерпретацію порівняно з категоріями, побудованими з клінічних / біологічних даних. Це, мабуть, специфічне польове зміщення з мого боку.
Фоміт

О, гаразд, @epigrad, це має сенс. І я відредагую свою відповідь, щоб включити цю справу.
Пітер Флом - Відновіть Моніку

1
Схоже, що EpiGrad та @PeterFlom трактують "квантильну регресію" по-різному. EpiGrad говорить про поділ змінної X на групи, визначені квантовими, тоді як Пітер Флом говорить про моделювання, скажімо, 90-го квантиля відповіді замість його середнього.
Аніко

@Aniko Це теж можливо. Я припускав (мабуть, неправильно), що Пітер мав на увазі класифікувати дані на кванти та використовувати їх у регресійній моделі. Поширена (і настирлива) тенденція в моєму полі. Це може бути не так.
Фоміт

9

Дихотимізація додає магічного мислення до аналізу даних. Це дуже рідко гарна ідея.

Ось стаття Ройстона, Альтмана та Зауербрея про деякі причини, чому це погана ідея.

Мої власні думки: якщо ви дихотомізуєте залежну змінну, скажімо, вагу при народженні в 2,5 кг (це робиться весь час), то ви лікуєте дітей, які народжуються на 2,49 кг, як і тих, що народилися у 1,5 кг, і дітей, народжених у 2,51 кг, як і ті, хто на 3,5 кг. Це не має сенсу.

Кращою альтернативою часто є квантильна регресія. Я недавно писав про це для NESUG. Цей папір тут

Один виняток із вищезазначеного - коли категорії суттєво мотивовані; наприклад, якщо ви працюєте з поведінкою за кермом, її буде доцільно класифікувати на основі правового віку для водіння.


5
Прекрасно сказав Петро. Я не можу уявити ситуацію, коли дихотомізація в аналізі - це гарна ідея.
Френк Харрелл

5

Мені сподобалися і підтримую відповіді @ Епіграда та @ Петра. Я просто хотів додати, що зміна інтервалу бінінгу на бінарну робить (потенційно) метричну змінну просто порядковою. З двійковій змінної негоже обчислити середню або відхилення (незважаючи на те, що деякі люди роблять), і, як я вже зазначив , в іншому місці , деякі багатовимірні аналізи стають теоретично або логічно незастосовні. Наприклад, я вважаю, що невірно використовувати ієрархічну кластеризацію центроїдів / Уордів або факторний аналіз з бінарними змінними.

Клієнти розслідування часто примушують нас до дихотомізації змінних на виході, тому що мислення з точки зору кількох класів, а не однієї суцільної ознаки простіше, інформація здається менш туманною і (помилково) більш об'ємною.

Однак є випадки, коли дихотомізація може бути виправданою. Наприклад, коли є сильна бімодальність або коли аналіз (наприклад, MAMBAC або інше) показує наявність 2 латентних класів.


Мені важко зрозуміти ваш аргумент. І якщо клієнт хоче, щоб ми займалися поганою статистичною практикою, ми повинні подумати двічі. Примітка: трихотоміс - це не слово. Дихотомізація = dicho (два) + tomous (вирізати), тож було б тритомізувати / тритомізувати, якщо використовувати.
Френк Харрелл

Прохід на клієнта був плачем, а не аргументом. Щодо грецького, ви маєте рацію; Я вилучив слово.
ttnphns

1
Спасибі. Я намагаюся якомога по-людськи перевести статистичні нарікання на коригувальні дії, хоча інтенсивний навчальний процес з клієнтом.
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.