- При дихотомізації змінних, яка інформація втрачається в процесі?
- Як допомагає дихотомізація в аналізах?
Відповіді:
Яка інформація втрачена: Це залежить від змінної. Взагалі, дихотомізуючи, ви стверджуєте, що між однією змінною та іншою існує пряма лінія ефекту. Наприклад, розгляньте постійне вимірювання впливу забруднювача у дослідженні на рак. Якщо ви дихотомізуєте це на "Високе" та "Низьке", ви стверджуєте, що це єдині два значення, які мають значення. Існує ризик раку у високому, а у низького. Але що робити, якщо ризик невпинно зростає на деякий час, потім вирівнюється, потім знову підвищується, перш ніж нарешті вискочить на високих значеннях? Все це втрачено.
Що ви отримуєте: простіше. Дихотомічні змінні часто набагато простіше вирішити статистично. Для цього є причини - якщо суцільна змінна так чи інакше потрапляє у дві чіткі угрупування , але я схильний уникати дихотомізації, якщо в першу чергу це не є природною формою змінної. Часто також корисно, якщо ваше поле все одно дихотомізує речі, щоб мати дихотомізовану форму змінної. Наприклад, багато хто вважає кількість клітин CD4 менше 400 як критичний поріг для ВІЛ. Як такий, я часто мав змінну 0/1 для Above / Below 400, хоча я б також зберігав змінну безперервної кількості CD4. Це допомагає узгодити своє дослідження з іншими.
Я трохи не погоджуюся з Петром. Хоча поділ безперервної змінної на категорії часто набагато розумніший, ніж груба дихотомізація, я радше проти категоризації. Такі категоризації дуже важко дати змістовні тлумачення. Я думаю, що вашим першим кроком має стати визначення, чи є біологічно чи клінічно добре підтримувана категоризація, яку ви можете використовувати, і лише після того, як ці варіанти будуть вичерпані, ви повинні використовувати кванти.
Дихотимізація додає магічного мислення до аналізу даних. Це дуже рідко гарна ідея.
Ось стаття Ройстона, Альтмана та Зауербрея про деякі причини, чому це погана ідея.
Мої власні думки: якщо ви дихотомізуєте залежну змінну, скажімо, вагу при народженні в 2,5 кг (це робиться весь час), то ви лікуєте дітей, які народжуються на 2,49 кг, як і тих, що народилися у 1,5 кг, і дітей, народжених у 2,51 кг, як і ті, хто на 3,5 кг. Це не має сенсу.
Кращою альтернативою часто є квантильна регресія. Я недавно писав про це для NESUG. Цей папір тут
Один виняток із вищезазначеного - коли категорії суттєво мотивовані; наприклад, якщо ви працюєте з поведінкою за кермом, її буде доцільно класифікувати на основі правового віку для водіння.
Мені сподобалися і підтримую відповіді @ Епіграда та @ Петра. Я просто хотів додати, що зміна інтервалу бінінгу на бінарну робить (потенційно) метричну змінну просто порядковою. З двійковій змінної негоже обчислити середню або відхилення (незважаючи на те, що деякі люди роблять), і, як я вже зазначив , в іншому місці , деякі багатовимірні аналізи стають теоретично або логічно незастосовні. Наприклад, я вважаю, що невірно використовувати ієрархічну кластеризацію центроїдів / Уордів або факторний аналіз з бінарними змінними.
Клієнти розслідування часто примушують нас до дихотомізації змінних на виході, тому що мислення з точки зору кількох класів, а не однієї суцільної ознаки простіше, інформація здається менш туманною і (помилково) більш об'ємною.
Однак є випадки, коли дихотомізація може бути виправданою. Наприклад, коли є сильна бімодальність або коли аналіз (наприклад, MAMBAC або інше) показує наявність 2 латентних класів.