Чи завжди перехід від безперервних даних до категоричних завжди помиляється?


14

Коли я читаю про те, як налаштувати ваші дані, одне, що мені часто траплялося, - це те, що перетворення деяких безперервних даних у категоричні дані не є хорошою ідеєю, оскільки ви дуже добре можете зробити неправильний висновок, якщо пороги погано визначені.

Однак на даний момент у мене є деякі дані (значення PSA для хворих на рак передміхурової залози), де я вважаю, що загальний консенсус полягає в тому, що якщо ти нижче 4, ти, мабуть, цього не маєш, якщо ти вище, ти ризикуєш, а потім щось подібне вище 10 і 20, напевно, у вас є. Щось схоже. У такому випадку все-таки було б неправильним класифікувати мої безперервні значення PSA на групи, скажімо, 0-4, 4-10 та> 10? Або це насправді гаразд, оскільки поріги "добре визначені", так би мовити.


5
Це залежить (як завжди). Наприклад, якщо ви вивчаєте, як лікарі прийматимуть рішення, і вони приймають рішення на основі цих категорій, тоді вам потрібно використовувати ті самі категорії. Якщо ви замість цього вивчаєте біологічні наслідки, пов’язані з підвищеним ПСА, то, швидше за все, ви взагалі не хочете категоризувати ПСА. Таким чином, немає чіткої відповіді на ваше широке запитання "чи це добре".
whuber

Що ви намагаєтеся зробити з даними? Чи не такі кордони, як правило, пов'язані з тим, що ви хочете розібратися, так що їхнє вручну ставить питання?
RemcoGerlich

Я встановлюю дані для моделі логістичної регресії. Таким чином, головне питання - чи просто використовувати безперервні дані або замість цього мати дискретні дані.
Денвер Данг

1
Мені не зрозуміло, що таке "безперервні" дані. Це не те, що існує насправді. Немає такого поняття, як вимірювання / статистика з нескінченною точністю.
JimmyJames

1
@BillHorvath Так, я не лікар, тому я не зовсім впевнений, як це було визначено. Якщо ви просто подивіться на сторінку Wiki, там зазначено одне місце: "Рівень PSA між 4 і 10 нг / мл (нанограми на мілілітр) вважається підозрілим, і слід розглянути питання про підтвердження аномальної PSA повторним тестом. " а потім ще одне місце: "Низький ризик: PSA <10, показник Глісона ≤ 6 та клінічна стадія ≤ T2a Проміжний ризик: PSA 10-20, оцінка Gleason 7, АБО клінічна стадія T2b / c Високий ризик: PSA> 20 , Оцінка Gleason ≥ 8, АБО клінічна стадія ≥ T3 "
Денвер Данг

Відповіді:


23

Чи є різкі розриви на ваших порогах?

Наприклад, припустимо, що у вас є два пацієнта A і B зі значеннями 3,9 і 4,1, а ще двоє пацієнтів C і D зі значеннями 6,7 і 6,9. Чи різниця у ймовірності виникнення раку між A і B набагато більша, ніж відповідна різниця між C і D?

Якщо так, то дискретизація має сенс.

Якщо ні, то ваші пороги можуть мати сенс у розумінні ваших даних, але вони не є "чітко визначеними" в статистичному сенсі. Не дискретизуйте. Натомість використовуйте свої тестові бали «як є», і якщо ви підозрюєте про якусь нелінійність, використовуйте .

Це дуже рекомендується.


2
Ця посилання внизу повна чудових моментів. Майбутні читачі цієї відповіді повинні перевірити її.
eric_kernfeld

Я думаю, що дискретизація не має сенсу, якщо не відбудеться великий стрибок результату при запропонованій перерві ТА, якщо результат відносно однорідний у цих групах. В іншому випадку є кращі способи наблизитись до "стрибка" у функції @Stephan Kolassa
LSC

1

Я думаю, що стандартна відповідь - це завжди погано, оскільки ви втрачаєте інформацію в процесі. Важко повірити, що є випадок, коли ви отримаєте що-небудь від отримання природних інтервальних даних та перетворення його на категоричність.


Відповідна ситуація була б тоді, коли існує справжній розрив у відносинах цього конкретного x з DV і що в межах "категорій" результат є відносно однорідним.
LSC
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.