Коли я читаю про те, як налаштувати ваші дані, одне, що мені часто траплялося, - це те, що перетворення деяких безперервних даних у категоричні дані не є хорошою ідеєю, оскільки ви дуже добре можете зробити неправильний висновок, якщо пороги погано визначені.
Однак на даний момент у мене є деякі дані (значення PSA для хворих на рак передміхурової залози), де я вважаю, що загальний консенсус полягає в тому, що якщо ти нижче 4, ти, мабуть, цього не маєш, якщо ти вище, ти ризикуєш, а потім щось подібне вище 10 і 20, напевно, у вас є. Щось схоже. У такому випадку все-таки було б неправильним класифікувати мої безперервні значення PSA на групи, скажімо, 0-4, 4-10 та> 10? Або це насправді гаразд, оскільки поріги "добре визначені", так би мовити.