Мені здається, що для вибору правильних статистичних інструментів я повинен спочатку визначити, чи є мій набір даних дискретним чи безперервним.
Не могли б ви заучити мене, як я можу перевірити, чи дані дискретні чи безперервні з R?
Мені здається, що для вибору правильних статистичних інструментів я повинен спочатку визначити, чи є мій набір даних дискретним чи безперервним.
Не могли б ви заучити мене, як я можу перевірити, чи дані дискретні чи безперервні з R?
Відповіді:
Єдина причина, яку я можу відразу подумати, щоб вимагати цього рішення, - це прийняти рішення про включення змінної як безперервної або категоричної в регресію.
По-перше, іноді у вас немає вибору: символьні змінні або фактори (коли хтось, що надає data.frame, прийняв рішення для вас), очевидно, категоричні.
Це залишає нас числовими змінними. Ви можете спокусити просто перевірити, чи є змінні цілими числами, але це не гарний критерій: подивіться перший рядок коду нижче ( x1
): це 1000 спостережень лише двох значень і : навіть якщо це Не цілі числа, це здається очевидною категоричною змінною. Що ви можете зробити для деяких,це перевірити, скільки різних значень у ваших даних, хоча будь-який поріг, який ви можете використовувати для цього, буде суб'єктивним, я думаю:x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Я схильний би сказати, що змінну, яка має лише 5% унікальних значень, можна сміливо назвати дискретною (але, як було сказано: це суб'єктивна). Однак це не робить його хорошим кандидатом для включення його як категоричної змінної у вашу модель: Якщо у вас є 1000000 спостережень і 5% унікальних значень, це все ще залишає 50000 «категорій»: якщо ви включите це як категоричне, ви ' збираєтесь провести пекло багато ступенів свободи.
Я думаю, що цей виклик є ще більш суб'єктивним і значною мірою залежить від розміру вибірки та способу вибору. Без іншого контексту важко дати тут настанови.
x
0
1
2