Як перевірити, чи мої дані дискретні чи безперервні?


11

Мені здається, що для вибору правильних статистичних інструментів я повинен спочатку визначити, чи є мій набір даних дискретним чи безперервним.

Не могли б ви заучити мене, як я можу перевірити, чи дані дискретні чи безперервні з R?


Ви маєте на увазі, чи потрібно додавати певні змінні як безперервні або як категоричні (дискретні) предиктори в моделі регресійного типу?
Нік Саббе

Як збирали дані та як записувались змінні, ймовірно, дадуть вам деякі підказки; крім того, це може залежати від того, чи хочете ви моделювати ваші дані як безперервні чи дискретні (див., наприклад, питання, пов'язані з предметами Likert та аналіз дискретних масштабів). Непов’язаний момент: Було б добре, якби ви могли зареєструвати свій обліковий запис один раз назавжди і, можливо, подумаєте про прийняття відповідей чи перегляд своїх попередніх питань.
chl

зробіть qqnorm, і якщо точки знаходяться по всій діагоналі, дані є безперервними (якщо вони знаходяться в горизонтальних лініях, то це дискретно)
user222362

Відповіді:


14

Єдина причина, яку я можу відразу подумати, щоб вимагати цього рішення, - це прийняти рішення про включення змінної як безперервної або категоричної в регресію.

По-перше, іноді у вас немає вибору: символьні змінні або фактори (коли хтось, що надає data.frame, прийняв рішення для вас), очевидно, категоричні.

Це залишає нас числовими змінними. Ви можете спокусити просто перевірити, чи є змінні цілими числами, але це не гарний критерій: подивіться перший рядок коду нижче ( x1): це 1000 спостережень лише двох значень і-1.5 : навіть якщо це Не цілі числа, це здається очевидною категоричною змінною. Що ви можете зробити для деяких,це перевірити, скільки різних значень у ваших даних, хоча будь-який поріг, який ви можете використовувати для цього, буде суб'єктивним, я думаю:2.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Я схильний би сказати, що змінну, яка має лише 5% унікальних значень, можна сміливо назвати дискретною (але, як було сказано: це суб'єктивна). Однак це не робить його хорошим кандидатом для включення його як категоричної змінної у вашу модель: Якщо у вас є 1000000 спостережень і 5% унікальних значень, це все ще залишає 50000 «категорій»: якщо ви включите це як категоричне, ви ' збираєтесь провести пекло багато ступенів свободи.

Я думаю, що цей виклик є ще більш суб'єктивним і значною мірою залежить від розміру вибірки та способу вибору. Без іншого контексту важко дати тут настанови.

x012

Е[у]=β0+β11х1+β12х2
хiх==i
Е[у]=β0+β1х
Е[у]=β0+β1х1+2β1х2

χ2


3
+1 Хороший приклад того, як покращити дивне запитання з чудовою відповіддю.

1
Насправді будь-яка безперервна може бути дискретною, завдяки чому гістограми просто показують, як це робиться на практиці. Ймовірно, я змішав дані підрахунку (цілі дані значення) з категоричними ... хоча моя перша здогадка стосувалася дискретних і безперервних розподілів, а не лише точок даних (і божевільних дослідників, які присвоюють реальне значення категоріям), тому ... видалила моє все одно , оскільки не думаю, що це вирішує проблему (+1)
Дмитро Челов

1
здається, що @Dmitrij видалив свою відповідь, чи можете ви, будь ласка, переробити свою відповідь, щоб це відобразити? Це чудова відповідь (+1), так що посилання на неіснуючий вміст трохи стирчить.
mpiktas
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.