Базові дані : У мене є близько 1000 осіб, позначених оцінками: '1,' [добре] '2,' [середній] або '3' [погано] - це значення, які я намагаюся передбачити для людей у майбутньому . На додаток до цього, у мене є деяка демографічна інформація: стать (категоричний: M / F), вік (числовий: 17-80) та расовий (категоричний: чорний / кавказький / латиноамериканський).
В основному у мене є чотири питання:
Я спочатку намагався запустити описаний вище набір даних як багаторазовий регресійний аналіз. Але нещодавно я дізнався, що оскільки мій залежний є впорядкованим фактором, а не суцільною змінною, я повинен використовувати порядкову логістичну регресію для чогось подібного. Я спочатку використовував щось на кшталт
mod <- lm(assessment ~ age + gender + race, data = dataset)
, чи може хтось вказати мені в правильному напрямку?Звідти, припускаючи, що я отримую коефіцієнти, з якими мені комфортно, я розумію, як підключити виключно числові значення для x1, x2 і т. Д. - але як би я мав справу з расою, наприклад, коли є кілька відповідей: чорний / кавказький / латино? Отже, якщо він говорить мені, що кавказький коефіцієнт дорівнює 0,289, і хтось, кого я намагаюся передбачити, кавказький, як я підключую його назад, оскільки значення не є числовим?
У мене також відсутні випадкові значення - деякі для перегонів, деякі для статі тощо. Чи потрібно робити щось додаткове, щоб переконатися, що це нічого не перекошує? (Я помітив, коли мій набір даних завантажується в R-Studio, коли відсутні дані завантажуються як
NA
, R говорить щось на кшталт(162 observations deleted due to missingness)
- але якщо вони завантажуються як заготовки, він нічого не робить.)Якщо припустити, що все це спрацьовує, і у мене з’являються нові дані щодо статі, віку та раси, про які я хочу передбачити - чи є більш простий спосіб у R виконати все це за допомогою будь-якої моєї формули з новими коефіцієнтами, а не робити це вручну? (Якщо це питання тут не підходить, я можу повернути його на форум R.)