У мене є дані вина з тут , який складається з 11 числових незалежних змінних із залежною рейтинг , пов'язаної з кожним записом зі значеннями від 0 до 10. Це робить його відмінний набір дані , щоб використовувати регресійну модель для вивчення взаємозв'язку між змінними та асоційованим рейтинг. Однак чи доречна буде лінійна регресія, чи краще використовувати багаточленну / упорядковану логістичну регресію?
Логістична регресія здається кращою з урахуванням конкретних категорій, тобто не суцільної залежної змінної, але (1) є 11 категорій (трохи занадто багато?) Та (2) при огляді є лише дані для 6-7 цих категорій, тобто решта 5-4 категорії не мають прикладу в наборі даних.
З іншого боку, лінійна регресія повинна лінійно оцінювати рейтинг між 0-10, що здається ближчим до того, що я намагаюся з’ясувати; але залежна змінна не є безперервною у наборі даних.
Який кращий підхід? Примітка: я використовую R для аналізу
Відредагуйте, звертаючись до деяких пунктів, зазначених у відповідях:
- Ділової мети немає, оскільки це насправді для університетського курсу. Завдання полягає в тому, щоб проаналізувати набір даних щодо вибору, яким би я вважав за потрібне.
- Розподіл оцінок виглядає нормально (гістограма / qq-графік). Фактичні значення в наборі даних між 3-8 (навіть технічно 0-10).