Лінійна регресія або порядкова логістична регресія для прогнозування рейтингу вина (від 0 і 10)


18

У мене є дані вина з тут , який складається з 11 числових незалежних змінних із залежною рейтинг , пов'язаної з кожним записом зі значеннями від 0 до 10. Це робить його відмінний набір дані , щоб використовувати регресійну модель для вивчення взаємозв'язку між змінними та асоційованим рейтинг. Однак чи доречна буде лінійна регресія, чи краще використовувати багаточленну / упорядковану логістичну регресію?

Логістична регресія здається кращою з урахуванням конкретних категорій, тобто не суцільної залежної змінної, але (1) є 11 категорій (трохи занадто багато?) Та (2) при огляді є лише дані для 6-7 цих категорій, тобто решта 5-4 категорії не мають прикладу в наборі даних.

З іншого боку, лінійна регресія повинна лінійно оцінювати рейтинг між 0-10, що здається ближчим до того, що я намагаюся з’ясувати; але залежна змінна не є безперервною у наборі даних.

Який кращий підхід? Примітка: я використовую R для аналізу

Відредагуйте, звертаючись до деяких пунктів, зазначених у відповідях:

  • Ділової мети немає, оскільки це насправді для університетського курсу. Завдання полягає в тому, щоб проаналізувати набір даних щодо вибору, яким би я вважав за потрібне.
  • Розподіл оцінок виглядає нормально (гістограма / qq-графік). Фактичні значення в наборі даних між 3-8 (навіть технічно 0-10).

Відповіді:


9

Впорядкована модель logit є більш доцільною, оскільки у вас є залежна змінна, яка є рейтингом, 7 краще, ніж 4, наприклад. Тож є чіткий порядок.

Це дозволяє отримати ймовірність для кожного контейнера. Мало припущень, які потрібно враховувати. Ви можете подивитися тут .

Одне з припущень, що лежать в основі порядкової логістичної (і порядкової прогресії) регресії, полягає в тому, що відносини між кожною парою груп результатів однакові. Іншими словами, порядкова логістична регресія передбачає, що коефіцієнти, що описують взаємозв'язок між, скажімо, найнижчим порівняно з усіма вищими категоріями змінної відповіді, такі ж, як і описуючі зв'язок між наступною найнижчою категорією та всіма вищими категоріями тощо. Це називається припущенням пропорційних шансів або припущенням паралельної регресії.

Код:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

Ви можете отримати додаткові пояснення тут , тут , тут або тут .

Майте на увазі, що вам потрібно буде перетворити коефіцієнти на коефіцієнт шансів, а потім на ймовірності, щоб мати чітке тлумачення з точки зору ймовірностей.

Простий (і спрощений) ви можете обчислити їх:

ехp(βi)=ОггсRатiо

ехp(β1)ехp(βi)=Пrобабiлiту

(Не хочу бути занадто технічним)


4

Я хотів би надати іншу точку зору на проблему: В реальному світі з цим питанням рідше стикаються, адже що робити - це залежить від потреб бізнесу .

Основне питання в реальному світі - що робити після отримання прогнозу?

  • Припустимо, бізнес хоче скинути "низькоякісне" вино. Тоді нам потрібно певне визначення поняття "як погано погано" (скажімо, якість нижче ). З визначенням слід застосовувати бінарну логістичну регресію, оскільки рішення є двійковим. (сміття або зберігати, посередині нічого немає).2

  • Припустимо, бізнес хоче вибрати трохи винного вина для відправки в ресторани трьох типів. Тоді знадобиться багатокласна класифікація.

Підсумовуючи, я хочу стверджувати, що те, що робити, насправді залежить від потреб після отримання прогнозу, а не просто дивитися на атрибут змінної відповіді.


1

Хоча впорядкована модель logit (як детально описано @ adrian1121) була б найбільш підходящою з точки зору припущень моделі, я думаю, що багаторазова лінійна регресія має і деякі переваги.

  1. Простота інтерпретації . Лінійні моделі легше інтерпретувати, ніж замовлені моделі Logit.
  2. Комфорт зацікавлених сторін . Користувачам моделі може бути зручніше з лінійною регресією, оскільки вони швидше знають, що це таке.
  3. Більш парсимонічні (простіші). Простіша модель може працювати так само добре, див. Відповідну тему .

Той факт, що більшість відповідей становить від 3 до 8, підказує мені, що лінійна модель може відповідати вашим потребам. Я не кажу, що це "краще", але це може бути більш практичний підхід.


0

В принципі впорядкована модель logit здається доречною, але 10 (а то й 7) категорій - це досить багато.

1 / Зрештою, чи має сенс зробити деяке перекодування (наприклад, рейтинги 1-4 будуть об'єднані в одну єдину модальність, скажімо, "низький рейтинг")?

2 / Який розподіл оцінок? Якщо нормально нормально розподілитись, то лінійна регресія зробила б хорошу роботу (див. Лінійну модель вірогідності ).

3 / В іншому випадку я б хотів отримати щось зовсім інше під назвою " бета-регресія ". Рейтингова шкала на 11 балів - це щось досить детальне порівняно з класичною 5-бальною шкалою - я вважаю, що було б прийнятним оцінювати шкалу рейтингу як "інтенсивність" шкала, де 0 = Нуль і 1 = Повна / Ідеальна - Виконуючи це, ви в основному вважаєте, що ваша шкала є інтервальним типом (а не порядковим), але для мене це звучить прийнятним.


3
Чому 10 (або 7) категорій багато? Чи є якась фундаментальна технічна причина, чому 10 категорій не поводяться належним чином у впорядкованій моделі logit, чи ви говорите з чисто практичної точки зору? (наприклад, подібні міркування до відповіді, яку hxd1011 дав.)
RM

Ні, немає жодної технічної причини, якщо дані дозволяють оцінити впорядкований logit (OL) за категоріями "так багато". Однак визначення моделі OL з 11 категоріями передбачає оцінку 10 "постійних" термінів (тобто порогових параметрів) - мені це звучить дуже багато, особливо якщо деякі категорії недостатньо представлені в базі даних. Моє відчуття в тому, що модель OL для 11 категорій трохи перебиті, я б вважав рейтинги як безперервними змінними, або згортати деякі модальності, щоб вказати більш парсимонізовану (а можливо, більш значущу) модель OL.
Умка

-1

Я не фахівець з логістичної регресії, але я б сказав, що ви хочете використовувати мультиноміальну через вашу дискретно залежну змінну.

Лінійна регресія може вивести коефіцієнти, які можна екстраполювати за межами можливої ​​межі вашої залежної змінної (тобто збільшення незалежної змінної призведе до залежної змінної за межами вашої межі для заданого коефіцієнта регресії).

Багаточленна регресія дає різні ймовірності для різних результатів залежної змінної (тобто коефіцієнт вашої регресії дасть вам, як вони збільшують свою ймовірність дати кращу оцінку, без того, щоб оцінка не виходила за межі).


3
Багаточлен добре підходить для декількох не упорядкованих категорій. Звичайна логістика (що пропонує ОП у питанні) корисна для декількох упорядкованих категорій.
Грегор

-1

Інша можливість - використовувати випадковий ліс. Існує два способи вимірювання "важливості" змінної у випадковому лісі:

  1. ХjХjХjYХ
  2. ХjХj

Випадкові ліси також піддаються типу візуалізації даних, що називається "часткова ділянка залежності". Дивіться цей поглиблений підручник для більш детальної інформації.

Часткова залежність і перестановка важливості не характерні для моделей випадкових лісів, але їх популярність зросла разом з популярністю випадкових лісів через те, наскільки ефективно їх обчислити для моделей випадкових лісів.


1
Я знаю, що це дещо дотична відповідь, але я хотів би знати, чому це було знято. Це неправильно?
shadowtalker
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.