Використання логістичної регресії для безперервної залежної змінної


9

Нещодавно я переглянув свою дослідницьку роботу, і наступний коментар рецензента щодо моєї роботи:

Результати, отримані за однією моделлю, не зовсім переконливі, особливо лінійна регресія, як правило, має недоліки в роботі з людьми, що втратили життя. Я пропоную авторам також спробувати логістичну регресію та порівняти відповідні результати з поточними результатами. Якщо будуть отримані подібні спостереження, результати були б більш надійними.

Чи правильний коментар рецензента? Чи є логістична регресія кращою, ніж множинна лінійна регресія?

Проблема в тому, що моя залежна змінна не є категоричною, це змінна шкала. Що я можу зробити зараз? Який інший метод регресії ви рекомендуєте оцінити мою модель?

Оцінка залежить від змінної у наступній таблиці. Порядність, частота, час перебування та остання оцінка є незалежними змінними.

введіть тут опис зображення

Я витягнув ці змінні з сайту і припускаю, що ці незалежні змінні мають значний вплив на показник . Тому я представляю такі моделі:

введіть тут опис зображення


До речі, значення R квадрата для цієї лінійної моделі становить 0,316! Рецензент також прокоментував це значення:

то результати не є переконливими, оскільки немає показника якості засвоєних коефіцієнтів. Невеликий R ^ 2 не може вказувати на хороші показники, оскільки модель може бути надмірно встановлена.

Чи 0,316 дуже низький для R квадрату? У попередніх роботах я багато бачив подібних значень.

введіть тут опис зображення


Це незначний момент, але розуміння того, як обчислюється оцінка, може бути корисним для надання хороших відповідей. Чи можете ви відредагувати своє запитання, щоб повідомити нам про це?
whuber

Я редагую свою публікацію. мої статистичні знання не хороші. Буду дуже вдячний, якщо ви допоможете.
PSS

1
хіба немає ідеї щодо запуску логістичної регресії на безперервно залежній змінній ???
PSS

1
Чи вистачає балів від 0 до 100? У такому випадку ви можете розділити на 100 і зробити логістичну регресію на отриманій змінній, яка завжди буде від 0 до 1 ... відчуває себе трохи дивно робити так, і я не впевнений, наскільки це розумно, але можливо, це пропонує рецензент?
Сем Лівінгстон

2
Ні, масштабування до 0-1 або відмова від цінної інформації y категоризації балів взагалі не є хорошими рішеннями.
Френк Харрелл

Відповіді:


7

Модель пропорційної порядкової логістичної регресії повинна добре працювати для цієї проблеми. Для ефективної реалізації, яка може дозволити тисячі унікальнихYЗначення див. ormфункцію в rmsпакеті R.


Я встановив R і всі необхідні пакети. Ви можете надати приклад функції orm? Я не знайшов пошуком. Для моєї регресійної моделі, яким повинен бути код?
PSS

1
Варто витратити час на вивчення документації. Дивіться роздатковий матеріал під biostat.mc.vanderbilt.edu/CourseBios330 для детального дослідження випадку з кодом - розділ про регресійні моделі для безперервної роботиY.
Френк Харрелл

1

Ви також можете спробувати впорядковані моделі probit / logit, призначивши значення 1, 2,3 та 4 для балів у 1-му, ....., 4-му відсотках відповідно.


Яку змінну ви пропонуєте зменшити до найнижчих чотирьох відсотків (із 100)? Що це зробило б і чому?
whuber

-1

Ви можете дихотомізувати (перетворити на двійкову змінну) рахунок. Якщо оцінка становить від 0 до 100, то ви можете призначити 0 будь-якому балу менше 50, а 1 - інакше. Я ніколи раніше не чув, щоб це був хороший спосіб поводження з людьми, що вижили. Це може просто приховати людей, що не впадають у рух, оскільки неможливо виділити дуже високі або низькі бали. Це не має для мене великого сенсу, але ви можете спробувати.

Що ще важливіше, чому ви реєструєте всі ваші коваріати та змінну відповіді? Це вплине на вашеβ кошторисів і ваших R2 (я думаю).

Також рецензент каже невелике R2пропонує перевиконання? Я думав, що перевиконання - це коли тиR2висока, але ваша модель погано працює над новими даними (тобто вона переповнює ваші дані, але не узагальнює нові дані). Перенапруження, як правило, відбувається, коли у вас є мало спостережень, які ви намагаєтеся передбачити з великою кількістю параметрів. Це ви робите у своїй моделі 2, оскільки у вас є 8 спостережень, які ви намагаєтесь пояснити за допомогою 7 параметрів.

Я не збираюся робити вигляд, що знаю багато про статистику, але мені здається, виходячи з його коментарів, цей рецензент може знати навіть менше.


Дякую за вашу відповідь. Оскільки всі змінні перекошені, тому я перетворюю їх на природний журнал. Чи правий я? Дякуємо, що роз’яснили, що означає «оздоблення»! Насправді я не знав, що означає переодяг. Тепер я можу відповісти рецензенту та редактору. До речі, яка ваша рекомендація для мене зробити мою оцінку більш твердою? який метод регресії, на вашу думку, є кращим?
PSS

6
Не дихотомізуйте Yз будь-якої причини.
Френк Харрелл

Я погоджуюся з @FrankHarrell, що вибір довільного порогу для дихотомізації ваших даних не має сенсу. Це весь ваш набір даних? Якщо у вас так мало спостережень, ваші дані ніколи не виглядатимуть нормально розподіленими! Також вам потрібно зрозуміти тип даних, з якими ви також маєте справу. Який діапазон значень вони можуть приймати, чи розумно вважати, що вони повинні бути нормально розподілені? Я збираюся розглянути пропозицію Франка щодо використання порядкової логістичної регресії, але я здогадуюсь, що він використовує порядок балів замість їх значення в регресії.
pontikos

@ PotentialScientist, не має значення, чи ваші дистрибутиви перекошені. У (типовій) регресії OLS має значення лише розподіл залишків, дивіться тут: що - якщо - залишки - як правило, розподіляються, але - у - - це - немає . Ви також можете прочитати це: інтерпретація журналу-перетвореного-прогноктора , щоб зрозуміти, що сталося з вашою моделлю в результаті перетворення ваших прогнозів.
gung - Відновити Моніку

@PotentialScientist як ти йдеш далі? Якщо ви редагуєте своє питання щодо надання даних у форматі CSV, я можу спробувати запустити функцію orm, запропоновану професором Харреллом, і ми можемо проаналізувати вихід. Варто вивчити основи R (як читати у файлі та запускати регресію).
pontikos

-1

Можна застосувати логістичну регресію навіть до постійної залежності змінної. Це має сенс, якщо ви хочете переконатися, що передбачуване scoreзавжди знаходиться в межах [0, 100](я суджу з ваших скріншотів, що це за 100-бальною шкалою).

Щоб досягти цього, просто розділіть свій бал на 100 і проведіть логістичну регресію за допомогою цієї [0,1]орієнтованої цільової змінної, як у цьому питанні - це можна зробити, наприклад, за Rдопомогою

glm(y~x, family="binomial", data=your.dataframe)

Я не знаю, чи допомагає цей підхід людям, що випадають, - це залежить від того, який тип очікування ви очікуєте. Але іноді це покращує хорошу форму (навітьR2, якщо ваша залежна змінна має природну нижню та верхню межі.

Щодо другого питання, R20.3може бути найкращим, що ви можете вичавити зі своїх даних, не переставляючи їх. Якщо ви будуєте свою модель з метою висновку, низькийR2цілком добре, доки важливі для вас коефіцієнти. Якщо ви хочете перевірити, чи модель оснащена, ви можете перевірити їїR2 на тестовому наборі або навіть зробити перехресну перевірку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.