Які проблеми з використанням процентного результату в лінійній регресії?


11

У мене є дослідження, в якому багато результатів представлені як відсотки, і я використовую кілька лінійних регресій для оцінки впливу деяких категоричних змінних на ці результати.

Мені було цікаво, оскільки лінійна регресія припускає, що результат - це постійний розподіл, чи існують методологічні проблеми у застосуванні такої моделі до відсотків, які обмежені між 0 і 100?


1
Чи є ці відсотки безперервними (наприклад, відсоток вершків у молоці), або дискретні (як біноміальні пропорції, кількість у певній категорії із загальної кількості)?
Glen_b -Встановити Моніку

1
Гм ... я не розумію різниці. Хіба вони обоє не безперервні? У всякому разі, я думаю, що другий краще описує мої дані, оскільки ми говоримо про людей загалом.
Бакабург

Розподіл рахунків, поділених на підрахунки, безумовно, дискретний. Дійсно, чисельник зазвичай моделюється як двочлен, знаменник обумовлений (трактується як постійний), тому відношення зазвичай трактується як масштабний двочлен. Однак, навіть якби знаменник був також випадковою змінною, співвідношення все одно було б дискретним, оскільки його вибірковий простір підраховується
Glen_b -Встановити Моніку

Відповіді:


17

Я торкнуся питань, що стосуються або дискретної, або постійної можливості:

  1. Проблема з описом середнього

    У вас обмежена відповідь. Але модель, яка вам підходить, не обмежена, і тому вона може вибухнути прямо через межу; деякі встановлені значення можуть бути неможливими, і прогнозовані значення зрештою повинні бути.

    Справжні стосунки мають врешті-решт стати більш плоскими, ніж вони посередині, коли вони наближаються до меж, тож можна було б згорнутись якимось чином.

  2. Проблема з описом дисперсії

    Коли середня величина наближається до межі, дисперсія також буде зменшуватися, інші речі будуть рівними. Між середньою і обмеженою є менше місця, тому загальна мінливість має тенденцію до зменшення (інакше середня величина, як правило, відводиться від межі пунктами, розташованими в середньому далі на стороні, не близькій до межі.

(Дійсно, якби всі значення чисельності населення в якомусь районі були точно на межі, дисперсія була б нульовою.)

Модель, яка займається такою межею, повинна враховувати такі ефекти.

Якщо пропорція є числовою змінною, загальною моделлю розподілу пропорції є двочленний GLM. Існує кілька варіантів форми взаємозв'язку середньої пропорції та предикторів, але найпоширенішим з них буде логістичний GLM (декілька інших варіантів є загальними.)

Якщо пропорція є суцільною (як відсоток вершків у молоці), існує ряд варіантів. Бета-регресія, здається, є одним досить поширеним вибором. Знову ж таки, він може використовувати логістичний зв'язок між середнім та передбачувачем, або він може використовувати якусь іншу функціональну форму.

Див. Також Регресія щодо результату (співвідношення або частки) між 0 і 1 .


1
+1, і я взяв на себе сміливість додати посилання на те, що, можливо, вважалося б нашим "головним" потоком на цю тему (відповідь Гунга там також стосується бета-та логістичних варіантів).
амеба

2
Простий загальний аргумент - якщо середнє значення 0, це можливо лише тоді, коли всі значення дорівнюють 0, і аналогічно 1 = 100%, а всі значення дорівнюють 1. Отже, дисперсія повинна бути 0 в крайніх межах, незалежно від того, чи базуються пропорції підрахунок або вимірювання. Хоча можливо, що всі інші значення є деякими постійними, на практиці це дуже рідко. Отже, дисперсія буде найвищою для деякого значення між 0 і 1.
Нік Кокс

Ви зможете надати деякі посилання на описані 2 питання?
user1607

3

Це точно те саме, що і у випадку, коли результат становить від 0 до 1, і цей випадок, як правило, обробляється узагальненою лінійною моделлю (GLM), як логістична регресія. В Інтернеті є безліч відмінних праймерів для логістичної регресії (та інших ГЛМ), а також є відома книга на тему Агресті.

Бета-регресія - життєздатна, але більш складна альтернатива. Цілком ймовірно, що логістична регресія спрацює добре для вашої програми, і зазвичай це буде простіше реалізувати з більшістю статистичного програмного забезпечення.

Чому б не використати звичайну регресію найменших квадратів? Насправді люди це роблять, іноді під назвою "лінійна модель ймовірності" (LPM). Найбільш очевидна причина, чому ЛПМ "погані", полягає в тому, що немає простого способу обмежити результат, щоб лежати в певному діапазоні, і ви можете отримати прогнози вище 1 (або 100% або будь-якої іншої кінцевої верхньої межі) і нижче 0 (або якась інша нижня межа). З тієї ж причини прогнози біля верхньої межі мають тенденцію бути систематично зависокими, а прогнози біля нижньої межі - занадто низькими. Математична лінійна регресія явно передбачає, що такі тенденції не існують. Зазвичай, це не є вагомою причиною для пристосування LPM до логістичної регресії.

Крім того, виявляється, що всі регресійні моделі OLS, включаючи LPM, можна визначити як особливий вид GLM, і в цьому контексті LPM пов'язані з логістичною регресією.


4
Хоча загалом значна частина цієї відповіді виглядає гідною, вона містить дезінформацію, яка може збентежити читачів. Облік логістичної регресії у першому абзаці звучить як опис журнальної трансформації залежної змінної з наступною лінійною регресією: це не логістична регресія. Інтерпретація коефіцієнтів теж не зовсім правильна. Більш важливою проблемою для "LPM" є те, що коли дані знаходяться поблизу крайнощів, вони, ймовірно, демонструють асиметричний розподіл залишків, що є важливим порушенням припущення про регресію.
whuber

Я не думав, що варто входити в коефіцієнти шансів і таке. Я просто зніму цей матеріал і нехай тоді ОП прочитає його. Також хороший момент щодо залишків.
тіньтакер

(+1) Дякую за конструктивні відповіді!
whuber

2

Можливо, варто вивчити бета-регресію (для якої я розумію, що є пакет R), що, здається, добре підходить для таких проблем.

http://www.jstatsoft.org/v34/i02/paper


7
Відповідь буде ще краще, якщо ви потрапите на якусь із основних причин, через яку страждає лінійна регресія, коли результат становить відсоток.
Олексій
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.