Я знаю, що в лінійній регресії змінна відповідь повинна бути безперервною, але чому це так? Я не можу знайти щось в Інтернеті, що пояснює, чому я не можу використовувати дискретні дані для змінної відповіді.
Я знаю, що в лінійній регресії змінна відповідь повинна бути безперервною, але чому це так? Я не можу знайти щось в Інтернеті, що пояснює, чому я не можу використовувати дискретні дані для змінної відповіді.
Відповіді:
Ніщо не заважає використовувати лінійну регресію на будь-яких двох стовпцях чисел, які вам подобаються. Бувають випадки, коли це може бути навіть досить розумним вибором.
Однак властивості того, що ви виходите, не обов’язково будуть корисними (наприклад, не обов'язково будуть такими, якими ви могли б їх хотіти).
Як правило, за допомогою регресії ви намагаєтесь встановити деяку залежність між умовним середнім значенням Y та предиктором, тобто відповідними відносинами деякої форми ; можливо моделювання поведінки умовного математичного очікування є те , що «регрес» є . [Лінійна регресія - це коли ви берете одну конкретну форму для ]g
Наприклад, розглянемо крайні випадки дискретності, змінну відповіді, розподіл якої становить або 0, або 1, і яка приймає значення 1 з ймовірністю, що змінюється, коли змінюється деякий предиктор ( ). Тобто .E ( Y | x ) = P ( Y = 1 | X = x )
Якщо ви підходите до такого типу взаємозв'язку з лінійною регресійною моделлю, то, окрім вузького інтервалу, він передбачить неможливі значення для - або нижче або вище :0 1
Дійсно, також можна побачити, що коли очікування наближається до меж, значення повинні все частіше приймати значення на цій межі, тому його дисперсія стає меншою, ніж якби очікування було близько середини - дисперсія повинна зменшитися до 0 Таким чином, звичайна регресія отримує ваги неправильно, недостачуючи вагу даних у регіоні, де умовне очікування близько 0 або 1. SImilar ефекти виникають, якщо у вас є змінна, обмежена між a і b, скажімо (наприклад, кожне спостереження є дискретним підрахунком з відомого загального можливого підрахунку для цього спостереження)
Крім того, ми, як правило, очікуємо, що умовне середнє значення буде асимптотикою до верхньої та нижньої меж, а це означає, що зв'язок зазвичай буде вигнутим, а не прямим, тому наша лінійна регресія, ймовірно, помиляється і в межах діапазону даних.
Подібні проблеми виникають із даними, обмеженими лише на одній стороні (наприклад, рахунки, які не мають верхньої межі), коли ви знаходитесь біля цієї межі.
Це можливо (якщо рідко) , щоб мати дискретні дані , які не обмежені на обох кінцях; якщо змінна приймає багато різних значень, то дискретність може мати відносно невеликий наслідок, доки опис середнього значення та дисперсії моделі є розумним.
Ось приклад того, що було б цілком розумно використовувати лінійну регресію на:
Навіть незважаючи на те, що в будь-якій тонкій смужці значень х є лише кілька різних значень у, які, ймовірно, будуть спостерігатися (можливо, приблизно 10 для інтервалів шириною 1), очікування можна добре оцінити, і навіть стандартні помилки та p- Значення та інтервали довіри в цьому конкретному випадку будуть більш-менш розумними. Інтервали прогнозування, як правило, працюватимуть дещо менш добре (оскільки ненормальність матиме в цьому випадку більш прямий вплив)
-
Якщо ви хочете провести тести на гіпотези або розрахувати інтервали довіри чи прогнозування, звичайні процедури роблять припущення про нормальність. За деяких обставин це може мати значення. Однак можна зробити висновок без конкретного припущення.
Я не можу коментувати, тому я відповім: у звичайній лінійній регресії змінна відповіді не повинна бути безперервною, ваше припущення не:
але це:
Звичайна лінійна регресія випливає з мінімізації квадратних залишків, що є методом, який вважається відповідним для безперервних і дискретних змінних (див. Теорему Гаусса-Маркофа). Звичайно, загальновикористані інтервали довіри або прогнозування та тести гіпотез грунтуються на нормальному припущенні розподілу, як правильно вказав Glen_b, але оцінка параметрів OLS цього не робить.
При лінійній регресії причина, за якою нам потрібно відповідати безперервно, - це вичісування з припущень, які ми зробили. Якщо незалежна змінна неперервна, то припускаємо, що лінійна залежність між і єх у
де залишковий є нормальним. А формула, яку ми знаємо, є безперервною.у
З іншого боку, в узагальненій лінійній моделі змінна відповіді може бути дискретною / категоричною (логістична регресія). Або рахувати (пуассонова регресія).
Відредагуйте на адресу mark999 та змініть коментарі.
Лінійна регресія - це загальний термін, який може використовувати людей по-різному. Ніщо не заважає нам використовувати його на дискретній змінній АБО незалежна змінна та залежна змінна не є лінійною.
Якщо ми не припустимо нічого і не виконаємо лінійну регресію, ми все одно можемо отримати результати. І якщо результати задовольняють наші потреби, то весь процес у порядку. Однак, як сказав Glan_b
Якщо ви хочете провести тести на гіпотези або розрахувати інтервали довіри чи прогнозування, звичайні процедури роблять припущення про нормальність.
У мене така відповідь, тому що я припускаю, що ОП запитує лінійну регресію з класичної книги статистики, де ми зазвичай маємо це припущення, коли навчаємо лінійної регресії.
З теоретичної точки зору відповіді вище є правильними. Однак на практиці все залежить від домену ваших даних та прогнозованої сили вашої моделі.
Одним із прикладів реального життя є стара модель банкрутства MDS. Це був один із ранніх оцінок ризику, який використовували кредитори споживчих кредитів для прогнозування ймовірності того, що позичальник оголосить банкрутство. Ця модель використовувала детальні дані з кредитного звіту позичальника та двійковий прапор 0/1 для позначення банкрутства протягом періоду прогнозування. Потім подайте ці дані в ... так ... ви здогадалися.
Звичайна стара лінійна регресія
Я одного разу отримав можливість поговорити з одним із людей, які будували цю модель. Я запитав його про порушення припущень. Він пояснив, що, хоча це повністю порушує припущення щодо залишків тощо, йому все одно.
Виявляється...
Ця лінійна регресійна модель 0/1 (коли вона стандартизована / масштабується до зручного для читання балу та поєднується з відповідним відсіченням) чітко підтверджує вибірковий зразок даних і дуже добре працює як хороший / поганий дискримінатор банкрутства.
Ця модель протягом багатьох років використовувалася як 2-а кредитна оцінка для захисту від банкрутства поряд із оцінкою ризику FICO (яка була розроблена для прогнозування кредитної неспроможності на 60+ днів).