Результати регресії мають несподівану верхню межу

Я намагаюсь передбачити балансову оцінку і спробував кілька різних методів регресії. Одне, що я помітив, - це те, що передбачувані значення, здається, мають якусь верхню межу. Тобто фактичний баланс знаходиться у , але мої прогнози становлять приблизно . Наступний графік показує фактичний та передбачуваний баланс (прогнозований з лінійною регресією): $[0.0, 1.0)$ $0.8$

фактичний проти прогнозованого

Ось два графіки розподілу з однаковими даними:

початковий розподіл

Оскільки мої прогнози дуже перекошені (дані користувачів з розподілом закону про владу), я застосував перетворення Box-Cox, яке змінює результати на наступне:

фактичне відносно прогнозованого після трансформації Box-Cox

розподіл після трансформації Box-Cox

Хоча це змінює розподіл передбачень, все ще існує ця верхня межа. Отже, мої запитання:

Які можливі причини таких верхніх меж у результатах прогнозування?
Як я можу зафіксувати прогнози, які відповідають розподілу фактичних значень?

Бонус: Оскільки розподіл після трансформації Box-Cox, здається, слідує за розподілами трансформованих предикторів, чи можливо це безпосередньо пов'язане? Якщо так, чи можна застосувати перетворення, яке відповідає розподілу фактичним значенням?

Редагувати: я використовував просту лінійну регресію з 5 прогнокторами.

— Менні
джерело

Мені дуже цікаво подивитися, куди це йде. Це просто модель лінійної регресії? Скільки прогнозів?

— shadowtalker

Як додаткове зауваження: Оскільки ваша змінна результат обмежена значеннями 0 і 1, проста модель лінійної регресії, ймовірно, спрогнозує значення за межами тих меж, що, звичайно, є недійсним. Є й інші варіанти, які слід врахувати в цьому випадку.

— COOLSerdash

Обмежений вхід означає обмежений вихід для лінійної моделі. Які межі у (трансформованих) прогнокторів? Чи можете ви показати нам підсумкову таблицю відповідності моделі?

— кардинал

Меннні: Все, що вам дійсно потрібно (для початку) - це значення коефіцієнтів і межі на прогнозах. Порівнюючи знаки один за одним, ви можете швидко визначити мінімальний і максимальний прогноз (припускаючи, що прогноктори завжди будуть задовольняти межі, або неявно, або явно).

— кардинал

@cardinal: Я перевірив межі прогнозів і зміг підтвердити ваше припущення. З даними (нетрансформованими) прогнокторами максимальний прогноз становить ~ 0,79. Чи можете ви "скопіювати / вставити" ваш коментар як відповідь, щоб я міг прийняти його? Як я можу продовжити? Я думаю, це свідчить про відсутність лінійної залежності між моїми прогнозами та результатом?

— Менні

Відповіді:

Ваш var var обмежений між 0 і 1, і тому OLS не є повністю підходящим, я пропоную, наприклад, бета-регресію, і можуть бути інші методи. Але по-друге, після трансформації бокс-кокса ви говорите, що ваші прогнози обмежені, але ваш графік цього не показує.

— Леонардо Аслендер
джерело

Хоча є велика увага до використання регресій, які підкоряються межі 0/1, і це розумно (і важливо!), Конкретний питання, чому ваш LPM не передбачає результатів, більших за 0,8, вважає мене трохи іншим питанням .

У будь-якому випадку у ваших залишках є відомий зразок, а саме ваша лінійна модель погано прилягає до верхнього хвоста розподілу. Це означає, що у правильній моделі є щось нелінійне.

Рішення, які також враховують обмеження 0/1 ваших даних: probit, logit та бета-регресія. Цей кордон є критичним і повинен бути вирішений, щоб ваша робота була суворою, враховуючи ваше відносно близьке до 1 розподілу, а отже, велику кількість відповідей на цю тему.

Однак, як правило, проблема полягає в тому, що LPM перевищує межу 0/1. Тут це не так! Якщо ви не переймаєтесь межею 0/1 і активно хочете рішення, яке може бути оснащене (x'x) ^ - 1 (x'y), то врахуйте, що, можливо, модель не є строго лінійною. Встановлення моделі як функції x ^ 2, перехресні продукти незалежних змінних або журнали незалежних змінних можуть допомогти покращити відповідність і, можливо, поліпшити пояснювальну силу вашої моделі, щоб вона оцінила значення, що перевищують 0,8.

— Регрес вперед
джерело