Використання регресії для проектування поза діапазоном даних нормально? ніколи добре? іноді гаразд?


10

Які ваші думки щодо використання регресії для проектування поза діапазоном даних? Якщо ми впевнені, що вона відповідає лінійній або силовій моделі моделі, чи не могла вона бути корисною поза діапазоном даних? Наприклад, у мене є обсяг, керований ціною. Ми повинні мати можливість проектувати ціни за межами діапазону даних, на який я вважаю. Ваші думки?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

1
Залежить від того, наскільки добре ваші припущення утримуються поза діапазоном даних. Прогнозуванняудля неспостережуваних хЦе вся причина, по якій ви регресуєте в першу чергу.
Бен

3
Навіть коли ви справді, справді, впевнені, що лінійні стосунки продовжуються поза рамками прогнозів х1,,хн у вашому зразку н Спостереження, в новому спостереженні є термін, що відрізняється передбачуваною відповіддю х - а саме (х-х¯)2iн(хi-х¯)2- це повинно вас хвилювати.
Scortchi

Бен, я схильний погоджуватися, чи не прогнозує, що ти в цілому непомітний X? Інакше навіщо навіть робити регресію? Можливо, встановлення межі щодо того, наскільки я дозволяю собі відійти від спостережуваного діапазону даних, може бути відповідальним. Напевно 10% було б безпечно .. ні?
Джонсон Джейсон

Моя улюблена мірка щодо цієї теми - bmj.com/content/317/7155/409 .
Карло Лаццаро

@ Бен, @ Джонсон - Можливо, каламбур. Для регресії є ще одне використання. Це можна використовувати для пояснення, а не для передбачення. Я думаю, особливо в соціальних науках це головне використання регресії. Я читав безліч аргументів на кшталт Ми думаємо, що (змінні) Результат B ефекту, ми проводимо регресію, виявляємо, що 95% -ний довірчий інтервал коефіцієнта (-ів) A не містить 0, і робимо висновок, що існує взаємозв'язок форми А викликає В. Між іншим, це не те, що я коли-небудь роблю!
meh

Відповіді:


13

Майже всі відповіді та коментарі попереджають про небезпеку екстраполяції. Я хотів би запропонувати більш формальний спосіб зрозуміти, чи є прогнозування доцільним. Метод заснований на матриці проекції на простір, що охоплюється стовпцямиХякий ми вважаємо повним рангом, тобто вважаємо, що простір стовпців є p-розмірним. Як ви пам'ятаєте,

Н=Х(ХТХ)-1Х

Можна показати, що діагональні елементи Н задовольняти 0<Нii<1, i=1,,н, це, до речі, є наслідком безсилля, і їх можна інтерпретувати як відстань від центрального простору провісника. Це правда, оскільки між важелями існує відповідність один на одинНiiі відстані в квадраті махаланобіса. Тоді спосіб виявити приховані екстраполяції - це побачити, наскільки нова одержимість лежить від центральної, правда? Це можна зробити, обчисливши новий елемент діагоналі. Згадуючи деякі основні правила множення матриць, ми маємо

Ннеш,неш=хнешТ(ХТХ)-1хнеш

Якщо Ннеш,нешнабагато більший, ніж решта діагональних елементів, то це говорить про те, що ваше нове спостереження лежить досить далеко від центрального і прогнозування, ймовірно, є ризикованим кроком. Потрібно певне рішення, щоб вирішити, наскільки велика вона занадто велика, тому, звичайно, техніка не є дурною. Його краса все-таки полягає в тому, що вона працює в усіх вимірах, коли ви не можете подивитися на простий сюжетний ділянку.

Я не впевнений, яке програмне забезпечення ви використовуєте, але майже всі вони повернуть матрицю капелюхів із правильною командою. Тому я пропоную вам поглянути ще до того, як скласти свою думку.


Молодці, Джонко, це дуже корисно. FYI Я використовую регресію Excel.
Джонсон Джейсон

9

Похибка прогнозування зростає квадратично з відстанню від середнього. Рівняння регресії та результати дозволяють оцінити розмір помилки за спостережуваним діапазоном даних, а модель адекватна лише для того ж діапазону.

Поза цим діапазоном може статися багато чого. По-перше, прогнозування стає гіршим і гіршим через збільшення похибки прогнозування.

По-друге, модель може повністю вийти з ладу. Найпростіший спосіб це спробувати спроектувати модель, що відповідає ціні часу: Ви не можете робити прогнози на негативний час.

По-третє, лінійні відносини можуть бути неадекватними. У вашому прикладі майже напевно є економія масштабу, яка стане дуже помітною, якщо спробувати передбачити далеко поза діапазоном спостережуваних значень.

Гумористичний приклад цього ж ефекту з’являється в одній із робіт Марка Твена , де він намагається моделювати довжину річки Міссісіпі з часом --- вона / була досить вітряною і скорочується / редагується щороку через ерозію деяких згинів, а також штучних скорочень --- і "пророкує", що через стільки років відстань між Каїром, Іллінойсом та Новим Орлеаном скоротиться приблизно до милі і трьох четвертей).

Нарешті, зауважте, що діапазон спостережуваних значень може бути досить складним, якщо у вас є більше однієї змінної предиктора. (Через кореляції між предикторами ви часто не можете просто взяти поле, визначене максимумами та мінімумами в кожному прогнокторі.)


1
(+1) Хоча сказати, що модель є адекватною лише для діапазону спостережуваних даних, це трохи сильно - це те, що описувані вами проблеми стають все більш і більше щодо того, чим далі ви їх отримуєте.
Scortchi

То чи існує якась робота навколо того, наскільки далеко є безпечна відстань, щоб відійти від спостережуваного діапазону даних? Менше 1 стандартного відхилення в порядку?
Джонсон Джейсон

1
@Scortchi. Точка взята. У більшості ситуацій деградація моделі поступова. Однак, зрідка мають жорсткі кордону, і намагаються вийти за межі тих , збирається заподіяти горе.
користувач3697176

1
@JohnsonJason: Немає сенсу шукати правило. Ви можете легко обчислити інтервали прогнозування, припускаючи, що ваша модель може бути екстраполірована; ступінь, на який можна довіряти екстраполяції, залежить від знань предмета: те, що є прийнятним, залежить від конкретного випадку.
Scortchi

1
Відмінні бали (+1). Але немає логічної проблеми в прогнозуванні ціни за негативний час. Справжня проблема полягає в тому, якщо ви прогнозуєте негативну ціну на певний час (як правило, раніше, на практиці). Часто це означає, що модель якісно помиляється настільки, що екстраполяція занадто далеко розтягує лінію (або криву). Наприклад, логарифмічна функція зв'язку завжди передбачає позитивні прогнози.
Нік Кокс

4

Ви не можете приймати рішення, керовані даними, для областей, де у вас немає даних. Кінець історії. Дані можуть дуже добре підтримувати лінійну форму, для діапазону якої збираються ваші дані, але у вас немає причин, що керуються даними, щоб вважати, що ця форма продовжує залишатися лінійною поза вашим діапазоном. Це може бути будь-яка форма під сонцем!

Ви можете припустити, що лінійна форма продовжується поза вашим діапазоном даних, але це суб'єктивне припущення, яке не підтримується зібраними вами даними. Я б запропонував проконсультуватися з експертом з питань тематики, щоб побачити, виходячи з їхніх експертних знань, наскільки безпечно це припущення.


2
Тож у чому сенс робити регресію, якщо ми не можемо передбачити Y для непоміченого X
Джонсон Джейсон

2
Я думаю, що справа в тому, що ви все ще можете передбачити всередині дальності, просто не бажано прогнозувати поза межами дальності. Імовірно, більшість нових точок даних знаходитиметься в межах діапазону, тому модель залишатиметься корисною переважну більшість часу
Ryan Zotti
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.