Що не так з екстраполяцією?


68

Я пам’ятаю, як сидіти на курсах статистики як недооцінене слухання того, чому екстраполяція була поганою ідеєю. Крім того, в Інтернеті є безліч джерел, які коментують це. Там також згадка про нього тут .

Хтось може допомогти мені зрозуміти, чому екстраполяція - це погана ідея? Якщо це так, то як це, що методи прогнозування не є статистично недійсними?


3
@Firebug Марку Твен було про що сказати. Відповідний уривок цитується наприкінці моєї відповіді на сайті stats.stackexchange.com/a/24649/919 .
whuber

1
@whuber Я думаю, що зараз це не зовсім екстраполяція. Скажімо, ми належним чином тренуємо та затверджуємо алгоритм для прогнозування даних на тиждень у цій функції. Виконуючи правильне перекомпонування (і налаштування, якщо є налаштування гіперпараметрів), я не можу зрозуміти, що не так, якщо це, у вас є відповідь, і ви також повинні знати впевненість у цій відповіді. Тепер, якщо ви тренуєте свій алгоритм протягом тижня до тижня, ви не можете розраховувати на точний прогноз одного року в майбутньому. Вибачте за можливу плутанину.
Firebug

7
@Firebug Не потрібно вибачатися - ваші зауваження містять корисну уточнюючу інформацію. Коли я їх читаю, вони припускають, що "екстраполат" може мати різні інтерпретації в умовах прогнозування. Одне полягає в тому, що воно передбачає "екстраполяцію" часу. Але коли ви дивитесь на стандартні моделі часових рядів, особливо ті, де час не є явним коваріатом, вони прогнозують майбутні значення з точки зору попередніх значень . Коли ці попередні значення залишаються в діапазоні попередніх попередніх значень, модель взагалі не здійснює екстраполяції! У цьому може полягати резолюція очевидного парадоксу.
whuber


2
Я розчарований тим, скільки часу пройшло обов'язкове поява xkcd
Duncan X Simpson,

Відповіді:


89

Для екстраполяції часто використовується регресійна модель, тобто прогнозування реакції на вхід, який лежить поза діапазоном значень змінної прогноктора, що використовується для підходу до моделі. Небезпека, пов'язана з екстраполяцією, проілюстрована на наступному малюнку. графік, що показує екстрапольовану лінію, що продовжується вгору, де значення "справжнє" зменшується

Модель регресії є інтерполяційною моделлю "за побудовою" і не повинна використовуватися для екстраполяції, якщо це не обгрунтовано належним чином.


1
Це жахливий приклад проти екстраполяції. Пряма регресна лінія підходить до точок даних набагато краще, ніж ваша кривава справжня функція.
horaceT

9
"Пряма регресна лінія відповідає тонкам даних набагато краще, ніж ваша крива істинна функція" Це твердження хибне. RSS для функції справжньої регресії менше, ніж RSS для простої регресійної лінії,
Костія,

Точка прийнята, і ви можете (повинні) мати рацію. Але судячи з сукупності очок, немає жодного способу зробити висновок про справжню функцію.
horaceT

27
Саме так. І тому екстраполяція може бути поганою ідеєю.
Костя

"Модель регресії - це" побудова "інтерполяційна модель" -> Я думаю, ми можемо мати точно таку ж проблему з інтерполяцією (навіть якщо це рідше станеться)
Менаріат

88

Цей комікс xkcd це все пояснює.

xkcd комічний

Використовуючи дані пунктів Cueball (чоловік з палицею), він екстраполював, що жінка матиме "чотири десятки" чоловіків до кінця наступного місяця, і використав цю екстраполяцію, щоб привести до висновку про купівлю весільного торта оптом.

Редагування 3: Для тих, хто каже, що "у нього недостатньо точок даних", ось ще один комікс xkcd :

xkcd комічний

Тут використання слова "стійкий" у часі відображається на напівлеговій графіці, і, екстраполюючи точки даних, ми отримуємо необґрунтовані оцінки того, як часто слово "стійкий" буде виникати в майбутньому.

Редагувати 2: Для тих, хто каже, що "вам потрібні і всі минулі точки даних", ще один комікс xkcd: xkcd комічний

Тут у нас є всі минулі точки даних, але ми не можемо точно передбачити дозвіл Google Планета Земля. Зауважте, що це і графік напівлінійного журналу.

Редагувати: Іноді навіть найсильніші кореляції (r = .9979 в даному випадку) просто неправильні.


Якщо ви екстраполюєте без інших підтверджуючих доказів, ви також порушуєте кореляцію, це не означає причинного зв'язку ; ще один великий гріх у світі статистики.

Однак, якщо ви робите екстраполяцію X з Y, ви повинні переконатися, що зможете точно (достатньо задовольнити ваші вимоги) передбачити X лише з Y. Практично завжди є кілька факторів, ніж вплив X.

Я хотів би поділитися посиланням на іншу відповідь, яка пояснює це словами Насима Миколи Талеба.


14
xkcd має жарт про всі можливі проблеми з математикою / статистикою, з якими можна зіткнутися, чи не так?
Андер Бігурі

24
Ця ідея також може бути використана як аргумент проти інтерполяції: "минулої ночі у вас було 0,5 чоловіка".
JiK

3
@JiK Якщо все, що ви знаєте, це те, що у неї зараз є, а два дні тому у неї не було жодного, це не погана оцінка ;-)
Денніс Джахеруддін

9
Сталий стійкий Сталий Сталий Сталий Сталий Сталий Сталий Сталий. en.wikipedia.org/wiki/…
Мені Розенфельд,

1
більше xkcd, люди!
noɥʇʎԀʎzɐɹƆ

24

"Прогнозувати дуже складно, особливо якщо мова йде про майбутнє". Цитата приписується багатьом людям у якійсь формі . У наступній "екстраполяції" я обмежуюсь "передбаченням поза відомим діапазоном", а в одновимірній установці - екстраполяцією від відомого минулого до невідомого майбутнього.

То що не так з екстраполяцією. По-перше, моделювати минуле непросто . По-друге, важко знати, чи можна використовувати модель з минулого для майбутнього . За обома твердженнями стоять глибокі питання щодо причинності чи ергодичності, достатності пояснювальних змінних тощо, що залежать від обставин. Що не так - те, що важко вибрати єдину схему екстраполяції, яка добре працює в різних умовах, без зайвої інформації.

х

Квартет Anscombe

Однак прогнозування може бути виправлено певною мірою. Додаючи до інших відповідей, пара інгредієнтів може допомогти практичній екстраполяції:

  1. нpfp(н)pн
  2. Можна використовувати кілька моделей екстраполяції та комбінувати їх або вибрати найкращі ( Об'єднання прогнозів , Дж. Скотт Армстронг, 2001). Останнім часом було проведено ряд робіт щодо їх оптимального поєднання (я можу надати посилання, якщо це потрібно).

Нещодавно я брав участь у проекті екстраполяції значень для зв'язку підсистем імітації в режимі реального часу. Догмою цієї галузі було те, що екстраполяція може спричинити нестабільність. Ми фактично зрозуміли, що поєднання двох вищезазначених інгредієнтів було дуже ефективним, без помітної нестабільності (без офіційного підтвердження поки що, і на даний момент переглядається ). А екстраполяція працювала з простими поліномами, з дуже низьким обчислювальним навантаженням, більшість операцій були заздалегідь обчислені та збережені в оглядових таблицях.

Нарешті, оскільки екстраполяція пропонує смішний малюнок, наступним є ефект відхилення лінійної регресії:

Весело з коханням та лінійною регресією


+1 Приємна відповідь. За даними цього веб-сайту, схоже, Бор сказав це. Здається, більш імовірно, що це нечасте, але загальне датське прислів’я.
usεr11852

@ usεr11852 Навряд чи він "коли-небудь це сказав"? Ось чому я сказав «приписується», чи варто бути обережнішим?
Лоран Дюваль

2
Я ніколи не говорив, що колись . Я зробив цей коментар, тому що, враховуючи, що ця приказка здається набагато більш імовірною датською прислів’ям, віднесення її до певної (надзвичайно емблематичної) датчанини здається трохи надмірною виставленням рахунків - особливо зважаючи на те, що в Борі немає жодних записів. Оригінальним автором може бути неназваний рибалка, коментуючи завтрашній вилов! Я вболіваю за маленького хлопця тут! : D
usεr11852

2
Дуже важко моделювати минулі легенди цитат.
Лоран Дюваль

3
Звичайно, питання використовує обидва слова: вся справа в тому, чи "прогнозування" слід вважати формою "екстраполяції". Відповідно до ваших вступних коментарів, ви, схоже, визначаєте екстраполяцію як використання минулого для "моделювання майбутнього". Поки ви не запропонуєте чітких і чітких визначень кожного, ваша відповідь може бути неправильно зрозуміла.
whuber

17

Хоча відповідність моделі може бути " хорошою ", до екстраполяції поза діапазоном даних слід ставитися скептично. Причина полягає в тому, що в багатьох випадках екстраполяція (на жаль і неминуче) покладається на непереборні припущення щодо поведінки даних за межами їх спостережуваної підтримки.

хоут

Додатковим застереженням є те, що багато непараметричних методів оцінки не дозволяють проводити екстраполяцію. Ця проблема особливо помітна у випадку згладжування шпонки, коли немає більше вузлів для закріплення встановленого шпона.

Дозвольте наголосити, що екстраполяція - це далеко не зло. Наприклад, чисельні методи, широко використовувані в статистиці (наприклад , процес дельта-квадрату Ейткена та екстраполяція Річардсона ), по суті, є схемами екстраполяції, заснованими на ідеї, що основна поведінка функції, що аналізується для спостережуваних даних, залишається стабільною на всій підтримці функції.


εΔ2

15

Всупереч іншим відповідям, я б сказав, що в екстраполяції немає нічого поганого, оскільки це не використовується бездумним способом. По-перше, зауважте, що екстраполяція :

процес оцінки, поза вихідним діапазоном спостереження, значення змінної на основі її зв’язку з іншою змінною.

... так що це дуже широкий термін і багато різних методів, починаючи від простої лінійної екстраполяції , до лінійної регресії, поліноміальної регресії або навіть деяких передових методів прогнозування часових рядів, відповідають такому визначенню. Насправді екстраполяція, прогнозування та прогноз тісно пов'язані. У статистиці ми часто робимо прогнози та прогнози . Про це також говорить посилання, на яке ви посилаєтесь:

Нас з першого дня статистики нас вчать, що екстраполяція - це велика ні-ні, але саме це прогноз.

Багато методів екстраполяції використовуються для прогнозування, крім того, часто деякі прості методи досить добре працюють з невеликими зразками, тому можна віддати перевагу, ніж складні. Проблема полягає в тому, як помічено в інших відповідях, коли ви використовуєте метод екстраполяції неналежним чином.

Наприклад, багато досліджень показують, що вік сексуального посвячення зменшується з часом у західних країнах. Подивіться сюжет нижче про вік першого статевого акту в США. Якщо ми сліпо використовували лінійну регресію для прогнозування віку першого статевого акту, ми б прогнозували, що вона піде нижче нуля через деяку кількість років (відповідно, перший шлюб і перші пологи трапляються через деякий час після смерті) ... Однак, якщо вам потрібно було зробити прогноз на один рік вперед, тоді я б здогадався, що лінійна регресія призведе до досить точних короткотермінових прогнозів тенденції.

введіть тут опис зображення

(джерело guttmacher.org )

Усі моделі помиляються , а також екстраполяція є помилковою, оскільки вона не дасть змоги робити точні прогнози. Як і інші математичні / статистичні засоби, вони дозволять зробити приблизні прогнози. Ступінь того, наскільки вони будуть точними, залежить від якості ваших даних, використовуючи методи, адекватні вашій проблемі, від припущень, які ви зробили під час визначення вашої моделі та багатьох інших факторів. Але це не означає, що ми не можемо використовувати такі методи. Ми можемо, але нам потрібно пам’ятати про їх обмеження і слід оцінювати їх якість для даної проблеми.


4
Коли дані, які ви використовуєте для регресії, закінчуються на початку 1980-х, ви, ймовірно, можете легко перевірити, наскільки довго працюватиме екстраполяція.
Герріт

@gerrit Я згоден, але, на жаль, мені не вдалося знайти відповідні дані. Але якщо хтось міг би це вказати на мене, я би радий оновити свою відповідь для такого порівняння.
Тім

У цьому випадку екстраполяція провалюється, враховуючи, що вік першого сексу за останні кілька років стрибнув. (Але дані для цього завжди відстають на рік народження на пару десятків років з причин, які повинні бути очевидними.)
Девід Манхейм

13

Мені дуже подобається приклад Нассіма Талеба (який був адаптацією попереднього прикладу Бертран Рассела):

Розглянемо індичку, яку годують щодня. Кожне годування посилює переконання птахів, що загальним правилом життя є щодня годувати доброзичливих членів людського роду, "шукаючи своїх найкращих інтересів", як би сказав політик. Вдень в середу перед Днем подяки з індичкою трапиться щось несподіване. Це призведе до перегляду віри.

Деякі математичні аналоги наступні:

  • знання перших кількох коефіцієнтів Тейлора функції не завжди гарантує, що наступні коефіцієнти будуть відповідати вашій припущенній схемі.

  • знання початкових умов диференціального рівняння не завжди гарантує знання його асимптотичної поведінки (наприклад, рівняння Лоренца, іноді спотворені на так званий "ефект метелика")

Ось приємна тема MO з цього питання.


3
... і звичайно, Талеб повинен вказати на моральний урок: "не будь індик"! У цьому контексті: не будьте недбайливим екстраполятором і не піддавайтеся гріху хабрісу.
JM не є статистиком

@ uoɥʇʎPʎzɐɹC, я не просив цього, але дякую!
JM не є статистиком

насправді не використовуйте для перехресної репутації - і ніхто не побачив вашої відповіді, і це було дуже добре. Насолоджуйтесь!
noɥʇʎԀʎzɐɹƆ

12

Поміркуйте над наступною історією, якщо хочете.

Я також пам’ятаю, що сидів на курсі статистики, і професор сказав нам, що екстраполяція була поганою ідеєю. Потім під час наступного заняття він сказав нам, що це була погана ідея; насправді він сказав це двічі.

Я був хворий до кінця семестру, але я був впевнений, що не міг пропустити багато матеріалу, тому що до останнього тижня хлопець, напевно, не робив нічого, крім того, щоб знову і знову розповідати людям, як екстраполяція була поганою ідеєю .

Як не дивно, я на іспиті не набрав дуже високої оцінки.


6
Питання задає "що не так з екстраполяцією?". Ми шукаємо відповіді, які дають причини, чому екстраполяція може бути поганою ідеєю.
Роберт Лонг

8
@RobertLong: Це насправді своєрідна відповідь на мета / жарт і дуже схожа на xkcd.com/605 - все ж, можливо, краще як коментар, ніж відповідь.
Ніл Слейтер

@NeilSlater: Ви мали б розмістити свій коментар як відповідь ... :)
usεr11852

@RobertLong: Це така відповідь. Він просто має форму притчі.
einpoklum

2
Не ясно, що ваша модель експоненціальна.
gerrit

6

Питання не лише статистичне, це ще й гносеологічне. Екстраполяція - це один із способів дізнатися про природу, це форма індукції . Скажімо, у нас є дані про електропровідність матеріалу в інтервалі температур від 0 до 20 Цельсія, що можна сказати про електропровідність при 40 градусах Цельсія?

Це тісно пов'язане з невеликим висновком вибірки: що можна сказати про всю сукупність, проведену в результаті вимірювань, проведених на малій вибірці? Це розпочало Gosset як Гінес , який придумав т-дистрибуції Student. Перед ним статистики не намагалися думати про невеликі вибірки, припускаючи, що розмір вибірки завжди може бути великим. Він був у Гіннеса і мусив розібратися зі зразками пива, щоб вирішити, що робити з усією партією пива, що доставляється.

Тож у практиці (бізнесі), інженерії та науці нам завжди доводиться деяким чином екстраполювати. Це може бути екстраполяція невеликих зразків до великих, або від обмеженого діапазону умов введення до більш широкого набору умов, від того, що відбувається в прискорювачі, до того, що сталося з чорною дірою в мільярдах миль і т. Д. Це особливо важливо в науці, хоча , як ми дійсно дізнаємось, вивчаючи розбіжності між нашими оцінками екстраполяції та фактичними вимірюваннями. Часто ми зустрічаємо нові явища, коли розбіжності великі чи послідовні.

отже, я кажу, що немає проблеми з екстраполяцією. Це те, що ми повинні робити щодня. Це просто важко.


4

Екстраполяція сама по собі не обов'язково є злом, але це процес, який піддається висновкам, які є більш необґрунтованими, ніж ви доходите до інтерполяції.

  • Екстраполяцію часто проводять для дослідження значень, досить віддалених від вибіркової області. Якщо я відбираю 100 значень від 0-10, а потім екстраполюю лише трохи, лише до 11, моя нова точка, ймовірно, в 10 разів далі від будь-якої точки даних, ніж будь-яка інтерполяція могла отримати. Це означає, що існує набагато більше місця для змінної (якісно). Зауважте, що я навмисно обрав лише незначну екстраполяцію. Це може стати набагато гірше
  • Екстраполяція повинна бути виконана за допомогою кривих пристосувань, які були призначені для проведення екстраполяції. Наприклад, багато поліноміальних пристосувань дуже погані для екстраполяції, оскільки терміни, які добре поводяться у вибірковому діапазоні, можуть вибухнути, як тільки ви його залишите. Хороша екстраполяція залежить від "хорошої здогадки" щодо того, що відбувається за межами вибіркової області. Що приводить мене до ...
  • Часто надзвичайно важко використовувати екстраполяцію через наявність фазових переходів. Багато процесів, на які можна було б екстраполювати, мають, очевидно, нелінійні властивості, які недостатньо піддаються впливу вибіркової області. Аеронавтика навколо швидкості звуку - відмінний приклад. Багато екстраполяцій із низьких швидкостей розпадаються, коли ви досягаєте та перевищуєте швидкість передачі інформації у повітрі. Це також трапляється досить часто з м'якими науками, коли сама політика може впливати на успіх політики. Кейнсіанська економіка екстраполювала, як поводитиметься економіка з різним рівнем інфляції, і передбачила найкращий можливий результат. На жаль, були наслідки другого порядку, і результат був не економічним процвітанням, а скоріше деякими з найвищих темпів інфляції, які спостерігали США.
  • Людям подобаються екстраполяції. Взагалі кажучи, люди дуже хочуть, щоб хтось зазирнув у кришталеву кулю і розповів їм майбутнє. Вони приймуть напрочуд погані екстраполяції просто тому, що це вся інформація, яку вони мають. Це само по собі не може зробити екстраполяцію поганою, але це, безумовно, те, що варто враховувати при її використанні.

Для завершення в екстраполяції розглянемо проект Манхеттена. Фізики там, де змушені працювати з надзвичайно малими масштабними тестами, перш ніж побудувати реальну річ. Їм просто не вистачало урану, щоб витрачати їх на тести. Вони робили все, що могли, і були розумні. Однак, коли відбулося остаточне випробування, було вирішено, що кожен вчений вирішить, наскільки далеко від вибуху, яким вони хотіли бути, коли він зайшов. Існували суттєві відмінності думок щодо того, наскільки далеко "безпечно", оскільки всі вчені знали, що вони екстраполюють досить далеко від своїх тестів. Була навіть нетривіальна думка про те, що вони можуть підпалити атмосферу з ядерною бомбою, питання також зупинилося на значній екстраполяції!


3

Тут багато хороших відповідей, я просто хочу спробувати і синтезувати те, що я бачу як серцевину проблеми: небезпечно екстраполювати за межами того процесу генерації даних, який дав підставу для вибірки оцінок. Іноді це називається "структурною зміною".

Прогнозування припускається з припущеннями, головне з яких полягає в тому, що процес генерації даних (настільки ж, наскільки не має значної різниці) такий же, як той, який створив вибірку (за винятком змінних rhs, зміни яких ви чітко враховуєте в моделі) . Якщо відбудеться структурна зміна (тобто День подяки на прикладі Талеба), усі ставки знімаються.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.