Яке статистичне обґрунтування інтерполяції?


16

Припустимо, що у нас є дві точки (наступна фігура: чорні кола), і ми хочемо знайти значення для третьої точки між ними (хрест). Дійсно, ми будемо оцінювати це на основі наших експериментальних результатів, чорних точок. Найпростіший випадок - намалювати лінію, а потім знайти значення (тобто лінійна інтерполяція). Якщо у нас були опорні точки, наприклад, як коричневі точки в обидві сторони, ми вважаємо за краще отримувати від них користь і підходити до нелінійної кривої (зелена крива).

Питання в тому, що таке статистичне обґрунтування для позначення Червоного хреста як рішення? Чому інші хрести (наприклад, жовті) - це не відповіді, де вони могли бути? Який умовивід чи (?) Підштовхує нас до прийняття червоного?

Я буду розробляти своє оригінальне запитання на основі відповідей на це дуже просте запитання.

введіть тут опис зображення


7
Це дуже добре поставлене та цікаве питання. Ви можете розрізнити інтерполяцію часових рядів та інші форми інтерполяції (наприклад, сплайнування чи просторову інтерполяцію) через властиву часовій послідовності спрямованість.
whuber

1
Моя вдячність іде до цього дуже мотиваційного коментаря.
Розробник

Відповіді:


14

Будь-яка форма функціонування, навіть непараметрична (яка, як правило, припускає гладкість кривої), передбачає припущення, а отже, і стрибок віри.

Стародавнє рішення лінійної інтерполяції - це те, що "просто працює", коли ваші дані є "дрібнозернистими" досить "(якщо ви дивитесь на коло досить близько, воно також виглядає рівним - просто запитайте Колумба), і це було можливо навіть до епохи комп'ютера (що не стосується багатьох сучасних сплайн-рішень). Є сенс припустити віру, що функція буде "продовжуватися в тій же (тобто лінійній) матерії" між двома точками, але немає апріорних підстав для цього ( за винятком знання про поняття , під руку).

Коли у вас є три (або більше) неколінеарних точок (наприклад, коли ви додаєте коричневі точки вище), стає зрозуміло, що лінійна інтерполяція між ними незабаром залучатиме гострі кути в кожному з них, що, як правило, небажано. Саме тут вступають інші варіанти.

Однак без подальших доменних знань, не можна з впевненістю стверджувати, що одне рішення краще, ніж інше (для цього вам слід було б знати, яке значення мають інші точки, перемагаючи мету пристосування функції до першість).

Зі свого боку, і, можливо, більше стосується вашого питання, під "умовами регулярності" (читайте: припущення : якщо ми знаємо, що функція є, наприклад, гладкою), і лінійна інтерполяція, і інші популярні рішення можуть бути доведені як "розумні". наближення. І все-таки: для цього потрібні припущення, і для них ми зазвичай не маємо статистики.


Це хороша відповідь, і мій кандидат повинен бути відзначений як відповідь. Я зрозумів, що статистичного обґрунтування такого загального вибору немає, правда?
Розробник

Дійсно, я вірю, що немає ні одного, ні.
Нік Саббе

2
Деяка література (за участю змагань з інтерполяції зразків відомих наборів даних) частково підтверджує цю відповідь, але не повністю. Про просторове співвідношення даних можна дізнатися багато лише за допомогою статистичного аналізу даних без будь-яких «умов регулярності». Потрібна модель даних як зразок однієї реалізації стохастичного процесу разом із (1) ергодичною гіпотезою та (у більшості випадків) (2) деяким припущенням про стаціонарність. У цьому рамках інтерполяція стає передбаченням очікування, але допускаються навіть нерівнозначні криві.
whuber

1
@whuber: Я тут виходжу з зони комфорту, але все після "умов регулярності" у вашому коментарі звучить як досить солідна кількість припущень (стаціонарність, швидше за все, може відповідати умові регулярності, ні?). Насправді, я думаю, це буде залежати від того, чи великий розмір вашого зразка щодо нерівностей у функціональній формі ... Чи можете ви навести посилання на документ або подібне, коли це не так?
Нік Саббе

2
Ти не можеш нічого зробити без припущень, Нік! Але регулярність (наприклад, плавність функції) не потрібна: вона може бути виведена з даних, принаймні, за шкалою, в якій функція відбирається. (Стаціонарність - це набагато м'якіше припущення, ніж гладкість.) Ви вірні, що потрібні великі зразки, але багато чого можна дізнатись у 2D, навіть із 30-50 добре обраними місцями вибірки. Література велика; Наприклад, цьому присвячена більшість питань математичної геології . Детальний вступ див. У просторовій статистиці
whuber

0

Ви можете опрацювати лінійне рівняння для лінії, що найкраще підходить (наприклад, y = 0,4554x + 0,7525), однак це спрацювало б лише за наявності міченої осі. Однак це не дасть точної відповіді лише найкращому, що відповідає одному відносно інших моментів.


Але регресія - це не інтерполяція .
Scortchi

1
@Scortchi Я вважаю, що регресію можна зрозуміти як інтерполяцію. Однак пропонування регресії як рішення не дає відповіді на питання, яке вимагає від нас пояснити, чому будь-яка інтерполяція є виправданою (і неявно пропонує нам описати припущення, необхідні для її обгрунтування).
whuber

@whuber: Дякую Я думав про інтерполяцію, принаймні, прототипно, як про приєднання точок - stats.stackexchange.com/a/33662/17230 .
Scortchi

@Scortchi Цей потік стосується насамперед математичної концепції інтерполяції в таблиці. У коментарі до свого питання я вказав на звичайне статистичне розуміння інтерполяції, яке тонко відрізняється. Регресія працює в обох світах: функція регресії може слугувати як математичним інтерполятором (для чітко визначеної функції, вибіреної в таблиці), так і статистичним інтерполятором (за допомогою статистичних прогнозів значень стохастичного процесу, що обумовлюються кінцева кількість значень, отриманих в результаті цього процесу).
whuber

1
nn
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.