Щоб додати візуальне пояснення до цього: розглянемо кілька моментів, які ви плануєте моделювати.
Вони схожі на те, що їх можна було б добре описати прямою лінією, тому ви підходите до лінійної регресії до них:
Ця лінія регресії дозволяє як інтерполювати (генерувати очікувані значення між точками даних), так і екстраполювати (генерувати очікувані значення за межами діапазону точок даних). Я виділив екстраполяцію червоним кольором і найбільшу область інтерполяції синім кольором. Щоб було зрозуміло, навіть крихітні регіони між точками є інтерпольованими, але тут я лише виділяю велике.
Чому екстраполяція взагалі викликає занепокоєння? Тому що ви зазвичай набагато менш впевнені у формі взаємозв'язку поза діапазоном даних. Поміркуйте, що може статися, коли ви збираєте ще кілька точок даних (порожніх кіл):
Виявляється, зрештою, стосунки не були добре узгоджені з вашими гіпотезованими відносинами. Прогнози в екстрапольованій області не вдається. Навіть якщо ви здогадалися про точну функцію, яка правильно описує це нелінійне співвідношення, ваші дані не поширюються на достатній діапазон, щоб добре засвоїти нелінійність, тож, можливо, ви все ще були досить далеко. Зауважте, що це проблема не лише для лінійної регресії, а для будь-яких взаємин - саме тому екстраполяція вважається небезпечною.
Прогнози в інтерпольованій області також є невірними через відсутність нелінійності придатності, але їх похибка прогнозування значно нижча. Немає гарантії, що у вас не виникне несподіване відношення між точками (тобто область інтерполяції), але це, як правило, менш вірогідно.
Додам, що екстраполяція - це не завжди страшна ідея - якщо ви екстраполюєте крихітний шматочок поза діапазоном своїх даних, ви, мабуть, не дуже помилитесь (хоча це можливо!). Древні, які не мали гарної наукової моделі світу, не помилилися б, якби прогнозували, що Сонце знову встане на наступний день і на наступний день (хоча одного дня далеко в майбутнє, навіть це не вийде).
2
Редагувати на основі коментарів: будь то інтерполяція чи екстраполяція, завжди краще мати якусь теорію, щоб обґрунтувати очікування. Якщо теорія вільного моделювання повинно бути зроблено, ризик від інтерполяції зазвичай менше , ніж екстраполяція. Однак, оскільки розрив між точками даних збільшується в масштабі, інтерполяція також все більше загрожує ризиком.