Різна термінологія пропонує різні умовності. Термін "залишковий" означає, що це те, що залишилося після того, як були враховані всі пояснювальні змінні, тобто фактично передбачені. "Помилка передбачення" означає, що саме на скільки прогноз відхиляється від фактичного, тобто фактичного прогнозування.
Концепція моделювання також впливає на те, яка конвенція є більш природною. Припустимо, у вас є фрейм даних з одним або кількома стовпцями функцій , стовпцем відповідей та стовпцем прогнозу .X=x1,x2...yy^
Одна концепція в тому , що є «реальним» значення, а просто трансформована версія . У цьому понятті і є випадковими змінними ( є похідною). Хоча нас цікавить нас, - це той, кого ми можемо спостерігати, тому використовується як проксі для . "Помилка" - це на скільки відхиляється від цього "справжнього" значення . Це дозволяє визначити помилку як наступну напрямку цього відхилення, тобто .у X у у у уyy^Xyy^y^yy^y^yy^ye=y^−y
Однак є ще одна концепція, яка вважає "справжнім" значенням. Тобто, y залежить від через деякий детермінований процес; конкретний стан породжує певну детерміновану цінність. Це значення потім обурюється деяким випадковим процесом. Отже, маємо . У цій концепції - "справжнє" значення y. Наприклад, припустимо, що ви намагаєтеся обчислити значення g, прискорення за рахунок сили тяжіння. Ви кидаєте купу предметів, вимірюєте, як далеко вони впали ( ) і скільки часу знадобилося їм впасти ( ). Потім ви аналізуєте дані за допомогою моделі y =y^XXx→f(X)→f(X)+error()y^Xy2xg−−√. Ви виявляєте, що немає значення g, яке змушує точно працювати це рівняння. Тож ви потім моделюєте це як
y^=2xg−−√
y=y^+error .
Тобто ви берете змінну y і вважаєте, що існує "справжнє" значення яке фактично породжується фізичними законами, а потім якесь інше значення яке модифікується чимось незалежним від , наприклад похибки вимірювання або пориви вітру чи що завгодно.y^yy^X
У цій концепції ви берете y = як те, що реальність повинна "робити", і якщо ви отримаєте відповіді, які не згодні з цим, ну реальність отримала неправильну відповідь. Зараз, звичайно, це може здатися досить нерозумним і зарозумілим, якщо ставитись таким чином, але є вагомі причини для продовження цього задуму, і це може бути корисно думати таким чином. І зрештою, це просто модель; Статистики не обов'язково думають, що насправді це працює світ (хоча, мабуть, є і такі, хто це робить). А з огляду на рівняння , випливає, що помилки фактичні мінус прогнозовані.2xg−−√y=y^+error
Також зауважте, що якщо вам не подобається аспект другого поняття "реальність зрозумів неправильно", ви можете розглядати це як "Ми визначили деякий процес f, через який y залежить від , але ми не отримуємо точно відповіді правильні, тому має бути якийсь інший процес g, який також впливає на y ". У цій варіаціїX
у= у +г(?)Г=у - уy^=f(X)
y=y^+g(?)
g=y−y^ .