Остерігайтеся надягання . Більш точна модель зібраних даних із системи може не бути кращим прогнозом майбутньої поведінки системи.
На наведеному вище зображенні показані дві моделі деяких даних.
Лінійна лінія дещо точна на даних тренувань (точки на графіку), і (можна було б очікувати) буде дещо точною щодо даних тестування (де бали, ймовірно, будуть для x <5 та x> -5 ).
Навпаки, поліном на 100% точний для даних тренувань, але (якщо ви не маєте жодних підстав вважати, що поліном 9-го ступеня з якоїсь фізичної причини є розумним), ви припускаєте, що це буде вкрай поганим провісником для x> 5 і х <-5.
Лінійна модель "менш точна", заснована на будь-якому порівнянні помилок із зібраними нами даними. Але це більш загальне.
Крім того, інженерам доводиться менше турбуватися про свою модель і більше про те, що люди будуть робити з цією моделлю.
Якщо я скажу вам, що ми ходимо на прогулянку спекотним днем і очікується, що це триватиме 426 хвилин. Ви, ймовірно, принесуть менше води, ніж якщо я скажу, що прогулянка триватиме 7 годин, а ще менше, ніж якщо я скажу, що прогулянка триватиме 4-8 годин. Це тому, що ви відповідаєте на мій загальний рівень впевненості в моєму прогнозі, а не на середину моїх заявлених часів.
Якщо ви дасте людям точну модель, люди зменшать свою помилку. Це призводить до більших ризиків.
Приміром прогулянки на спекотний день, якщо я знаю, що прогулянка триватиме 4-8 годин у 95% випадків, з певною невизначеністю щодо навігації та швидкості ходьби. Ідеально знаючи нашу швидкість ходьби, зменшиться невизначеність 4-8 фігур, але це не вплине суттєво на "шанс у нас зайняти стільки часу, що вода стане проблемою", оскільки це майже повністю керується невизначеною навігацією, а не невизначена швидкість ходьби.