Я читав лінійні моделі підручника Faraway з R (1-е видання) минулих вихідних. Далекий розділ мав назву "Статистична стратегія та невизначеність моделі". Він описав (стр 158) , що він штучно створений деякі дані , використовуючи дуже складну модель, то він попросив своїх студентів моделювати дані і порівняти студентів передбачені результати проти читання результатів. На жаль, більшість студентів перевиконали дані тестування і дали прогнозовані значення повністю від меж. Щоб пояснити це явище, він написав мені щось дуже вражаюче:
"Причина, чому моделі були настільки різними, полягала в тому, що студенти застосовували різні методи в різних порядках. Одні робили змінний вибір до трансформації, а інші - зворотний. Деякі повторювали метод після зміни моделі, а інші - ні. Я перебирав стратегії що декілька студентів використовували і не могли знайти щось явно не так у тому, що вони зробили. Один студент допустив помилку в обчисленні своїх передбачуваних значень, але в решті нічого очевидного не було. Виконання цього завдання не показало будь-які стосунки з цим на іспитах ".
Мене просвітили, що точність прогнозування моделі є «золотим критерієм» для нас, щоб вибрати найкращу ефективність моделі. Якщо я не помиляюсь, це також популярний метод, який застосовують у змаганнях з Kaggle. Але тут Фаравей зауважив щось інше, що результативність прогнозування моделі не може мати нічого спільногозі здатністю статистичного учасника. Іншими словами, чи можемо ми побудувати найкращу модель з точки зору прогнозованої сили, насправді не визначається тим, наскільки ми досвідчені. Натомість це визначається величезною «модельною невизначеністю» (сліпа удача?). Моє запитання: чи це правда і в аналізі даних реального життя? Або мене плутали з чимось дуже базовим? Тому що якщо це правда, то значення для реального аналізу даних є величезним: не знаючи "реальної моделі" за даними, немає суттєвої різниці між роботою, виконаною досвідченими / недосвідченими статистиками: обидва - просто дикі здогадки перед наявні дані про навчання.