Чи прогноз є «золотим критерієм» для судження про здатність статистиків?


13

Я читав лінійні моделі підручника Faraway з R (1-е видання) минулих вихідних. Далекий розділ мав назву "Статистична стратегія та невизначеність моделі". Він описав (стр 158) , що він штучно створений деякі дані , використовуючи дуже складну модель, то він попросив своїх студентів моделювати дані і порівняти студентів передбачені результати проти читання результатів. На жаль, більшість студентів перевиконали дані тестування і дали прогнозовані значення повністю від меж. Щоб пояснити це явище, він написав мені щось дуже вражаюче:

"Причина, чому моделі були настільки різними, полягала в тому, що студенти застосовували різні методи в різних порядках. Одні робили змінний вибір до трансформації, а інші - зворотний. Деякі повторювали метод після зміни моделі, а інші - ні. Я перебирав стратегії що декілька студентів використовували і не могли знайти щось явно не так у тому, що вони зробили. Один студент допустив помилку в обчисленні своїх передбачуваних значень, але в решті нічого очевидного не було. Виконання цього завдання не показало будь-які стосунки з цим на іспитах ".

Мене просвітили, що точність прогнозування моделі є «золотим критерієм» для нас, щоб вибрати найкращу ефективність моделі. Якщо я не помиляюсь, це також популярний метод, який застосовують у змаганнях з Kaggle. Але тут Фаравей зауважив щось інше, що результативність прогнозування моделі не може мати нічого спільногозі здатністю статистичного учасника. Іншими словами, чи можемо ми побудувати найкращу модель з точки зору прогнозованої сили, насправді не визначається тим, наскільки ми досвідчені. Натомість це визначається величезною «модельною невизначеністю» (сліпа удача?). Моє запитання: чи це правда і в аналізі даних реального життя? Або мене плутали з чимось дуже базовим? Тому що якщо це правда, то значення для реального аналізу даних є величезним: не знаючи "реальної моделі" за даними, немає суттєвої різниці між роботою, виконаною досвідченими / недосвідченими статистиками: обидва - просто дикі здогадки перед наявні дані про навчання.


2
+1 приємне запитання. Якщо запропонувати інший кут, скажімо, один з аналітиків знає справжній режим - тоді її прогнози можуть бути і поганими! Тож навіть знаючи реальну модель, ви побачили це. Важливим може бути спостереження Хаггерті та Срівінасанса 1991 року в Психометріці, що "практика [...] робити висновок про те, що модель з більш високою точністю прогнозування є" справжнішою ", не є коректним висновком".
Момо

1
Я ще не переглянув книгу, але "зміна вибору" та "перетворення" вже дзвонять попереджувальними дзвонами. Дивіться Алгоритми автоматичного вибору моделі та характер взаємозв'язку між прогнозами та залежними в регресії . Я також не хотів би пов'язувати результати іспитів студентів-статистиків із можливостями статистики.
Scortchi

2
Ця інформація, надана Фаравеєм, здається надзвичайно анекдотичною, тому вона може бути використана як основа для широкого загального принципу щодо галузі статистики. Я не хотів би будувати модель про прогнозне моделювання на основі таких невідтворюваних прикладів. Можливо також, що вони були, дотепно чи ні, вишневими.
rolando2

3
Одним з логічно обґрунтованих висновків, який може бути зроблений з цього анекдоту, є те, що жоден із студентів Фаравея не мав (поки) набутих навичок, необхідних для успішного виконання його тестування передбачення. Важко встановити будь-який зв’язок між цим результатом та вашими міркуваннями щодо того, як можуть працювати досвідчені статистики.
whuber

@whuber: Я так не думаю. Я погоджуюся, що 28 студентів трохи невеликі, але я думаю, що це реальне спостереження має серйозні наслідки. Якщо Фаравей створив справжню модель, і він продовжив роботу з кількома студентами, не зміг знайти жодної серйозної помилки, проте прогнози відходять від того, яким вони повинні бути. Тоді це говорить дещо про залучення "невизначеності моделі", що хоча б потрібна робота, проведена окремим аналітиком, для порівняння відмінностей, незалежно від того, наскільки "досвідченим" є початковий аналітик. Я думаю, що це мене досить насторожує.
Bombyx mori

Відповіді:


1

Я запитав про це професора на моїй кафедрі. Він відверто сказав, що зовсім не здивований. Він запропонував наступний спосіб поглянути на це: те, що робив Фаравей, було лише одноразовим експериментом, і не дивно, що результати, схоже, не співвідносяться з кінцевими оцінками. Але якщо Фаравей повторить свій «експеримент» 100 разів із тією ж групою студентів, він впевнений, що студенти, засвоєні статистикою, краще би були ефективними, як інтервал довіри. Тож, на його думку, досвід має значення, це лише один раз соціальний експеримент не міг показати його через невизначеність моделі.


Я вважаю це виправданням веселим. Я думаю, що це причина, чому статистику замінюють (або переназвають як) "наука про дані". Люди починають усвідомлювати, що в університетах статистика не дуже хороша в прогнозуванні, а моделі, які не мають прогнозованої сили, марні.
Flounderer

1
@Flounderer: Я думаю, що це насправді не привід, і те, що ви написали, може бути не дуже добре пов’язане з цією справою. По-перше, більшість часу в реальному житті у вас є і тестовий набір, і навчальний набір, на відміну від випадку Faraway, є лише один навчальний набір. По-друге, якщо ви подивитесь на модель Faraway, вона є дуже нелінійною, так що методи регресії працюють не дуже добре. Отже, всі лінійні моделі - лише дикі здогадки. Мораль експерименту полягає в тому, що "всі моделі помиляються", а не "статистика, яку навчають в університетах, не дуже гарна в прогнозуванні".
Bombyx mori

@Flounderer: Іншими словами, я вважаю, що якщо я (або хтось інший на форумі) опинився в положенні далекого студента двадцять років тому перед цим навчальним набором, ми навряд чи зможемо краще використовувати лише лінійні моделі. Я не думаю, що це взагалі щось пов’язане з "статистикою як викладачів в університетах".
Bombyx mori

1

Моделі студентів були майже вбрані. З n точок даних завжди можна помістити досконалий многочлен порядку n-1. Така модель прострочена, не залишаючи нічого випадковою помилкою. Схоже, студенти допустили подібні помилки, але, мабуть, з різними функціями.

Переобладнання - це помилка, яку повинні робити лише студенти. А це говорить про те, що досвід та освіта є необхідною кваліфікацією для моделювання.


2
"Перевищення - це помилка, яку повинні робити лише студенти", - це досить високий стандарт. Моделювання важке. Можливо, щось на кшталт «Переоснащення - це те, що моделери навчаються розпізнавати та уникати завдяки досвіду та освіті» було б ближче до істини?
Меттью Друрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.