Мінімізація упередженості в пояснювальному моделюванні, чому? (Галіта Шмулі «Пояснити або передбачити»)


15

Це питання посилається на статтю Галіта Шмулі "Пояснити чи передбачити" .

Зокрема, у розділі 1.5 "Пояснення та передбачення різні" професор Шмуелі пише:

У роз'яснювальному моделюванні основна увага приділяється мінімізації зміщення для отримання найбільш точного подання основної теорії.

Це спантеличувало мене кожного разу, коли я читав статтю. У якому сенсі мінімізація упередженості в оцінках дає найбільш точне уявлення основної теорії?

Я також спостерігав розмова професора Shmueli в тут , виступив на JMP Discovery Summit 2017 року, і вона заявляє:

... речі, схожі на моделі усадки, ансамблі, таких ти ніколи не побачиш. Оскільки ці моделі, за задумом, вносять зміщення, щоб зменшити загальну зміщення / дисперсію. Тому їх там не буде, це не має ніякого теоретичного сенсу робити. Чому б ви зробили свою модель навмисно упередженою?

Це насправді не проливає світло на моє запитання, просто повторюючи твердження, яке я не розумію.

Якщо теорія має багато параметрів, і ми маємо мізерні дані для їх оцінки, помилка оцінки буде домінувати у дисперсії. Чому в цій ситуації було б недоцільним використання упередженої процедури оцінки, як регресія хребта (в результаті чого упереджені оцінки нижчої дисперсії)?


1
Гарне питання! +1 Я задавав відповідне запитання на stats.stackexchange.com/questions/204386/…
Адріан

@ Адріан Це чудове запитання, добре поставлений. Я також хотів би побачити ґрунтовну відповідь на це!
Меттью Друрі

Відповіді:


6

Це справді велике питання, яке потребує екскурсії у світ використання статистичних моделей в економетричних та суспільствознавчих дослідженнях (з того, що я бачив, прикладні статистики та шахтарі даних, які роблять описову чи прогнозуючу роботу, зазвичай не займаються упередженість цієї форми). Термін "упередженість", який я використав у статті, - це те, що економетрики та соціологи трактують як серйозну небезпеку для спричинення причинності від емпіричних досліджень. Він посилається на різницю між вашою статистичною моделлю та причинно-теоретичною моделлю, яка лежить в основі її . Пов'язаний термін - "специфікація моделі", тема, що вивчається в значній мірі в економетрії через важливість "правильно вказати вашу модель регресії" (стосовно теорії), коли ваша мета - причинно-наслідкове пояснення. Побачитистаття у Вікіпедії зі специфікацією для короткого опису. Основною проблемою помилки специфікації є специфицирования , званий «опущеною змінної Bias» (ППО), де ви опускаєте пояснювальну змінну з регресії , яка повинна була бути там (відповідно до теорії) - це змінна , яка корелює з залежною змінною і щонайменше з однією з пояснювальних змінних. Дивіться цей акуратний опис ), який пояснює, які наслідки мають цей тип зміщення. З теоретичної точки зору, OVB шкодить вашій здатності виводити причинно-наслідкові зв’язки з моделі.

У додатку до моєї статті Пояснити чи передбачити? є приклад, що показує, як ненаголошена ("неправильна") модель іноді може мати більш високу прогнозовану силу. Але тепер, сподіваємось, ви зможете зрозуміти, чому це суперечить цілі "доброї пояснювальної моделі".


2
Я думаю, що ще багато плутанини щодо прогнозних та пояснювальних моделей. Я взяв інтерв'ю з науковцем даних у великій страховій компанії і запитав, чи вони будують в його команді прогнозні чи пояснювальні моделі. Він сказав, що "це насправді не має значення" - я не думаю, що він знав різницю.
RobertF
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.