Відкидання випускників на основі "в 2,5 рази більше RMSE"


13

У Kahneman and Deaton (2010) автори пишуть наступне:

Ця регресія пояснює 37% дисперсії із середньоквадратичною помилкою (RMSE) 0,67852. Для усунення збитків та неправдоподібних звітів про прибутки ми відхилили спостереження, в яких абсолютна величина різниці між доходами журналу та його прогнозом перевищила в 2,5 рази більше RMSE.

Це звичайна практика? Яка інтуїція стоїть за цим? Дещо дивним є визначення зовнішньої форми на основі моделі, яка може бути недостатньо точно визначеною. Чи не слід визначати людей, що випадають, базуватися на деяких теоретичних підставах того, що є правдоподібною цінністю, а не на тому, наскільки добре ваша модель прогнозує реальні значення?


: Даніель Канеман, Ангус Дітон (2010): високий дохід покращує оцінку життя, але не емоційне самопочуття. Праці Національної академії наук вересень 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107


1
Коли ви даєте цитату з паперу, завжди вказуйте посилання, яке містить номер сторінки .
Бен -

7
Я не можу сказати, чи це "звичайна практика", але я сподіваюся, що ні. Автоматизовані вилучення "чужих людей" - це принципово погана ідея. Можливо, ваша модель чи критерій видалення не є гарним, можливо, відбувається щось нове (початок спаду, пробудження нових можливостей), що ви не повинні ігнорувати. // Інакше, якщо ви можете відслідковувати підозріле значення до помилки введення даних або відмови обладнання, або якщо це значення просто безрезультатно безглуздо (16'2 "високий чоловік, хлопець без 61 годин, що підлягають оплаті минулого вівторка, 25 хв. Рейс SFO-ORD). Але не тому, що це не відповідає моделі. Я знаю, що стартап, який пішов таким чином,
BruceET

7
Статистична обгрунтованість цього підходу відображається абсурдною кількістю десяткових знаків, які вони подають для RMSE.
Frans Rodenburg

Це відчувається як грубе / героїчне рішення припущення щодо питання, яке я задав кілька місяців тому: stats.stackexchange.com/questions/390051/…
Адріан

Відповіді:


30

Причина відмови від цих даних вказана саме там, у цитаті: а саме "для усунення людей, які втратили досвід та неправдоподібних звітів про прибутки". Те, що вони посилаються на обидва ці речі спільно, означає, що вони визнають, що принаймні деякі їхні люди не мають правдоподібних значень, і в будь-якому випадку вони не дають аргументів, чому значення з високим залишковим значенням слід вважати "неправдоподібними. "значення доходу. Роблячи це, вони ефективно видаляють точки даних, оскільки залишки вище, ніж очікується в їх регресійній моделі. Як я вже говорив в інших відповідях тут , це рівносильно вимагати, щоб реальність відповідала вашим припущенням моделі та ігнорувала частини реальності, які не відповідають цим припущенням.

Невже це звичайна практика чи ні, це жахлива практика. Це відбувається тому, що з навколишніми точками даних важко розібратися, і аналітик не бажає їх правильно моделювати (наприклад, використовуючи модель, яка дозволяє вищими куртозами в термінах помилок), тому вони просто видаляють частини реальності, які не відповідають їх здатності проводити статистичне моделювання. Ця практика є статистично небажаною, і вона призводить до висновків, які систематично недооцінюють дисперсію та куртоз у помилках. Автори цього документу повідомляють, що вони знищили 3,22% своїх даних через вилучення цих людей, що залишилися (стор. 16490). Оскільки більшість цих даних мали б дуже високі доходи, це ставить під сумнів їхню здатність робити надійні висновки про вплив високих доходів (що є метою їх роботи).


Як ви смієте критикувати за Даніель Канеман! Жарти вбік, це дуже хороші бали +1.
Тім

11
Канеман - дуже прекрасний психолог, чиї книги я, як правило, насолоджувався і вважав корисними. У кожного міг бути п’ятдесят Нобелівських премій --- це не змінило б факту, що масове вилучення «людей, що вижили», є жахливою статистичною практикою.
Бен -

3
Природно, я згоден з вами. Я не вважав, що це потрібно говорити.
Нік Кокс

1
@NickCox Ви маєте на увазі так звану "Нобелівську меморіальну премію" : як я впевнений, ви знаєте, що її не було встановлено Нобелем і не має нічого спільного з ним. Офіційна назва, мабуть, "Премія Свірігес Ріксбанк з економічних наук пам'яті Альфреда Нобеля".
Амеба каже:

1
Ви впевнені, що я це знаю, і ви справді правильні. Завжди авторитетний EJMR колись носив цю публікацію про мене "Ні, він ніколи не виграє Нобеля", що означає цей приз.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.