Чи дійсно парситизм все-таки повинен бути золотим стандартом?


31

Просто думка:

Парсимоніальні моделі завжди були типовим методом вибору моделі, але наскільки цей підхід застарів? Мені цікаво, наскільки наша тенденція до парсингу - це пережиток часу правил abaci і slide (або, що серйозніше, не сучасних комп'ютерів). Сьогоднішня обчислювальна потужність дозволяє нам будувати все більш складні моделі з все більшою здатністю до прогнозування. Внаслідок цього зростаючої стелі в обчислювальній потужності нам справді ще потрібно тяжіти до простоти?

Звичайно, простіші моделі легше зрозуміти та інтерпретувати, але в епоху постійно зростаючих наборів даних із більшою кількістю змінних та зрушенням у напрямку більшої уваги до можливостей прогнозування це може бути навіть не досяжним чи необхідним.

Думки?


4
З вибаченнями Річарда Хеммінга: Метою моделювання є розуміння, а не цифри. Складні моделі перешкоджають розумінню.
Eric Towers

12
Моделі, які спрощено спрощуються, ще більше заважають зрозуміти.
Френк Харрелл

6
Це може залежати від програми; з фізики, я думаю, що аргумент для парситиву матиме міцну основу. Однак у багатьох додатках буде мати малий ефект, який неможливо усунути (розглянемо, наприклад, моделі політичних уподобань). Ряд робітників припускають, що використання регуляризації (наприклад, методів, що призводять до усадки або у багатьох застосувань, зменшення відмінностей або обох), а не усунення змінних, має більше сенсу; інші схиляються до деякого вибору і деякої усадки (LASSO, наприклад, робить і те і інше).
Glen_b -Встановити Моніку

3
Парсимоніальні моделі - це не «перехід» на вибір моделей. Інакше ми б завжди моделювали все з його середнім зразком і називали це день.
shadowtalker

1
Крім того, деяка їжа для роздумів: Mease and Wyner (2008) рекомендують багатших учнів у AdaBoost, що трохи неінтуїтивно. Відкритим питанням у цьому напрямі досліджень, здається, є те, чи фактично парсимонізовані учні насправді призводять до парсимоніальних ансамблів.
shadowtalker

Відповіді:


25

@ Оригінальна відповідь Метта чудово справляється з описом однієї з переваг парсингу, але я не думаю, що він насправді відповідає на ваше запитання. Насправді паршість не є золотим стандартом. Ні зараз, ні ще ніколи не було. "Золотим стандартом", пов'язаним з парситивом, є помилка узагальнення. Ми хотіли б розробити моделі, які не підходять. Вони такі ж корисні для прогнозування (або як інтерпретація, або з мінімальною помилкою) поза вибіркою, як і у вибірці. Виявляється (через речі, викладені вище), що парсинг насправді є досить хорошим проксі для помилки узагальнення, але аж ніяк не єдиний.

Дійсно, подумайте, чому ми використовуємо перехресну перевірку чи завантажувальний або тренінговий / тестовий набори. Мета - створити моделі з хорошою точністю узагальнення. Багато разів ці способи оцінки вибіркових характеристик закінчують вибір моделей з меншою складністю, але не завжди. Як крайній приклад, уявіть, що оракул передає нам справжню, але надзвичайно складну модель і бідну, але всемогутню модель. Якби парцювання насправді була нашою метою, ми б вибрали другу, але насправді перше - це те, чого ми хотіли б дізнатися, якби могли. На жаль, багато часу, коли останнє речення є кікером, "якби ми могли".


Що таке "оригінальна відповідь"?
mattdm

:) досить справедливо. Коментар Метта.
Нік Тімей

22

Парсимоніальні моделі бажані не лише завдяки обчислювальним вимогам, але і для узагальнення продуктивності. Неможливо досягти ідеалу нескінченних даних, які повністю та точно охоплюють вибірковий простір, а це означає, що непармонізовані моделі мають потенціал для подолання та моделювання шуму чи ідіосинкразії у вибірковій сукупності.

Звичайно, можна побудувати модель з мільйонами змінних, але ви використовуєте змінні, які не впливають на вихід, для моделювання системи. Ви можете домогтися великих прогнозованих показників на своєму навчальному наборі даних, але ці невідповідні змінні більш ніж ймовірно знизять вашу ефективність на небаченому тестовому наборі.

Якщо вихідна змінна справді є результатом мільйона вхідних змінних, то вам було б добре включити їх у свою прогнозну модель, але тільки якщо у вас є достатня кількість даних . Щоб точно побудувати модель такого розміру, вам знадобиться мінімум кілька мільйонів точок даних. Парсимоніальні моделі приємні тим, що в багатьох реальних системах набір даних такого розміру просто недоступний, і, крім того, вихід в значній мірі визначається порівняно невеликою кількістю змінних.


5
+1. Я пропоную прочитати Елементи статистичного навчання (у вільному доступі в Інтернеті) , де глибоко обговорюється ця проблема.
S. Kolassa - Відновіть Моніку

3
З іншого боку, коли у вас мільйони змінних і мало об’єктів, цілком випадково деякі змінні краще пояснюють результат, що справжня взаємодія. У такому випадку моделювання, засноване на парсимуванні, буде більш сприйнятливим до переозброєння, ніж підхід грубої сили.

@CagdasOzgenc Наприклад, великий випадковий ансамбль підпростори.

Я відчуваю, що тут може застосуватись щось на кшталт підходу Лассо.
церестеколог

17

Я думаю, що попередні відповіді добре допомагають робити важливі моменти:

  • Парсимоніальні моделі мають кращі узагальнюючі характеристики.
  • Потворність - це справді не золотий стандарт, а лише розгляд.

Я хочу додати кілька коментарів, які виходять із мого щоденного досвіду роботи.

Узагальнення аргументації точності прогнозування, звичайно, є сильним, але в його фокусі є академічна упередженість. Загалом, при розробці статистичної моделі економіки не такі, що прогнозована ефективність є повністю домінуючим фактором. Дуже часто існують великі зовнішні обмеження щодо того, як виглядає корисна модель для даної програми:

  • Модель повинна бути реалізованою в існуючих рамках або системі.
  • Модель повинна бути зрозумілою нетехнічному суб'єкту.
  • Модель повинна бути ефективно обчислювальною.
  • Модель повинна бути документальною .
  • Модель повинна нести регуляторні обмеження .

У реальних областях застосувань багато, якщо не всі ці міркування виникають раніше , а не після , прогнозованої продуктивності - і оптимізація форми моделі та параметрів обмежується цими бажаннями. Кожне з цих обмежень схиляє вченого до спокою.

Може бути правдою, що в багатьох сферах ці обмеження поступово скасовуються. Але справді щасливому вченому доводиться ігнорувати їх, зосереджуючись виключно на мінімізації помилок узагальнення.

Це може бути дуже неприємно для першого вченого, свіжого поза школою (це, безумовно, було для мене і продовжує бути, коли я відчуваю, що обмеження, поставлені на моїй роботі, не виправдані). Зрештою, наполегливо працювати над створенням неприйнятного продукту - це марно, і це відчуває себе гірше, ніж жало до вашої наукової гордості.


2
Ніяке парсиство не є повагою. Процедура обгрунтованого висновку ОБОВ'ЯЗКОВО класифікує парсимоніальну модель за непарасимонічною моделлю, якщо вони однаково добре пояснюють дані. Інакше загальна стислима довжина коду моделі та дані, закодовані моделлю, не будуть найменшими. Так так, це золотий стандарт.
Cagdas Ozgenc

3
Потворність НЕ є "золотим стандартом"! Це твердження безглуздо. Якби це було правдою, то чому б нам не завжди будувати моделі, які не відповідають нічого, крім безумовного значення? Ми торгуємо упередженістю та дисперсією, посилаючись на тестовий набір або, що ще краще, абсолютно нові спостереження, і робимо це в рамках наших областей, організації та закону. Іноді у вас є лише достатня інформація, щоб зробити наївні прогнози. Іноді вам достатньо додати складності.
Зрив рівноваги

1
@BrashEquilibrium Я думаю, що Кагдас говорить, зважаючи на вибір між однаково прогнозними моделями, слід вибрати найбільш парсимонічну.
Меттью Друрі

1
Ага. Це різна річ. Так, у такому випадку вибирайте найбільш парсимонічну модель. Я все ще не думаю, що те, що парменія є "золотим стандартом".
Зрив рівноваги

1
@MatthewDrury Brash, Cagdas. Цікаво. Можливо, паршість - це лише одна складова золотого стандарту; що, мабуть, (або повинно бути) краще ґрунтується на понятті охоплення . Хороше викладення цієї ідеї подано в наступній лекції з астрофізики з Єльського регіону : oyc.yale.edu/astronomy/astr-160/lecture-11 . 7:04 далі. Ця ідея також представлена ​​в економетричній / прогнозованій літературі Девіда Хендрі та Грейхема Мізона. Вони стверджують, що охоплення є частиною прогресивної дослідницької стратегії, парсистика якої є єдиним аспектом.
Graeme Walsh

14

Я думаю, що це дуже гарне питання. На мою думку, парсистика завищена. Природа рідко парсимонічна, тому ми не повинні сподіватися, що точні прогнозні чи описові моделі також будуть такими. Що стосується питання інтерпретації, якщо ви обираєте простішу модель, яка лише скромно відповідає дійсності лише тому, що ви можете її зрозуміти, що саме ви розумієте? Якщо припустити, що більш складна модель має кращу прогнозуючу силу, вона все одно буде ближче до фактичних фактів.


8
Добре сказано @dsaxton. Існує велике нерозуміння партельності і велике недооцінення того, наскільки нестабільний вибір ознак. Потворність приємна, коли вона є результатом попереднього уточнення. Більшість балаканини, що виникає внаслідок днопоглиблювальних даних, є оманливим і розуміється лише тому, що це неправильно.
Френк Харрелл

2
@FrankHarrell Ви хотіли б детальніше розповісти про "лише зрозуміли, бо це неправильно", або, можливо, посилання на щось, про що ви писали раніше про це? Це цікавий момент, який я хотів би переконатися, що розумію.
gui11aume

8
Це надзвичайний приклад, але люди, які займаються расовим профілюванням, думають, що вони розуміють, маючи одну особливість (наприклад, колір шкіри), яке значення має хтось. На них відповідь проста. Вони розуміють це лише тому, що роблять неправильне судження шляхом надмірного спрощення. Ложкість зазвичай є ілюзією (за винятком механіки Ньютона та деяких інших областей).
Френк Харрелл

1
"Природа рідко парсимонічна": і однією точкою, де природа є особливо несимволічною, є особи (на відміну від наших типових розмірів вибірки!). Еволюція використовує цілу нову сукупність нових індивідів кожного покоління ... ІМХО парсинг (заздалегідь заданий тип Френка Гаррелла - включення будь-яких доступних функцій в модель насправді є дуже складною моделлю - навіть якщо n << м, це не дуже мала частина початкового простору пошуку) - це те, як ми намагаємося отримати хоч щось із нашого надто малого набору даних.
cbeleites підтримує Моніку

2

Потворність - це не золотий початок. Це аспект моделювання. Моделювання та, особливо, прогнозування не можуть бути написані, тобто ви не можете просто передати сценарій, який слід виконати. Ви краще визначите принципи, на яких повинен базуватися процес моделювання. Отже, парсимент - це один із цих принципів, застосування яких не можна писати (знову ж таки!). Моделер буде враховувати складність при виборі моделі.

Обчислювальна потужність мало стосується цього. Якщо ви в галузі, ваші моделі будуть споживатися діловими людьми, людьми з продуктів, хто б їх не називав. Ви повинні пояснити їм свою модель, вона повинна мати сенс для них. Наявність парсимоніальних моделей допомагає в цьому плані.

Наприклад, ви прогнозуєте продаж продукції. Ви повинні бути в змозі описати, що є рушіями продажів та як вони працюють. Вони повинні бути пов'язані з концепціями, з якими працює бізнес, і кореляції повинні бути зрозумілі та прийняті бізнесом. Зі складними моделями може бути дуже важко інтерпретувати результати моделі або пов'язувати відмінності з фактичними. Якщо ви не можете пояснити свої моделі бізнесу, ви не оціните це.

Ще одне, що особливо важливо для прогнозування. Скажімо, ваша модель залежить від N екзогенних змінних. Це означає, що вам потрібно спочатку отримати прогнози цих змінних, щоб прогнозувати залежну змінну. Малі менші N полегшують ваше життя, тому простіша модель легша у використанні.


Хоча ви згадуєте прогнозування, більша частина вашої відповіді, здається, стосується лише пояснювального моделювання.
rolando2

@ rolando2, це звучить так, тому що в моєму домені ви не можете просто передати прогноз користувачам. Ми повинні пояснити прогноз, зв’язати його з водіями тощо. Коли ви отримуєте прогноз погоди, зазвичай не просите синоптика пояснити вам, чому саме вони думають, що дощ піде з 50% шансом. У моєму випадку я не тільки повинен це робити, але й робити це таким чином, щоб мої споживачі розуміли результати, пов'язуючи його з діловими драйверами, з якими вони мають справу щодня. Ось чому парменія сама по собі цінна
Аксакал

1

Можливо, перегляньте інформаційний критерій Akaike - концепцію, яку я лише вчора виявив у серендіпіті. АПК прагне визначити, яка модель та скільки параметрів є найкращим поясненням для спостережень, що є у вас, а не будь-який базовий бритв Оккама чи підхід парсингу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.