Що означає "Усі моделі неправильні, але деякі корисні"


76

"По суті, всі моделі неправильні, але деякі корисні."

--- Коробка, Джордж ЕП; Норман Р. Дрейпер (1987). Емпірична побудова моделі та поверхні реагування, с. 424, Вілі. ISBN 0471810339.

Яке саме значення має наведена фраза?


13
У цій же книзі було сказано раніше: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.Можливо, це корисніше.
usεr11852

Відповіді:


101

Я думаю, що його значення найкраще аналізувати, розглядаючи його у двох частинах:

"Усі моделі помиляються", тобто кожна модель помиляється, оскільки це спрощення реальності. Деякі моделі, особливо в "важких" науках, лише трохи помиляються. Вони ігнорують такі речі, як тертя або гравітаційний ефект крихітних тіл. Інші моделі сильно помиляються - вони ігнорують більші речі. У соціальних науках ми багато чого ігноруємо.

"Але деякі корисні" - спрощення реальності можуть бути досить корисними. Вони можуть допомогти нам пояснити, передбачити та зрозуміти Всесвіт та всі його різні компоненти.

Це не просто так у статистиці! Карти - це модель моделі; вони помиляються. Але хороші карти дуже корисні. Прикладів інших корисних, але неправильних моделей є багато.


20
+1 Тому що мені подобається аналогія карт. Я буду використовувати це в майбутньому!
usεr11852

4
Багато моделей у "важких" науках теж досить далекі (вчора я відвідував семінар, де проводилися вимірювання, де модель знаходилася в межах панелі помилок, але панель помилок була на два порядки).
Герріт

7
+1. Я думаю, що ваше ключове речення: "кожна модель помиляється, оскільки це спрощення реальності". Люди часто це забувають - наприклад, в наївній критиці економіки (у мене є власні критики, але вони мають бути більш досконалими, ніж просто те, що "реальність складніша за твою модель"). Якщо ми не спростили її, у вас є сира реальність, яка для нас занадто складна для розуміння. Тож ми мусимо спростити це, щоб отримати будь-яке розуміння.
Пітер Елліс

13
Фантазію ідеальної карти в масштабі 1: 1 використовували багато авторів, серед яких Льюїс Керролл, Хорхе Луїс Борхес та Умберто Еко. Насправді це не буде корисним, оскільки це обов'язково буде просто складним, оскільки область, яку він картає, і не простішою для розуміння (не кажучи вже про незграбність розгортання та розкладання для читання).
Нік Кокс

2
Можливо, ви також можете додати, що модель має бути трохи помилковою, бо в іншому випадку вона не узагальнить і, таким чином, не застосовуватиметься в іншому місці. Є кілька відповідей, які говорять про це далі. Але зараз занадто багато відповідей, щоб прочитати їх усі.
ziggystar

9

Це означає, що корисні уявлення можуть бути надані з моделей, які не є ідеальним зображенням явищ, які вони моделюють.

Статистична модель - це опис системи з використанням математичних понять. Як такий, у багатьох випадках ви додаєте певний шар абстракції для полегшення вашої інфекційної процедури (наприклад, нормальність помилок вимірювань, симетрія складових у кореляційних структурах тощо). В одній моделі майже неможливо ідеально описати явище реального світу, якщо ми маємо суб'єктивний погляд на світ (наша сенсорна система не є досконалою); проте успішне статистичне висновок відбувається, оскільки наш світ має певну послідовність, яку ми використовуємо. Тож наші майже завжди неправильні моделі виявляються корисними .

(Я впевнений, що незабаром ви отримаєте велику сміливу відповідь, але я намагався бути стислим щодо цього!)


Чи можна сказати, що ці корисні моделі пропонують приблизні рішення?
gpuguy

2
@gpuguy: Звичайно, ти можеш. An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
Процитувати

6
"Набагато краща приблизна відповідь на правильне запитання, яке часто є невиразним, ніж точна відповідь на неправильне запитання, яке завжди можна зробити точним". John W. Tukey 1962 Майбутнє аналізу даних. Аннали математичної статистики 33: 1-67 (див. С. 13-14) Без сумніву, він сказав подібні речі і в інші часи, але це звичайне джерело.
Нік Кокс

Я c-p'ed цитату безпосередньо з відповідної нитки цитат CV.
usεr11852

6
Я скопіював шахту з оригінальної публікації.
Нік Кокс

6

Я знайшов цю розмову про Асоціацію 2009 року Тада Тарпія, щоб надати корисне пояснення та коментар до уривку "Коробка". Він стверджує, що якщо ми розглянемо моделі як наближення до істини, ми могли б так само легко назвати всі моделі правильно.

Ось реферат:

Студенти статистики часто знайомляться з відомою цитатою Джорджа Бокса: "всі моделі неправильні, деякі корисні". У цій розмові я стверджую, що ця цитата, хоча і корисна, є неправильною. Інша і більш позитивна перспектива полягає у визнанні того, що модель є просто засобом вилучення цікавої інформації з даних. Істина нескінченно складна, і модель є лише наближенням до істини. Якщо наближення є поганим або оманливим, то модель марна. У цій розмові я навожу приклади правильних моделей, які не є справжніми моделями. Я ілюструю, як поняття "неправильної" моделі може призвести до неправильних висновків.


3

Для мене фактичне розуміння полягає в наступному аспекті:

Щоб бути корисною, модель не повинна бути правильною.

На жаль, у багатьох науках часто забувають, що моделі не обов'язково повинні бути точними уявленнями реальності, щоб дозволити нові відкриття та передбачення!

Тому не витрачайте час на створення складної моделі, яка потребує точних вимірювань безлічі змінних. Справжній геній вигадує просту модель, яка робить свою роботу.


3

Модель не може дати 100% точних прогнозів, якщо є випадковість у результатах. Якби не було невизначеності, випадковості та помилки, то це вважалося б фактом, а не моделлю. Перший дуже важливий, оскільки моделі часто використовуються для моделювання очікувань подій, які не відбулися. Це майже гарантує наявність певної невизначеності щодо реальних подій.

Враховуючи досконалу інформацію, теоретично можна створити модель, яка дає ідеальні прогнози для таких точно відомих подій. Однак, навіть з огляду на ці малоймовірні обставини, така модель може бути настільки складною, що обчислювально неможлива у використанні, і може бути точною лише в певний момент часу, оскільки інші фактори змінюють, як змінюються значення залежно від подій.

Оскільки невизначеність та випадковість є у більшості реальних даних, зусилля для отримання досконалої моделі є марною вправою. Натомість більш цінним є пошук достатньо точної моделі, достатньо простої, щоб бути корисною як з точки зору даних, так і з розрахунків, необхідних для її використання. Хоча, як відомо, ці моделі недосконалі, деякі з цих недоліків добре відомі і можуть розглядатися для прийняття рішень на основі цих моделей.

Простіші моделі можуть бути недосконалими, але їх також простіше міркувати, порівнювати одна з одною, а працювати з ними може бути простіше, оскільки вони, ймовірно, менш вимогливі до обчислень.


3

Якщо я можу, може бути корисним лише один коментар. Версія похвали, яку я віддаю перевагу, така

(...) всі моделі є наближеннями. По суті, всі моделі помиляються, але деякі корисні (...)

взяті з поверхонь реакцій, сумішей та рельєфних аналізів Box and Draper (2007, стор. 414, Wiley). З погляду на розширену цитату зрозуміліше, що означав Box - статистичне моделювання - це наближення до реальності, а наближення ніколи не є точним, тому йдеться про пошук найбільш відповідного наближення. Те, що підходить для вашої мети, - це суб'єктивна річ, тому вона не є однією з корисних моделей, але, можливо, деякі з них є, залежно від мети моделювання.


3

Оскільки його ніхто не додав, Джордж Бокс використав цитовану фазу, щоб ввести наступний розділ у книзі. Я вважаю, що він найкраще справляється з поясненням того, що мав на увазі:

PV=RTPVTR

Для такої моделі не потрібно ставити питання "Чи правда модель?". Якщо "правда" має бути "цілою правдою", відповідь повинна бути "Ні". Єдине питання, що цікавить, «Чи модель освітлена і корисна?».

Box, GEP (1979), "Міцність у стратегії побудови наукової моделі", у Launer, RL; Вілкінсон, Г.Н., Надійна статистика , Академічна преса, стор. 201–236.


2

Ви можете подумати про це так. максимальна складність (тобто ентропія) об'єкта підкоряється деякій формі зв'язаного Бекенштейна :

I2πREcln2

ER

У більшості випадків це велика кількість:

2.58991·1042Ω=2I107.79640·1041

Отже, ви хочете використовувати "найкращу карту", тобто саму територію, з усіма хвильовими рівняннями для всіх частинок у кожній клітині? Абсолютно ні. Це було б не лише обчислювальною катастрофою, але і ви б моделювали речі, які, по суті, не мають нічого спільного з тим, що вас хвилює. Якщо все, що ви хочете зробити, це, скажімо, визначити, я прокинувся чи ні, вам не потрібно знати, що електрон # 32458 робить у нейроні # 844030 рибосома # 2305 молекула №2. Якщо ви не моделюєте це, ваша модель справді "неправильна", але якщо ви зможете визначити, не спіть я чи ні, ваша модель, безумовно, корисна.


2

Я думаю, що Петро та користувач11852 дали чудові відповіді. Я також додав би (запереченням), що якби модель була справді хорошою, вона, ймовірно, була б марною через переозброєння (отже, не узагальнена).


2
+1 за точку перевищення. Алгоритми, такі як Naive Bayes та лінійний дискримінантний аналіз, часто працюють дуже добре, навіть якщо ви знаєте, що основна модель є неправильною (наприклад, фільтрація спаму), просто тому, що для оцінки параметрів потрібно менше даних.
Дікран Марсупіал

1

Моя кислотна інтерпретація: Вважаючи, що математична модель описує саме всі чинники та їх взаємодії, керуючи явищем, що цікавить, було б надто спрощеним та зухвалим. Ми навіть не знаємо, чи достатня логіка, яку ми використовуємо, щоб зрозуміти наш Всесвіт. Однак деякі математичні моделі представляють достатньо хороше наближення (з точки зору наукового методу), яке корисно робити висновки про таке явище.


1

Як астростатик (можливо, рідкісна порода), я вважаю, що слава виразки Бокса є нещасною. У фізичних науках у нас часто існує сильна консенсус щодо розуміння процесів, що лежать в основі спостережуваного явища, і ці процеси часто можуть виражатися математичними моделями, що випливають із законів гравітації, квантової механіки, термодинаміки тощо. Статистичні цілі полягають у оцінці. фізичні властивості параметрів моделі, що найкраще підходять, а також вибір та перевірка моделі. Драматичний останній випадок стався після виходу в березні 2013 року паперів із супутника Планка Європейського космічного агентства"вимірювання космічного мікрохвильового фону, що переконливо встановлює просту 6-параметричну модель" LambdaCDM "для Великого вибуху. Сумніваюсь, що діаграма Box застосовуватиметься в будь-якому місці в межах широкого спектру передових статистичних методів, які використовуються в цих 29 роботах.


1

Я щойно перефразував вищезгадану відповідь, розглянувши моделі процесів як точку фокусування. Твердження можна інтерпретувати так:

"Усі моделі помиляються", тобто кожна модель помиляється, оскільки це спрощення реальності. Деякі моделі лише трохи помиляються. Вони ігнорують деякі речі, наприклад: -> зміни вимог, -> ігнорування завершення проекту в термін, -> не враховуючи бажаний рівень якості замовника тощо ... Інші моделі сильно помиляються - ігнорують більші речі. Класичні моделі програмних процесів ігнорують багато в порівнянні з гнучкими моделями процесів, які ігнорують менше.

"Але деякі корисні" - спрощення реальності можуть бути досить корисними. Вони можуть допомогти нам пояснити, передбачити та зрозуміти загальний проект та всі його різні компоненти. Моделі використовуються тому, що їх характеристики відповідають більшості програм розробки програмного забезпечення.


0

Я хотів би дати ще одне тлумачення терміна «корисний». Напевно, не той Короб про що думав.

Коли вам доведеться приймати рішення, і це, для чого, нарешті, буде використана вся інформація, тоді вам доведеться оцінювати свій успіх у якійсь формі. Якщо говорити про рішення з невизначеною інформацією, цей захід часто називають корисним.

Таким чином, ми також можемо вважати корисні моделі як ті, що дозволяють нам приймати більш обґрунтовані рішення; щоб ефективніше досягти наших цілей.

Це додає ще один вимір, окрім звичайних критеріїв, наприклад, здатність моделі передбачити щось правильно: це дозволяє нам зважувати різні аспекти, про які модель має відносно один одного.


-2

"Усі моделі помиляються, але деякі корисні". Можливо, це означає: Ми повинні робити все можливе з того, що ми знаємо + шукати нове навчання?


4
(-1) Чи можете ви надати будь-яку посилання, що дозволяє припустити, що GEP Box мав на увазі це? Як ви можете знайти з інших відповідей, він мав на увазі щось зовсім інше.
Тім

ОП, можливо, приймає цитату і дає їй нове тлумачення. Я погоджуюся з Тімом, що Box більш-менш казав, що не сприймайте модель як точну інтерпретацію реальності, але визнаю, що деяка модель може добре описувати дані.
Майкл Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.