Чи підходить модель до даних, чи дані підходять до моделі?


20

Чи є концептуальна чи процедурна відмінність між пристосуванням моделі до даних та пристосуванням даних до моделі? Приклад першого формулювання можна побачити на https://courses.washington.edu/matlab1/ModelFitting.html , а другого - на https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .


7
+1 Мене не вразило друге посилання, але я розважаю.
Лаконічний

Багато моделей відповідають поточним даним, але, як правило, найкраще відповідає одна модель
Агній Василіяускас,

Відповіді:


35

Практично кожен джерело чи людина, з якою я коли-небудь спілкувався, крім джерела Wolfram, з яким ви пов’язали, відноситься до цього процесу як до пристосування моделі до даних . Це має сенс, оскільки модель є динамічним об'єктом, а дані є статичними (він же фіксований та постійний).

Якщо говорити про це, мені подобається підхід Ларрі Вассермана до цього. За його розповіддю, статистична модель - це сукупність розподілів. Наприклад, колекція всіх звичайних розподілів:

{Normal(μ,σ):μ,σR,σ>0}

або набір усіх розподілів Пуассона:

{Poisson(λ):λR,λ>0}

Пристосування розподілу до даних - це будь-який алгоритм, який поєднує статистичну модель із набором даних (дані фіксовані) та вибирає саме один із розподілів із моделі як той, який «найкраще» відображає дані.

Модель - це те, що змінюється (свого роду): ми зводимо її з усієї колекції можливостей у єдиний найкращий вибір. Дані - це лише дані; з цим нічого не відбувається.


16

У галузі моделювання Раша звичайним є пристосування даних до моделі. Модель вважається правильною, і завдання аналітика - знайти дані, які відповідають їй. Стаття Вікіпедії про Раш містить більше подробиць про те, як і чому.

Але я погоджуюся з іншими, що в цілому в статистиці ми підходимо модель до даних, тому що ми можемо змінити модель, але вважається, що вибір та зміна даних є поганою формою.


7

Зазвичай спостережувані дані фіксуються під час зміни моделі (наприклад, через те, що параметри оцінюються), тому саме модель створена для відповідності даним, а не навпаки . (Зазвичай люди мають на увазі цей випадок, коли вони говорять будь-який вираз.)

Коли люди кажуть, що вони підходять до моделі, я виявляю, що я намагаюся розібратися, що, до біса, вони зробили з даними? .

[Тепер, якщо ви трансформуєте дані , це, мабуть, було б "пристосуванням даних до моделі", але люди майже ніколи не говорять про це для цього випадку.]


5
Видалення інших людей, що перебувають у спокої, також було б (можливо) "пристосуванням даних до моделі".
Федеріко Полоні

1
Фразування може мати сенс, якщо вони думають про це як "підходяще (дані для моделі)". Тобто ви робите процес підгонки, і цей процес підгонки починається з даних і перетворює його на модель. Я погоджуюсь, що це менш поширена / точна інтерпретація проти розбору "(підходить X) до Y", але я викладаю це як обґрунтування того, чому хтось може логічно це сказати.
RM

1
@FedericoPoloni Outliers зазвичай визначаються незалежно від тієї моделі, яку ви згодом хочете використовувати. Тож навіть якщо ми б хотіли назвати це відповідними даними, це не модель, а щось інше.
BartoszKP

1
+1. Є причина, яку називають "дані" - це те, що дано , див. Латинське походження слова: latindictionary.wikidot.com/verb:dare
Крістоф Ханк

2

Зазвичай, ми припускаємо, що наші дані відповідають "реального світу", і внесення будь-яких змін означає, що ми віддаляємося від моделювання "реального світу". Наприклад, потрібно подбати про видалення залишків, оскільки навіть якщо це робить обчислення приємнішими, люди, що залишилися, все ще були частиною наших даних.

Під час тестування моделі або оцінки властивостей оцінювача за допомогою завантажувальної програми або інших методів перекомпонування ми можемо імітувати нові дані, використовуючи оціночну модель та наші вихідні дані. Це робить припущення, що модель правильна, і ми не змінюємо свої вихідні дані.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.