У регресійному аналізі яка різниця між процесом генерації даних та моделлю?


19

У регресійному аналізі яка різниця між "процесом генерації даних" та "моделлю"?


1
Процес генерації даних ніколи не відомий, ми вибираємо модель з надією, що ми достатньо наблизимо процес генерації даних. Це одна з можливих відповідей, це допоможе, якщо ви надасте більше контексту, тому зрозуміліше, яку відповідь ви шукаєте. Ознайомтеся з чатом, в даний час клуб журналу обговорює статтю, де ця проблема порушена.
mpiktas

3
Відповіді на це питання будуть різними, як і слід, тому що і "процес генерації даних", і "модель" використовуються різними авторами по-різному. @Weijie, ти маєш на увазі конкретну посилання?
whuber

Відповіді:


15

Всі ми добре розуміємо, що може означати "модель", хоча її технічне визначення буде різнитися в різних дисциплінах. Щоб порівняти це з DGP, я почав, переглядаючи п’ять перших звернень (рахуючи два хіти з тим самим автором, як і один), у "Googling" "процесі генерації даних".

  1. Документ про те , як ВВС США фактично створюють дані в підтримці логістики.

  2. Анотація доповіді, опублікованої в розділі "Навколишнє середовище та планування" щодо створення "синтетичних мікропопуляцій" за допомогою комп'ютерних "імітаційних моделей".

  3. Веб - сторінка на «синтетичної генерації даних»; тобто моделювання "для вивчення впливу певних характеристик даних на ... моделі".

  4. Конспект доповіді на конференції з питань обміну даними, стверджуючи, що "дані в базах даних є результатом базового процесу генерації даних (dgp)".

  5. Розділ книги, який характеризує дані, що цікавлять, як "виникаючі внаслідок деякої трансформації основного [стохастичного] процесу ... деякі або всі [з яких] можуть бути непоміченими ..."V tWтVт

Ці посилання демонструють три дещо різні, але тісно пов'язані використання терміна "процес генерації даних". Найпоширеніше знаходиться в контексті статистичного моделювання. Інші стосуються фактичних засобів, за допомогою яких створюються дані в ситуації, що триває (логістика), та до ймовірнісної моделі для поточної процедури створення даних, яка не підлягає аналізу безпосередньо. В останньому випадку текст відрізняє непомітний стохастичний процес, який, проте, моделюється математично, від фактичних чисел, які будуть аналізуватися.

Це дозволяє припустити два трохи відповіді:

  1. У контексті моделювання або створення "синтетичних" даних для аналізу "процес генерування даних" - це спосіб зробити дані для подальшого вивчення, як правило, за допомогою комп'ютерного генератора псевдовипадкових чисел. Аналіз буде неявно прийняти певну модель, яка описує математичні властивості цього DGP.

  2. У контексті статистичного аналізу ми можемо захотіти відрізнити явище реального світу (DGP) від спостережень, які будуть аналізуватися. У нас є моделі як явища, так і спостережень, а також модель того, як вони пов'язані між собою.

В регресії тоді DGP зазвичай описує, як набір даних = , прийнято виробляти. Наприклад , експериментатор може встановити або їх можна було спостерігати якимось чином, а потім вважати, що вони можуть викликати або пов'язані зі значеннями . Модель буде описувати можливі способи , в яких ці дані можуть бути математично пов'язані; наприклад , можна сказати, що кожен - випадкова величина з очікуванням ( X 1 i , X 2 i , , X p i , Y i ) i = 1 , 2 , , n X j i Y i Y i X β σ 2 β σ(Х,Y)i(Х1i,Х2i,,Хpi,Yi)i=1,2,,нХjiYiYiХβ та дисперсія для невідомих параметрів та .σ2βσ


Ви пишете слова "причина" або "споріднене". У мене є питання з цього приводу. З вашої відповіді видно, що концепція DGP не передбачає причинного зв'язку. Однак це "відношення" є чимось більшим, ніж кореляція (чи будь-який тип асоціації) чи ні? Дивіться також це моє пов’язане питання: stats.stackexchange.com/questions/399671/…
markowitz

@markowitz "Кореляція", строго кажучи, відноситься до другого моменту біваріантної випадкової величини. Я використовую "споріднене" в ширшому розумінні "не [статистично] незалежного".
whuber

Я знаю, і саме з цієї причини я заявив "або будь-який тип [лише статистичної] асоціації". Чи можу я повторити своє запитання так: Однак це "відносини" щось більше, ніж асоціація чи ні? Починаючи від поняття "справжня модель", яке іноді використовується як синонім DGP, здається щось більше. Якщо так, я не розумію, що це саме. Моє попереднє посилання наводить приклад.
markowitz

@markowitz Боюся, я не розумію, що ти намагаєшся запитати. Це може бути тому, що я не впевнений, що саме ви маєте на увазі під "відносинами" чи "асоціацією". Я переглянув ваше посилання, але незвичне вживання англійської мови для мене нічого не означає.
whuber

Вибачте за мою англійську. Я намагався модифікувати пов'язане питання в більш зрозумілому сенсі. Я сподіваюся, що це зрозуміло.
markowitz

4

DGP - це справжня модель. Модель - це те, що ми намагалися, використовуючи свої найкращі навички, представляти справжній стан природи. На DGP впливає "шум". Шум може бути різних видів:

  1. Одноразові втручання
  2. Зрушення рівня
  3. Тенденції
  4. Зміни в сезонності
  5. Зміни параметрів моделі
  6. Зміни варіації

Якщо ви не контролюєте ці 6 предметів, то ваша здатність визначити справжній DGP знижується.


4

Відповідь Вюбера є чудовою, але варто додати акцент на тому, що статистична модель не повинна нагадувати модель генерації даних у будь-якому відношенні, щоб бути відповідною моделлю для інфекційного дослідження даних. Лю і Менг пояснюють цю точку з великою чіткістю у своєму недавньому архівному документі ( http://arxiv.org/abs/1510.08539 ):

Помилкове уявлення 1. Модель імовірності повинна описувати генерацію даних.

θ). Ніде це не зрозуміліше, ніж у додатках із комп’ютерними експериментами, де імовірнісний зразок використовується для опису даних за відомою (але дуже складною) детермінованою схемою (Kennedy та O'Hagan, 2001; Conti et al., 2009). Нам потрібна описова модель, не обов'язково генеративна модель. Докладніше про це див. Леманн (1990), Брейман (2001) та Хансен та Ю (2001).


+1. Особливо мені подобається відмінність описової та генеративної моделей даних.
whuber

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.