У регресійному аналізі яка різниця між "процесом генерації даних" та "моделлю"?
У регресійному аналізі яка різниця між "процесом генерації даних" та "моделлю"?
Відповіді:
Всі ми добре розуміємо, що може означати "модель", хоча її технічне визначення буде різнитися в різних дисциплінах. Щоб порівняти це з DGP, я почав, переглядаючи п’ять перших звернень (рахуючи два хіти з тим самим автором, як і один), у "Googling" "процесі генерації даних".
Документ про те , як ВВС США фактично створюють дані в підтримці логістики.
Анотація доповіді, опублікованої в розділі "Навколишнє середовище та планування" щодо створення "синтетичних мікропопуляцій" за допомогою комп'ютерних "імітаційних моделей".
Веб - сторінка на «синтетичної генерації даних»; тобто моделювання "для вивчення впливу певних характеристик даних на ... моделі".
Конспект доповіді на конференції з питань обміну даними, стверджуючи, що "дані в базах даних є результатом базового процесу генерації даних (dgp)".
Розділ книги, який характеризує дані, що цікавлять, як "виникаючі внаслідок деякої трансформації основного [стохастичного] процесу ... деякі або всі [з яких] можуть бути непоміченими ..."V t
Ці посилання демонструють три дещо різні, але тісно пов'язані використання терміна "процес генерації даних". Найпоширеніше знаходиться в контексті статистичного моделювання. Інші стосуються фактичних засобів, за допомогою яких створюються дані в ситуації, що триває (логістика), та до ймовірнісної моделі для поточної процедури створення даних, яка не підлягає аналізу безпосередньо. В останньому випадку текст відрізняє непомітний стохастичний процес, який, проте, моделюється математично, від фактичних чисел, які будуть аналізуватися.
Це дозволяє припустити два трохи відповіді:
У контексті моделювання або створення "синтетичних" даних для аналізу "процес генерування даних" - це спосіб зробити дані для подальшого вивчення, як правило, за допомогою комп'ютерного генератора псевдовипадкових чисел. Аналіз буде неявно прийняти певну модель, яка описує математичні властивості цього DGP.
У контексті статистичного аналізу ми можемо захотіти відрізнити явище реального світу (DGP) від спостережень, які будуть аналізуватися. У нас є моделі як явища, так і спостережень, а також модель того, як вони пов'язані між собою.
В регресії тоді DGP зазвичай описує, як набір даних = , прийнято виробляти. Наприклад , експериментатор може встановити або їх можна було спостерігати якимось чином, а потім вважати, що вони можуть викликати або пов'язані зі значеннями . Модель буде описувати можливі способи , в яких ці дані можуть бути математично пов'язані; наприклад , можна сказати, що кожен - випадкова величина з очікуванням ( X 1 i , X 2 i , … , X p i , Y i ) i = 1 , 2 , … , n X j i Y i Y i X β σ 2 β σ та дисперсія для невідомих параметрів та .
DGP - це справжня модель. Модель - це те, що ми намагалися, використовуючи свої найкращі навички, представляти справжній стан природи. На DGP впливає "шум". Шум може бути різних видів:
Якщо ви не контролюєте ці 6 предметів, то ваша здатність визначити справжній DGP знижується.
Відповідь Вюбера є чудовою, але варто додати акцент на тому, що статистична модель не повинна нагадувати модель генерації даних у будь-якому відношенні, щоб бути відповідною моделлю для інфекційного дослідження даних. Лю і Менг пояснюють цю точку з великою чіткістю у своєму недавньому архівному документі ( http://arxiv.org/abs/1510.08539 ):
Помилкове уявлення 1. Модель імовірності повинна описувати генерацію даних.
). Ніде це не зрозуміліше, ніж у додатках із комп’ютерними експериментами, де імовірнісний зразок використовується для опису даних за відомою (але дуже складною) детермінованою схемою (Kennedy та O'Hagan, 2001; Conti et al., 2009). Нам потрібна описова модель, не обов'язково генеративна модель. Докладніше про це див. Леманн (1990), Брейман (2001) та Хансен та Ю (2001).
DGP - це віртуальна реальність і унікальний рецепт моделювання. Модель - це набір DGP або можливі способи, щоб дані могли бути створені.
Прочитайте першу сторінку цього міні-курсу Рассела Девідсона:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf