Роль "очищення даних" полягає у визначенні того, коли "наші закони (модель) не працюють". Налаштування для Outliers або ненормальних точок даних служать для того, щоб ми могли отримати "надійні оцінки" параметрів у поточній моделі, яку ми розважаємо. Ці "залишків", якщо не лікувати, дозволяють небажане спотворення параметрів моделі, оскільки оцінка "змушена пояснювати ці точки даних", які "не ведуть себе відповідно до нашої гіпотезованої моделі". Іншими словами, існує велика окупність у плані поясненої суми квадратів, зосереджуючись на "поганих". Емпірично визначені моменти, які потребують очищення, повинні бути ретельно вивчені, щоб потенційно розвинути / запропонувати причини факторів, яких немає в сучасній моделі.
Як оцінити ефект втручання в одному стані та іншому, використовуючи щорічний рівень летальності?
Займатися наукою - це пошук повторних зразків.
Виявити аномалії - це визначити значення, які не відповідають повторним шаблонам. Як інакше ви могли б знати, що точка порушила цю модель? Насправді процес вирощування, розуміння, знаходження та вивчення інших людей повинен бути ітеративним. Це не нова думка.
Сер Френсіс Бекон, писавши в Novum Organum близько 400 років тому, сказав: "Помилки природи, спорту та монстрів виправляють розуміння звичайних речей і розкривають загальні форми. Бо хто знає шляхи Природи, легше помітить її відхилення; і, з іншого боку, той, хто знає її відхилення, більш точно опише її шляхи ».
Ми змінюємо наші правила, спостерігаючи, коли діючі правила не відповідають.
Якщо дійсно ідентифіковані люди, що мають останню, є імпульсами та мають подібні ефекти (розмір), тоді ми пропонуємо наступне (цитується з іншого плаката)
"Один з" швидких і брудних "способів зробити це в умовах регресії - це включити показник для епідемічних років / періодів як змінну регресору. Це дасть вам середню оцінку ефекту епідемій (і неявно передбачається, що вплив є те саме для кожної епідемії). Однак цей підхід працює лише для опису ефекту, оскільки при прогнозуванні ваша змінна регресія невідома (ви не знаєте, які періоди в майбутньому будуть епідемічними) ".
Це, якщо звичайно вимагає, щоб окремі аномалії (роки пульсу) мали подібний вплив. Якщо вони відрізняються, описана вище змінна portmanteau була б неправильною.