Чи може очищення даних погіршити результати статистичного аналізу?


17

Збільшення кількості випадків та випадків смерті відбувається під час епідемій (раптове збільшення кількості) через циркуляцію вірусу (як Вірус Західного Нілу в США у 2002 р.) Або зменшення опірності людей, забруднення їжі чи води або збільшення кількості комарі. Ці епідемії представлятимуть пережиті люди, які можуть виникати кожні 1 - 5 років. Видаляючи цих людей, що переживають люди, ми видаляємо докази епідемій, які є важливою частиною прогнозування та розуміння захворювань.

Чи необхідне очищення даних під час боротьби з людьми, що не впадають у життя, викликаними епідеміями?

Чи буде покращуватись результати чи погіршувати результати статистичного аналізу?

Відповіді:


12

Це насправді залежить від мети вашого дослідження. На мою думку, їх може бути декілька:

  1. Ви хочете зрозуміти, які типові фактори, що спричиняють випадки та смерть, і на які не впливають епідемічні періоди та фактори, що спричиняють епідемії (тому вас цікавлять типові, що не вимагають великих імовірностей) - у цьому випадку вам очевидно потрібно усунути епідемію періоди від даних, так як вони спрямовані на те, щоб досліджувати людей, які випадають, до того, що ви хотіли б зробити висновок
  2. Ви можете включити епідемічні зміни до своїх моделей (наприклад, моделі переключення режиму, наприклад, будь-які хороші посилання та пропозиції моделей від громади вітаються тут), оскільки ви хочете знати, яка ймовірність виникнення епідемічного періоду (а також як довго це триватиме), перевірити стабільність і прогнозувати - в цьому випадку ви не виключаєте епідемічних періодів, але шукайте більш складні моделі, а не ходите за молотом-економетричним інструментом або чимось подібнимOLS
  3. Ваша головна мета - виявити епідемічні періоди та стежити за ними в режимі реального часу - це особливе поле в економетрії, з яким працюють багато моїх колег у Вільнюському університеті (безумовно, ви хочете мати багато спостережень за епідеміями, щоб вирішити цю проблему. )

Отже, якщо ваша головна мета - це щось на зразок 2, очищення даних призведе до помилкових висновків щодо майбутніх прогнозів, тобто неточних результатів прогнозування. Правда також, що другий випадок не обов'язково дає кращі прогнози, але ви, принаймні, можете зробити висновки щодо ймовірності епідемічних періодів та їх тривалості. Це життєво важливо для актуарних математиків, тож, може, ви є одним?


Відмінна і проста відповідь. Ви маєте помітні знання в молодому віці.
DrWho

15

Я особисто не називав би це "очищенням даних". Я думаю про очищення даних більше в сенсі редагування даних - усунення невідповідностей у наборі даних (наприклад, запис повідомляє про вік 1000 років, або людина у віці 4 років є самотнім батьком тощо).

Наявність реального ефекту у ваших даних не робить його "брудним" (навпаки, наявність реальних ефектів зробить його багатим) - хоча це може зробити ваше математичне завдання більш задіяним. Я б запропонував таким чином "очистити" дані, якщо це єдино можливий спосіб отримати прогноз. Якщо є здійсненний спосіб, який не викидає інформацію, тоді використовуйте це.

Це здається, що ви можете отримати користь від якогось циклічного аналізу, враховуючи, що, за вашими словами, цей ефект виникає періодично (на кшталт "бізнес-циклу").

З моєї точки зору, якщо ви дивитесь на щось прогнозування, то видалення справжнього ефекту з цього джерела може лише погіршити ваші прогнози. Це тому, що ви фактично "викинули" ту саму інформацію, яку хочете передбачити!

Інший момент полягає в тому, що може бути важко визначити, яка кількість наборів смертей була наслідком епідемії, а скільки була викликана звичайними коливаннями.

У статистичній термінології епідемія звучить так, з вашої точки зору, це "неприємність" для того, що ви насправді хочете проаналізувати. Тож вас це не особливо цікавить, але вам потрібно якось це врахувати у своєму аналізі. Один з "швидких і брудних" способів зробити це в умовах регресії - включити показник епідемічних років / періодів як регресивну змінну. Це дасть вам середню оцінку ефекту епідемій (і неявно припускає, що вплив є однаковим для кожної епідемії). Однак такий підхід працює лише для опису ефекту, оскільки при прогнозуванні ваша змінна регресія невідома (ви не знаєте, які періоди в майбутньому будуть епідемічними).

Інший спосіб обліку епідемії - використання моделі суміші з двома компонентами: одна модель для епідемічної частини та одна модель для «звичайної» частини. Потім модель проходить у два етапи: 1) класифікуйте період як епідемічний або нормальний, потім 2) застосуйте модель, до якої вона була класифікована.


(+1) приємні пропозиції, хоча, можливо, більше не дуже брудних хитрощів.
Дмитро Челов

+1; Щодо нащадків, я хочу зробити такий коментар: Ви заявляєте, що "видалення справжнього ефекту ... може лише погіршити ваші прогнози". У контексті ви абсолютно праві, але в загальному випадку це не обов'язково відповідає дійсності. (Я маю на увазі «компроміс-варіацію компромісу», що є великою справою в прогнозуванні моделювання.) Знову ж, я думаю, що ти тут правий, і я знаю, що ти знаєш про компромісію зміщення дисперсії; Я хочу згадати це для всіх, хто в майбутньому стикається з цією відповіддю і може неправильно трактувати це твердження.
gung - Відновити Моніку

5

Щоб дати вам загальну відповідь на ваше запитання, дозвольте мені парафаризувати одного з моїх старих загальних менеджерів: можливості дослідження знаходяться в інших моделях, які вам підходять.

Ситуація схожа на експеримент, проведений моїм Робертом Міліканом при визначенні заряду електрона. Десятиліття після вигравання Нобелівської премії за його експеримент, його замітки були вивчені, і було встановлено, що він викинув велику кількість точок даних, оскільки вони не погодилися з результатами, які він шукав. Це погана наука?

Якщо ви знайдете декількох людей, що вижили, то, можливо, вони пов’язані із "статистичними аббаціями". Однак якщо ви знайдете більше кількох людей, які потребують виходу, вам потрібно уважніше вивчити свої дані. Якщо ви не можете приписати причину аббацій, то ви не розумієте процес, і статистична модель не вирішить вашу проблему. Мета моделі - узагальнити процес, модель не буде магічно узагальнити процес, який експериментатор не розуміє.


Це людська тенденція. Роберт Мілікан не був винятком. Я дуже радий, що так багато нових речей було просвітлено і підкреслено філософію статистичної моделі.
DrWho

5

Роль "очищення даних" полягає у визначенні того, коли "наші закони (модель) не працюють". Налаштування для Outliers або ненормальних точок даних служать для того, щоб ми могли отримати "надійні оцінки" параметрів у поточній моделі, яку ми розважаємо. Ці "залишків", якщо не лікувати, дозволяють небажане спотворення параметрів моделі, оскільки оцінка "змушена пояснювати ці точки даних", які "не ведуть себе відповідно до нашої гіпотезованої моделі". Іншими словами, існує велика окупність у плані поясненої суми квадратів, зосереджуючись на "поганих". Емпірично визначені моменти, які потребують очищення, повинні бути ретельно вивчені, щоб потенційно розвинути / запропонувати причини факторів, яких немає в сучасній моделі.

Як оцінити ефект втручання в одному стані та іншому, використовуючи щорічний рівень летальності?

Займатися наукою - це пошук повторних зразків.

Виявити аномалії - це визначити значення, які не відповідають повторним шаблонам. Як інакше ви могли б знати, що точка порушила цю модель? Насправді процес вирощування, розуміння, знаходження та вивчення інших людей повинен бути ітеративним. Це не нова думка.

Сер Френсіс Бекон, писавши в Novum Organum близько 400 років тому, сказав: "Помилки природи, спорту та монстрів виправляють розуміння звичайних речей і розкривають загальні форми. Бо хто знає шляхи Природи, легше помітить її відхилення; і, з іншого боку, той, хто знає її відхилення, більш точно опише її шляхи ».

Ми змінюємо наші правила, спостерігаючи, коли діючі правила не відповідають.

Якщо дійсно ідентифіковані люди, що мають останню, є імпульсами та мають подібні ефекти (розмір), тоді ми пропонуємо наступне (цитується з іншого плаката)

"Один з" швидких і брудних "способів зробити це в умовах регресії - це включити показник для епідемічних років / періодів як змінну регресору. Це дасть вам середню оцінку ефекту епідемій (і неявно передбачається, що вплив є те саме для кожної епідемії). Однак цей підхід працює лише для опису ефекту, оскільки при прогнозуванні ваша змінна регресія невідома (ви не знаєте, які періоди в майбутньому будуть епідемічними) ".

Це, якщо звичайно вимагає, щоб окремі аномалії (роки пульсу) мали подібний вплив. Якщо вони відрізняються, описана вище змінна portmanteau була б неправильною.


@IrishStat: Чудове пояснення та незабутня цитата. Ви продовжували свій стаж та досвід. Чи можете ви ласкаво розширити своє твердження "знання, які чекають, щоб їх відкрили" з посиланням на моє попереднє запитання stats.stackexchange.com/questions/8358/…
DrWho

1
@DrWHO: Ідентифікація SHIFT LEVEL у 2014 році, яка усунула дуже поганий зовнішній вигляд, є прикладом "знань, які чекають, щоб їх відкрити", оскільки це відкрило очевидну затримку між датою зміни політики та її повною датою реалізації / реалізації. твердження про те, що постійний зсув (ступінчастий) зміст був повністю реалізований у 2004 році (рік 11 із 17), відображає фактичну дату, де як де-юре була раніше декілька років.
IrishStat

@IrishStat: Дякую за роз’яснення. Дуже важко переконати політиків, лікарів та громадськість, що певне лікування може призвести до кардинальних змін у результаті захворювання. Це займає десятиліття. Цей зсув рівня спостерігався у 2004 році, що відображає затримку прийняття чогось нового. Чи краще залишити зміну рівня або розглянути це як виразник для обчислення ставок
загибелі

1
мій коментар вище повинен був бути РІВНЕМ SHIFT 2004 року. Вибачте за плутанину.
IrishStat

1
@DrWHO: У відповідь на ваше запитання "Чи краще залишити зсув рівня або розглянути його як виразник для обчислення коефіцієнтів смертності випадків у Стані 1 під час розгляду питання". Якщо ви не звертаєтесь до цього, то можна просто сказати, що STATE1 змінився зсув рівня в 2004 році, в той час як STATE2 цього не зробили, але вони не можуть розміщувати ймовірність цього твердження. Після обробки STATE1 для рівня зсуву рівень нормалізував дані для зміни статусу в 2004 році. Нормалізовані дані (очищені дані) можна порівняти з нормалізованими даними STATE2 без втрати загальності.
IrishStat

5

Одним з найбільш часто використовуваних методів пошуку епідемій за ретроспективними даними є насправді шукати людей, які переживають - багато дослідників грипу, наприклад, в першу чергу зосереджуються на рештках своїх пристосованих моделей, а не на самих моделях, щоб побачити місця, де "день щодня, "прогнози моделі провалюються - один із способів невдачі моделі - це поява епідемії.

Однак важливо, що ви розмежовуєте те, що винищуєте людей, що втратили людину, у своїх результатах - можливо, це не найкраща ідея ніколи - і те, що більшість людей називають "очищенням даних". Тут ви шукаєте людей, що не мають статусу інших людей, не тому, що вони представляють статистичну проблему, а тому, що вони викликають питання якості даних.

Наприклад, у наборі даних, який я маю, є змінна для початку захворювання. Для однієї теми ця дата припадає на листопад 1929 року. Я вважаю, що це правильно? Ні. Це вказує на проблему якості даних, яку потрібно виправити - у цьому випадку виправляючи дату на основі іншої інформації про тему. Цей тип очищення даних активно покращить якість ваших статистичних результатів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.