Виявлення залишків у даних підрахунку


21

У мене є те, що я наївно вважав проблемою досить прямої, яка передбачає виявлення зовнішньої кількості для багатьох різних наборів даних про підрахунок. Зокрема, я хочу визначити, чи одне або більше значень у ряді даних підрахунку є вищими чи нижчими, ніж очікувалося, щодо решти підрахунків у розподілі.

Помилковий фактор полягає в тому, що мені потрібно зробити це для 3500 розподілів, і, ймовірно, деякі з них помістять нульовий надутий наддисперсний пуассон, а інші можуть найкраще відповідати негативному двочленному чи ZINB, тоді як інші можуть бути нормально розподілені. З цієї причини прості Z-бали чи побудова схеми розподілу не підходять для більшості наборів даних. Ось приклад даних про кількість підрахунків, за якими я хочу виявити людей, що переживають.

counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 
         0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0 
         2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 
         0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
         0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 
         1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14 
         15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15 
         15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.

Спочатку я думав, що мені потрібно написати цикл в Python або R, який застосує набір моделей до кожного розподілу і вибрати найкращу модель, що відповідає розміру, відповідно до AIC або іншої (можливо, fitdistrplus в R?). Тоді я міг би запитати, які були крайнощі для даного розподілу (підрахунки, які потрапляють у хвости, наприклад, чи вважатиметься, що "4" буде перевершенням у розподілі counts1 вище?). Однак я не впевнений, що це правильна стратегія, і мені прийшло в голову, що може існувати проста методика визначення випускників, в даних про кількість яких я не знав. Я широко шукав і не знайшов нічого, що могло би відповідати моїй проблемі, враховуючи кількість розповсюджень, які я хочу переглянути.

Моя кінцева мета - виявити значне збільшення чи зменшення підрахунку для кожного розподілу рахунків, використовуючи найбільш статистично відповідну методологію.

Відповіді:


23

Ви не можете використовувати відстань спостереження від класичного пристосування ваших даних для надійного виявлення залишків, тому що використовувана вами процедура підлягання може бути тягнена до вибуху (це називається ефектом маскування). Один з простих способів надійного виявлення людей, що вижили, - це використати загальну ідею, яку ви запропонували (відстань від пристосування), але замінити класичні оцінювачі на надійні, набагато менш сприйнятливі до того, щоб їх коливали люди, що переживають люди. Нижче я представляю загальну ілюстрацію ідеї, а потім обговорюю рішення вашої конкретної проблеми.

N(0,1)

x<-c(-2.21,-1.84,-.95,-.91,-.36,-.19,-.11,-.1,.18,
.3,.31,.43,.51,.64,.67,.72,1.22,1.35,8.1,17.6)

(останні два справді повинні бути .81 та 1,76, але були випадково помилково введені).

Використання правила виявлення зовнішнього типу, заснованого на порівнянні статистики

|хi-проспект(хi)|sd(хi)

sdsd

Якби ви замість цього використали надійну статистику:

|хi-мед(хi)|божевільний(хi)

zsd

(в інтересах повноти я мушу зазначити, що деякі люди, навіть у цей вік і добу, вважають за краще чіпляти сирі - необрізні - оцінка 4,35, а не використовувати більш точну оцінку, засновану на обрізанні, але це для мене незрозуміло )

Для інших дистрибутивів ситуація не така вже й інша, лише те, що вам доведеться спочатку попередньо трансформувати свої дані. Наприклад, у вашому випадку:

Х

Y=2Х

Y>мед(Y)+3

Х

YN(мед(Y),1)

λ

λλ=3

p

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.