У мене є те, що я наївно вважав проблемою досить прямої, яка передбачає виявлення зовнішньої кількості для багатьох різних наборів даних про підрахунок. Зокрема, я хочу визначити, чи одне або більше значень у ряді даних підрахунку є вищими чи нижчими, ніж очікувалося, щодо решти підрахунків у розподілі.
Помилковий фактор полягає в тому, що мені потрібно зробити це для 3500 розподілів, і, ймовірно, деякі з них помістять нульовий надутий наддисперсний пуассон, а інші можуть найкраще відповідати негативному двочленному чи ZINB, тоді як інші можуть бути нормально розподілені. З цієї причини прості Z-бали чи побудова схеми розподілу не підходять для більшості наборів даних. Ось приклад даних про кількість підрахунків, за якими я хочу виявити людей, що переживають.
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
Спочатку я думав, що мені потрібно написати цикл в Python або R, який застосує набір моделей до кожного розподілу і вибрати найкращу модель, що відповідає розміру, відповідно до AIC або іншої (можливо, fitdistrplus в R?). Тоді я міг би запитати, які були крайнощі для даного розподілу (підрахунки, які потрапляють у хвости, наприклад, чи вважатиметься, що "4" буде перевершенням у розподілі counts1 вище?). Однак я не впевнений, що це правильна стратегія, і мені прийшло в голову, що може існувати проста методика визначення випускників, в даних про кількість яких я не знав. Я широко шукав і не знайшов нічого, що могло би відповідати моїй проблемі, враховуючи кількість розповсюджень, які я хочу переглянути.
Моя кінцева мета - виявити значне збільшення чи зменшення підрахунку для кожного розподілу рахунків, використовуючи найбільш статистично відповідну методологію.