У мене є дані з подвійним піком, які я намагаюся моделювати, і між вершинами достатньо перекриття, що я не можу їх самостійно лікувати. Гістограма даних може виглядати приблизно так:
Для цього я створив дві моделі: одна використовує два розподіли Пуассона, а друга використовує два негативних біноміальних розподілу (для обліку наддисперсії). Який підходящий спосіб визначити, яка модель точніше відповідає даних?
Моя початкова думка полягає в тому, що я міг би використати тест Колмогорова-Смірнова для порівняння кожної моделі з даними, а потім зробити тест на коефіцієнт ймовірності, щоб перевірити, чи є одна з них значно кращою. Це має сенс? Якщо так, я не точно впевнений, як виконати тест на коефіцієнт ймовірності. Чи підходить чі-квадрат, і скільки я маю свободи?
Якщо це допомагає, деякий (дуже спрощений) код R для моделей може виглядати приблизно так:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
Редагувати: Ось зображення, яке може пояснити дані та розподіли, які мені краще підходять. З візуалізації абсолютно зрозуміло, що друга модель (використовуючи негативне біноміальне відхилення для обліку наддисперсії) є кращим підходом. Я хотів би показати це кількісно.
(червоний - дані, зелений - модель)