Показники помилок для перехресних перевірок моделей Пуассона


29

Я схрещую валідацію моделі, яка намагається передбачити кількість. Якби це була проблема бінарної класифікації, я б обчислював AUC, що перевершується, і якщо це проблема з регресією, я б обчислював RMSE або MAE, що не перевищується.

Для моделі Пуассона, які показники помилок можна використовувати для оцінки "точності" позапробних прогнозів? Чи є розширення Пуассона AUC, яке вивчає, наскільки добре прогнози впорядковують фактичні значення?

Здається, що багато змагань Kaggle за підрахунок (наприклад, кількість корисних голосів, які отримає огляд yelp, або кількість днів, які пацієнт проведе в лікарні), використовують кореневу помилку середнього журналу в квадраті або RMLSE.


/ Редагувати: Одне, що я робив, - це обчислення децилів передбачуваних значень, а потім перегляд фактичних підрахунків, поповнених децилом. Якщо дециль 1 низький, дециль 10 - високий, а децили між ними суворо збільшуються, я називав модель "хорошою", але у мене виникли проблеми з кількісною оцінкою цього процесу, і я переконався, що там краще підхід.

/ Редагувати 2: Я шукаю формулу, яка приймає передбачувані та фактичні значення та повертає деякий показник "помилки" чи "точності". Мій план полягає в тому, щоб обчислити цю функцію за неперевершеними даними під час перехресної перевірки, а потім використовувати її для порівняння найрізноманітніших моделей (наприклад, регресія пуассона, випадковий ліс та ГБМ ).

Наприклад, одна така функція RMSE = sqrt(mean((predicted-actual)^2)). Ще одна така функція буде AUC . Жодна функція, здається, не підходить для даних Пуассона.


Для моделей Пуассона ви можете використовувати відхилення; який схожий на MSE, але краще підходить до Пуассона. Якщо розміри зразків не малі, зважений MSE був би досить схожим.
Glen_b -Встановити Моніку

@Glen_b яка формула відхилення?
Зак

1
Відхилення . Як ви підходите до своєї моделі Пуассона?
Glen_b -Встановити Моніку

Кілька різних способів, починаючи від пеналізованої регресії пуассону до gbm. Я шукаю хороший показник помилок для порівняння різних моделей. Дякую за пораду.
Зак

Регресія Пуассона, принаймні, повинна автоматично надати вам відхилення
Glen_b -Встановити Моніку

Відповіді:


37

Існує пара правильних і строго правильних правил балів для підрахунку даних, які ви можете використовувати. Правила підрахунку балів - це штрафні санкції введені при цьому прогнозний розподіл є а - спостережуване значення. Вони мають ряд бажаних властивостей, перш за все, що прогноз, що наближається до справжньої ймовірності, завжди отримуватиме менше штрафу, і є (унікальний) найкращий прогноз, і це такий, коли передбачувана ймовірність збігається з істинною ймовірністю. Таким чином, мінімізуючи очікування означає повідомлення про справжні ймовірності. Дивіться також Вікіпедію .P y s ( y , P )s(y,P)Pys(y,P)

Часто середній показник приймає за всі прогнозовані значення як

S=1ni=1ns(y(i),P(i))

Яке правило взяти, залежить від вашої мети, але я дам приблизну характеристику, коли кожне добре використовувати.

У подальшому я використовую для функції передбачувальної маси ймовірностей і функції прогнозу кумулятивного розподілу. А пробігає всю підтримку розподілу рахунку (тобто ). позначає функцію індикатора. та - середнє та стандартне відхилення прогнозного розподілу (які зазвичай є безпосередньо оціненими величинами в моделях даних підрахунку). f(y)Pr(Y=y)F(y)k0,1,,Iμσ

Суворо правильні правила скорингу

  • Brier Score : (стабільний для дисбалансу розмірів у категоричних предикторах)s(y,P)=2f(y)+kf2(k)
  • Оцінка Давіда-Себастіані : (добре для загального вибору прогнозної моделі; стабільна для дисбалансу розмірів у категоричних прогнозах)s(y,P)=(yμσ)2+2logσ
  • Оцінка відхилення : ( - термін нормалізації, який залежить тільки від ; в моделях Пуассона це зазвичай приймається за насичений відхилення; добре для використання з оцінками з рамки ML)s(y,P)=2logf(y)+gygyy
  • Логарифмічний бал : (дуже легко обчислюється; стабільний для дисбалансу розмірів у категоричних прогнозах)s(y,P)=logf(y)
  • Рангований показник ймовірності : (добре для контрастування різних прогнозів дуже високих підрахунків; сприйнятливий до дисбалансу розмірів у категоричних прогнозах)s(y,P)=k{F(k)I(yk)}2
  • Сферична оцінка : (стабільна для дисбалансу розмірів у категоричних прогнозах)s(y,P)=f(y)kf2(k)

Інші правила скорингу (не дуже правильні, але часто використовуються)

  • Абсолютна оцінка помилок :(не належно)s(y,P)=|yμ|
  • Оцінка помилок у квадраті : (не суворо належно; сприйнятливі до переживань; сприйнятливі до дисбалансу розмірів у категоричних прогнозах)s(y,P)=(yμ)2
  • Нормований показник помилки Пірсона : (не суворо належно; сприйнятливий до випускників; може використовуватися для перевірки, чи перевіряється модель, чи усереднений бал сильно відрізняється від 1; стабільний дисбаланс розмірів у категоричних прогнозах)s(y,P)=(yμσ)2

Приклад R код для строго правильних правил:

library(vcdExtra)
m1 <- glm(Freq ~ mental, family=poisson, data=Mental) 

# scores for the first observation
mu <- predict(m1, type="response")[1]
x  <- Mental$Freq[1]

# logarithmic (equivalent to deviance score up to a constant) 
-log(dpois(x, lambda=mu))

# quadratic (brier)
-2*dpois(x,lambda=mu) + sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) })

# spherical
- dpois(x,mu) / sqrt(sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) }))

# ranked probability score
sum(ppois((-1):(x-1), mu)^2) + sum((ppois(x:10000,mu)-1)^2)

# Dawid Sebastiani
(x-mu)^2/mu + log(mu)

@Momo, це стара тема, але дуже гарна і корисна. Питання, однак, про логарифмічну оцінку. Ви використовували функцію -log(f(y)). Невже -знак повинен бути там? У вашому посиланні на правило вибору вікіпедії ( en.wikipedia.org/wiki/Scoring_rule#Logarithmic_scoring_rule ) логарифмічна оцінка як негативний знак: L(r,i)=ln(ri)це нормально? Нарешті, у такому випадку вищий бал кращий чи гірший?
Бастієн

Чи краще (або, принаймні, більш консервативно і реалістичніше) обчислити ці заходи на основі набору даних для перевірки, які не були частиною даних, що використовуються для оцінки моделей?
Фред

Зважаючи на те, що GLM підходять, використовуючи ітераційно зважені найменші квадрати, як у bwlewis.github.io/GLM , яке б заперечення було насправді для обчислення зваженого R2 за шкалою зв'язку GLM, використовуючи 1 / дисперсійні ваги як ваги (що GLM дає назад у гніздах гнізда в glm fit)? Це також буде працювати для Poisson glm так?
Tom Wenseleers

Дивіться stats.stackexchange.com/questions/412580/… для відтворюваного прикладу ...
Tom Wenseleers
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.