Припускаючи, що у вашому конкретному випадку немає нічого особливого, я думаю, що є хороший аргумент або для використання за замовчуванням (середня квадратична помилка), або використання середнього значення помилки журналів, або навіть помилки чи-квадрата.
Мета функції витрат полягає в тому, щоб виразити, наскільки ви "засмучені" неправильними прогнозами, зокрема, яка "неправильність" вас найбільше турбує. Це особливо важливо для двійкових відповідей, але може мати значення в будь-якій ситуації.
Середня квадратна помилка (відповідей)
C=1n∑i(Yi−Y^i)2
Використовуючи MSE, ви однаково чутливі до помилок зверху та знизу та однаково чутливі до великих та малих прогнозів. Це досить стандартна річ, і тому я не думаю, що в більшості ситуацій нахмурилися б.
Середня квадратична помилка (відповідей журналу)
C=1n∑i(lnYi−lnY^i)2
Оскільки ви працюєте з даними підрахунку, можна стверджувати, що ви не симетричні, ані розміри байдужі. Невиконання на 10 підрахунків для прогнозування 10 сильно відрізняється від прогнозування 1000. Це дещо "канонічна" функція витрат, оскільки ви відповідали витратам до функції зв'язку. Це гарантує, що ці витрати відповідають розподілу дисперсії, що передбачається в моделі.
Помилка Chi-Squared
C=1n∑i(Yi−Y^i)2Y^i
Третім способом було б використання помилки чи-квадрата. Це може бути особливо привабливим, якщо ви порівнюєте свій GLM з іншими моделями на основі підрахунку, особливо якщо у вашому GLM є фактори. Подібно до відповідей журналу помилок, це буде масштабуватися за розміром, але воно симетричне навколо передбачуваного підрахунку. Тепер ви оцінюєте корисність на основі відсоткових помилок.
Про дискретність
Питання наводить приклад документації, де вони мають бінарну змінну відповіді, тому використовуйте іншу функцію витрат. Питання для двійкової відповіді полягає в тому, що GLM прогнозує реальне число між 0 і 1, хоча відповідь завжди точно 0 або 1. Цілком справедливо сказати, що чим ближче це число до правильної відповіді, тим краще прогноз, але часто люди цього не хочуть. Зважаючи на те, що часто потрібно діяти або як 0 або 1, і тому буде прийнято що-небудь менше 0,5 як прогноз на 0. У цьому випадку є сенс просто порахувати кількість "неправильних" прогнозів. Аргумент тут полягає в тому, що для істинного / помилкового запитання ви можете будь-коли бути правильним чи неправильним - немає градації неправильності.
Y^
cv.glmnet
в пакетіglmnet
використовуєtype.measure="deviance"
для сімейства Пуассонів.