Показник оцінки прогнозу для панельних / поздовжніх даних


11

Мені хотілося б оцінити кілька різних моделей, які забезпечують передбачення поведінки на щомісячному рівні. Дані збалансовані, і 100 000 і T = 12. Результат відвідує концерт у визначеному місяці, тож він дорівнює нулю для ~ 80% людей у ​​будь-якому місяці, але довгий правий хвіст важких користувачів. Прогнози, які я маю, схоже, не поважають підрахунку результату: переважають дробові концерти.n=T=

Я нічого не знаю про моделі. Я тільки спостерігати 6 різних прогнозів чорного ящика у 1 , . . . , У 6 для кожної людини в місяць. У мене є додатковий рік даних про те, що модельєри не мали для оцінки (хоча концертники залишаються однаковими), і я хотів би оцінити, де кожен виступає добре (з точки зору точності та точності). Наприклад, чи прогнозує якась модель добре для часто відвідувачів концертів, але не вдається для картоплі? Чи прогноз на січень кращий, ніж прогноз на грудень? Крім того, було б непогано знати, що прогнози дозволяють мені правильно класифікувати людей з точки зору фактичних даних, навіть якщо точній величині не можна довіряти.y^1,...,y^6

Моя перша думка полягала в тому, щоб запустити регресії з фіксованими ефектами, фактичні на передбачувані манекени та час, і подивитися на RMSE або для кожної моделі. Але це не дає відповіді на питання про те, де кожна модель працює добре, чи відмінності значні (якщо я не завантажую RMSE). Розподіл результатів мене також хвилює при такому підході.R2

Друга моя ідея полягала в тому, щоб розподілити результат на 0, 1-3 і 3+ і обчислити матрицю плутанини, але це ігнорує часовий вимір, якщо я не зроблю 12 з них. Це також досить грубо.

Мені відомо про команди Stata concordвід TJ Steichen та NJ Cox - які є цією by()можливістю, але це вимагало б збір даних до річних підсумків. Це обчислює індекс співвіднесеності Ліна з інтервалами довіри, серед інших корисних статистичних даних. CCC коливається від -1 до 1, з ідеальною згодою в 1.

csomersdclusterc=0.5c=1

Як би ви вирішили цю проблему? Чи запропонували б ви обчислити статистику типу MAPE, яка є загальною для прогнозування?


Корисні речі, знайдені дотепер:

  • Слайди за повторною мірою версії коефіцієнта кореляції коефіцієнта узгодження Ліна

Нам потрібно знати більше про поведінку, чи це порядкове / двійкове / безперервне значення? Оскільки цей експеримент є поздовжнім, чи полягає ваш інтерес у прогнозуванні чи прогнозуванні результатів у людини? Моделі змішаних ефектів використовуються для висновку, а не для прогнозування. Вони не працюють, тому що для прогнозування вам потрібна оцінка випадкового ефекту.
AdamO

Фактична поведінка або рахується, або є постійною. Прогнози всі суцільні. Мені хотілося б побачити, наскільки хороші місячні прогнози на індивідуальному рівні.
Мастеров Димитрій Васильович

Yi=12^=f(Xi=12,11,,1,Yi=11,10,,1Yi=I^=f(Xi=I,I1,,1,Yi=I1,I2,,1Yi^=f(Xi)

iY^i,1=f(Yi,t1,Xi,t).Y^i,2=f(Y^i,1,Xi,2)Yi,tY^i,t

оцінка передбачає оцінку параметрів, які можуть бути частиною "навчання" для прогнозної моделі, але я думаю, ви хочете сказати, що ваш зразок використовується для підготовки прогнозної моделі. Те, що ви тут висловлюєте, - це умовний напівмарковський процес і має унікальні програми в прогнозуванні.
AdamO

Відповіді:


1

Для оцінки прогнозної здатності напівмарківського прогнозу існує ряд методів залежно від розміру вибірки та іншої наявної інформації.

Оцінюючи будь-яку модель прогнозування / прогнозування, ви маєте можливість перехресної валідації (зокрема, перехресну валідацію вибіркового вибору або повторне розділення вибірки), де модель оцінюється в "навчальному" зразку, а невизначеність моделі оцінюється "валідацією" зразок. Залежно від розподілу результатів, існує ряд заходів, за допомогою яких можна вибрати модель серед панелі придатних моделей. Що стосується загальних непараметричних заходів для вибору моделі, людям дуже подобаються AIC та BIC, особливо останні.

CCC і c-статистика використовується для оцінки бінарних прогнозів поперечного перерізу, як-от тестів / аналізів, тому вам доведеться їх виключити, якщо ви прогнозуєте, скажімо, ІМТ або IQ. Вони вимірюють калібрування (як тест Хосмера Lemeshow) і те, що називається здатністю до стратифікації ризику. Ніякого інтуїтивного зв’язку з постійними результатами немає, принаймні не наскільки я можу сказати.

З іншого боку, RMSE використовується для оцінки безперервних прогнозів (крім випадків прогнозування ризику, в якому RMSE іменується оцінкою Brier, досить архаїчного та застарілого інструменту оцінювання моделі). Це прекрасний інструмент і, ймовірно, використовується для калібрування до 80% прогнозних моделей, з якими ми стикаємося щодня (прогнози погоди, енергетичні рейтинги, MPG на транспортних засобах тощо).

Застереження в роздільній валідації вибірки або перекомпонування для оцінки прогнозних моделей полягає в тому, що ви можете бути зацікавлені в майбутніх результатах лише тоді, коли ваш зразок залишить вас передбачення минулих результатів. Не робіть цього! Це не відображає застосування моделей і може сильно коливатися на вибір негативно. Прокручуйте всю наявну інформацію та прогнозуйте майбутні, непомічені результати у всіх доступних випадках.

Практично будь-яка книга застосованих лінійних моделей охоплюватиме прогнозування, RMSE та нюанси навчальних та валідаційних моделей. Хорошим початком були б Кутнер, Нахтсгайм, Нетер, Лі, також розглядайте "Аналіз часових рядів" Diggle, "Diggle Heagerty Zeger Li", "Поздовжній аналіз даних" та потенційно Гарреллові "Стратегії моделювання регресії".


CCC та Harrell's c можуть використовуватися з постійними результатами. ККК також здійснює неодноразові заходи. Дивіться посилання / посилання, які я додав у запитанні.
Мастеров Димитрій Васильович

Не має значення. Ви не класифікуєте.
АдамО
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.