Як порівняти точність двох різних моделей, використовуючи статистичну значимість


10

Я працюю над прогнозуванням часових рядів. У мене є два набори даних і . У мене є три моделі прогнозування: . Усі ці моделі навчаються за допомогою зразків у наборі даних , а їх продуктивність вимірюється за допомогою зразків у наборі даних . Скажімо, показники ефективності - MSE (або що-небудь ще). MSE цих моделей при вимірюванні для набору даних це та . Як я можу перевірити, що вдосконалення однієї моделі над іншою є статистично значущим.D1={х1,х2,....хн}D2={хн+1,хн+2,хн+3,....,хн+к}М1,М2,М3D1D2D2МSЕ1,МSЕ2,МSЕ3

Наприклад, скажімо, , , , а загальна кількість вибірки в наборі даних на основі яких обчислюється MSE, становить 2000. Як я можу перевірити, що , та значно відрізняються . Я дуже вдячний, якщо хтось може мені допомогти у цій проблемі.МSЕ1=200МSЕ2=205МSЕ3=210D2МSЕ1МSЕ2МSЕ3

Відповіді:


1

Один із пов’язаних публікацій вище натякає на використання тесту на коефіцієнт ймовірності, хоча ваші моделі повинні бути вкладені одна в одну, щоб це працювало (тобто всі параметри в одній із моделей повинні бути присутніми в тій моделі, на яку ви її тестуєте) .

RMSE - це явно міра того, наскільки добре модель відповідає даних. Однак таке співвідношення ймовірності. Ймовірність для даної людини, кажуть місіс Чен, - це ймовірність того, що людина з усіма її параметрами мала результат. Спільна ймовірність набору даних - це ймовірність місіс Чен * ймовірність місіс Гундерсен * ймовірність місіс Джонсон * ... і т.д.

Додавання коваріату або будь-якої кількості коваріатів насправді не може погіршити коефіцієнт ймовірності, я не думаю. Але це може покращити коефіцієнт ймовірності на незначну суму. Моделі, які краще підходять, матимуть більшу ймовірність. Ви можете офіційно перевірити, чи краще модель A підходить до моделі B. Ви повинні мати якусь функцію тестування LR, доступну для будь-якого програмного забезпечення, яке ви використовуєте, але в основному статистика тесту LR становить -2 * різниця журналів ймовірностей, і він розподіляється chi-square з df = різниця в кількості параметрів.

Крім того, можна порівняти AIC або BIC двох моделей та знайти найнижчу. AIC і BIC - це, по суті, ймовірність журналу, що накладається на певні параметри.

Я не впевнений у використанні t-тесту для RMSE, і я б насправді схилявся до нього, якщо ви не зможете знайти якусь теоретичну роботу, яка була зроблена в цьому районі. В основному, чи знаєте ви, як значення RMSE розподіляються асимптотично? Я не впевнений. Деякі подальші дискусії тут:

http://www.stata.com/statalist/archive/2012-11/index.html#01017


0

Ця відповідь не враховує факту, що ваші дані формують часовий ряд, але я не думаю, що це буде проблемою.

Під час використання RMSE цей пост пропонує використовувати t-тест: Тестування значущості RMSE моделей

Ви також можете використовувати кореляцію Пірсона, щоб оцінити свою придатність. Відповідно до цієї публікації, ви можете використовувати для цього тест Вольфа: Статистична значимість збільшення кореляції

Зараз я намагаюся дізнатися про ту саму проблему. Я би сам вдячний більш детальними відповідями.


0

Є два основні способи зробити це, але спочатку я оскаржую думку про те, що ви хочете вибрати лише один. Швидше за все, ансамблева модель з трьох окремих моделей досягне найкращих показників із усіх.

Основний, можливо, найкращий спосіб зробити це - використовувати модель для отримання інтервалів довіри навколо метрики оцінювання. Зазвичай це робиться за допомогою завантажувального завантаження ( або завантажувального пуассона Пуассона ).

Інший спосіб - використовувати статистичний тест. Кожен тест дає різні припущення, і вони часто використовуються для порівняння значення або вибірки, взятої з розподілу, а не оцінки одного балу. Багато з цих статистичних тестів формально вимагають незалежності, якої у вас зазвичай немає при порівнянні декількох результатів однієї моделі або декількох моделей за даними часових рядів.

Зокрема, передбачуючи часові ряди, вам слід робити тести з повторною перевіркою та оцінкою помилок поїздів та тестів кожного разу ( приклад ). Коли ви це робите, я сумніваюся, що ваші моделі будуть працювати так само, що вам потрібен статистичний тест для диференціації; швидше за все, ви побачите великі відмінності.

Зауважимо також, що історичні показники оцінки (порівнюючи фактичні фактичні показники з прогнозними) лише недостатньо для оцінки прогнозу. З огляду на два прогнози, які ідеально відповідають відомим історичним даним, але одне також відповідає попереднім уявленням про майбутнє, а інше явно порушує (наприклад, якщо один зникає до нуля, але у вас є підстави вважати, що цього не може відбутися), ви віддасте перевагу передбаченню що краще відповідає вашому попередньому.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.