Чому мінімізація MAE призводить до прогнозування медіани, а не середньої?


20

З підручника " Прогнозування: принципи та практика " Роб Дж Хайндман та Джорджа Атанасопулоса , зокрема розділ про вимірювання точності :

Метод прогнозування, що мінімізує MAE, призведе до медіани прогнозів, тоді як мінімізація RMSE призведе до середнього прогнозу

Чи може хтось дати інтуїтивне пояснення того, чому мінімізація МАЕ призводить до прогнозування медіани, а не середньої? І що це означає на практиці?

Я запитав клієнта: "що для вас важливіше зробити точні прогнози або уникати дуже неточних прогнозів?". Він сказав, що більш точним є прогнозування середніх прогнозів. Отже, у цьому випадку я повинен використовувати MAE чи RMSE? Перш ніж прочитати це цитування, я вважав, що MAE буде кращим для такого стану. І тепер сумніваюся.

Відповіді:


17

Корисно зробити крок назад і на хвилину забути про аспект прогнозування. Розглянемо будь-який розподіл і припустимо, що ми хочемо його узагальнити, використовуючи єдине число.Ж

На уроках статистики ви дізнаєтесь дуже рано, що використання очікування як резюме єдиного числа мінімізує очікувану помилку у квадраті.Ж

Питання тепер: чому з допомогою медіани з мінімізувати очікувану абсолютну помилку?Ж

Для цього я часто рекомендую "Візуалізацію медіани як місця мінімального відхилення" від Hanley et al. (2001, Американський статистик ) . Вони створили невеликий аплет разом зі своїм документом, який, на жаль, вже не працює з сучасними браузерами, але ми можемо слідувати логіці в роботі.

Припустимо, ви стоїте перед банком ліфтів. Вони можуть бути розташовані однаково між собою, або деякі відстані між дверима ліфтів можуть бути більшими, ніж інші (наприклад, деякі ліфти можуть вийти з ладу). У передній частині якого ліфт ви повинні стояти , щоб мати мінімальний очікуваний ходити , коли один з ліфтів робить прибути? Зауважте, що ця очікувана прогулянка грає роль очікуваної абсолютної помилки!

Припустимо, у вас є три ліфти A, B і C.

  • Якщо ви зачекаєте перед A, можливо, вам доведеться піти від A до B (якщо B прибуде), або від A до C (якщо C прибуває) - проїжджаючи B!
  • Якщо ви чекаєте перед B, вам потрібно піти від B до A (якщо A прибуває) або від B до C (якщо C прибуває).
  • Якщо ви чекаєте перед С, вам потрібно піти від С до А (якщо А прибуває) - проїжджаючи Б - або з С до В (якщо Б прибуває).

Зауважте, що від першої та останньої позиції очікування існує відстань - AB в першому, BC в останньому положенні, - що вам потрібно пройтись у кількох випадках, коли під’їжджають ліфти. Тому найкраще ставити прямо перед середнім ліфтом - незалежно від того, як влаштовано три ліфти.

Ось малюнок 1 від Hanley et al .:

Хенлі та ін., Малюнок 1

Це легко узагальнює більш ніж три ліфти. Або до ліфтів з різними шансами прибути першими. Або справді безліч нескінченних ліфтів. Таким чином, ми можемо застосувати цю логіку до всіх дискретних розподілів, а потім перейти до межі, щоб досягти безперервних розподілів.

Ж^

Ж^λln2

Таким чином, якщо ви підозрюєте, що ваш прогнозний розподіл є (або повинен бути) асиметричним, як у двох випадках вище, тоді, якщо ви хочете отримати неупереджені прогнози очікування, використовуйте . Якщо розподіл можна вважати симетричним (як правило, для серій з великими обсягами), то середня і середня величина збігаються, а використання також направить вас на неупереджені прогнози - і MAE зрозуміти простіше.

Так само мінімізація може призвести до упереджених прогнозів навіть для симетричних розподілів. Ця попередня моя відповідь містить модельований приклад з асиметрично розподіленим строго позитивним (ненормально розподіленим) рядом, що може означати точкове прогнозування з використанням трьох різних точкових прогнозів, залежно від того, чи хочемо ми мінімізувати MSE, MAE або MAPE.


9

Відповідь Стефана дає вам інтуїтивне пояснення, чому мінімізація абсолютної середньої помилки дає вам медіану. Тепер, щоб відповісти, який з MSE, MAE або MAPE використовувати:

МАЕ надійний , тобто менш чутливий до людей, що втрачають чужий статус. Уявіть серію з помилкою в мільйон разів більшою, ніж вона повинна. У MSE він почне прогноз в мільйон / N разів (де N - кількість балів), тоді як MAE буде потягнуто лише за 1 одиницю.

На жаль, МАЕ не є унікальним , тому може проявляти якусь шизофренічну поведінку.

Тому моя рекомендація спочатку зробити MSE, а потім використовувати параметри MSE для початку регресії MAE.

У будь-якому випадку порівняйте обидва прогнози: якщо вони сильно відрізняються, то у ваших даних є щось смердючі.

введіть тут опис зображеннявведіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.