Коригування (лінійної регресії) прогнозу


11

Повне розкриття інформації: я не статистик, і не претендую на те, щоб бути його. Я низько ІТ-адміністратор. Будь ласка, пограй зі мною ніжно. :)

Я відповідальний за збір та прогнозування використання дискового накопичувача для нашого підприємства. Ми збираємо щомісяця користування пам’яттю та використовуємо просту прогресивну лінійну регресію на дванадцять місяців (іншими словами, при прогнозуванні враховуються лише дані попередніх дванадцяти місяців). Ми використовуємо цю інформацію для планування розподілу та капітальних витрат, наприклад, "Виходячи з цієї моделі, нам потрібно придбати х суму, якщо зберігання протягом y місяців, щоб задовольнити наші потреби". Це все працює досить добре, щоб відповідати нашим потребам.

Періодично ми маємо великі одноразові рухи в нашій кількості, що відкидає прогнозування. Наприклад, хтось знаходить 500 ГБ старих резервних копій, які вже не потрібні, і видаляє їх. Добре їм, що повернули космос! Однак наші прогнози тепер перекриваються цим великим падінням за один місяць. Ми завжди просто приймали, що подібне падіння потребує 9-10 місяців, щоб вийти з моделей, але це може бути дуже довго, якщо ми входимо в сезон планування капітальних витрат.

Мені цікаво, чи є спосіб обробляти ці одноразові відхилення таким чином, щоб прогнозовані значення не впливали настільки сильно (наприклад, нахил лінії не змінюється так сильно), але вони враховуються (наприклад, одноразова зміна значення y, пов'язане з певним моментом часу). Наші перші спроби вирішити цю проблему дали кілька негативних результатів (наприклад, експоненціальні криві зростання). Ми виконуємо всю нашу обробку в SQL Server, якщо це має значення.


Відмінне запитання. Просто швидке уточнення. Чи хотіли б ви передбачити ці події або, як тільки вони відбудуться, скорегувати прогнози моделі, враховуючи вашу нову інформацію?
Меттью Друрі

1
Правильно, незрозуміло, чи намагаєтесь ви «згладити» такі рідкісні події, як приклад 500 ГБ, щоб вони не вплинули на ваші результати чи сильно врахували їх, оскільки ви хочете зафіксувати, коли суки коригують для зберігання створені? Різниця тонка: по-перше, ви хочете майже ігнорувати нову точку (рідкісна подія), але, якщо він другий, ви хочете підкреслити крапку (рідкісна подія). Якщо це колишня, міцна регресія, мабуть, простий метод для вас, оскільки ви вже використовуєте лінійну регресію. Дивіться тут: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent

Крім того, чи використовуєте ви будь-яке програмне забезпечення для прогнозування чи використовуєте довірчі інтервали?
СтатистикаСтудент

Я можу додати коригування після факту. Насправді більшу частину часу я не знаю про велике відхилення, поки не подивлюсь цифри наступного місяця і не побачу великих змін. Я не використовую жодного програмного забезпечення для прогнозування; просто збережена процедура в SQL Server для обчислення моїх регресійних значень.
загрожує

Швидкі реакції: (а) Я, мабуть, спочатку підходив би до дуже простого AR (1) змін у використанні диска журналу? Ви в основному оцінюєте деякий довгостроковий темп зростання використання диска, і як швидко темпи зростання використання диска повертаються до цієї тенденції після шоку. (aa) Ви також можете використовувати інші дані та встановлювати VAR (векторну авторегресію). (б) викидання всіх даних> 12 місяців може бути не оптимальною справою. (c) регулярний OLS мінімізує суму квадратів. Ви можете використовувати іншу штрафну функцію (наприклад, Huber), яка є більш надійною для людей, що втратили життя.
Меттью Ганн

Відповіді:


0

Ось проста пропозиція. Я не знаю, чи працює це для вас, і, можливо, я мав би зробити це як коментар, але, здається, вам потрібно більше привілеїв, щоб зробити коментар, ніж робити відповідь.

Якщо я правильно розумію, цифри, які ви використовуєте, - це обсяг пам’яті, який ви використовуєте щомісяця. Ймовірно, це зазвичай збільшується, і ви хочете передбачити, яка сума буде в якийсь час у майбутньому, якщо тенденції продовжуватимуться. Як тільки ви зрозумієте, що ваша велика зміна сталася (наприклад, що було випущено 500 ГБ), чи можете ви повернутися назад і змінити цифри попередніх місяців (наприклад, видалити 500 ГБ з усіх)? В основному, ви б робили, щоб пристосувати показники попередніх місяців до того, яким вони повинні були бути, якби ви знали, що знаєте зараз.

Звичайно, я не рекомендую цього, якщо ви не переконаєтесь, що зможете повернутися до старих цифр. Але прогнозування, яке ви хочете зробити, звучить так, як це можна зробити навіть в Excel, і в цьому випадку ви можете мати стільки версій, скільки хочете.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.