Повне розкриття інформації: я не статистик, і не претендую на те, щоб бути його. Я низько ІТ-адміністратор. Будь ласка, пограй зі мною ніжно. :)
Я відповідальний за збір та прогнозування використання дискового накопичувача для нашого підприємства. Ми збираємо щомісяця користування пам’яттю та використовуємо просту прогресивну лінійну регресію на дванадцять місяців (іншими словами, при прогнозуванні враховуються лише дані попередніх дванадцяти місяців). Ми використовуємо цю інформацію для планування розподілу та капітальних витрат, наприклад, "Виходячи з цієї моделі, нам потрібно придбати х суму, якщо зберігання протягом y місяців, щоб задовольнити наші потреби". Це все працює досить добре, щоб відповідати нашим потребам.
Періодично ми маємо великі одноразові рухи в нашій кількості, що відкидає прогнозування. Наприклад, хтось знаходить 500 ГБ старих резервних копій, які вже не потрібні, і видаляє їх. Добре їм, що повернули космос! Однак наші прогнози тепер перекриваються цим великим падінням за один місяць. Ми завжди просто приймали, що подібне падіння потребує 9-10 місяців, щоб вийти з моделей, але це може бути дуже довго, якщо ми входимо в сезон планування капітальних витрат.
Мені цікаво, чи є спосіб обробляти ці одноразові відхилення таким чином, щоб прогнозовані значення не впливали настільки сильно (наприклад, нахил лінії не змінюється так сильно), але вони враховуються (наприклад, одноразова зміна значення y, пов'язане з певним моментом часу). Наші перші спроби вирішити цю проблему дали кілька негативних результатів (наприклад, експоненціальні криві зростання). Ми виконуємо всю нашу обробку в SQL Server, якщо це має значення.