Припустимо, у мене трохи більше 20 000 часових рядів, що тривають від січня 2005 року до грудня 2011 року. Кожен з них представляє глобальні дані про продажі для іншого товару. Що робити, якщо замість обчислення прогнозів для кожного з них я хотів зосередитись лише на невеликій кількості продуктів, які "насправді мають значення"?
Я міг би класифікувати ці продукти за загальним річним доходом і скласти список за класичним парето. І все ж мені здається, що, хоча вони і не роблять великого внеску в підсумки, деякі продукти настільки легко передбачити, що відмовитися від них буде погано. Товар, який продається на суму 50 доларів щомісяця протягом останніх 10 років, може виглядати не так вже й багато, але для створення прогнозів щодо майбутніх продажів потрібно так мало зусиль, що я можу це зробити.
Скажімо, я поділяю свою продукцію на чотири категорії: високий дохід / легко прогнозувати - низький дохід / легко прогнозувати - високий дохід / важко прогнозувати - низький дохід / важко прогнозувати.
Думаю, було б розумно залишити після себе лише ті часові ряди, що належать до четвертої групи. Але як саме я можу оцінити "передбачуваність"?
Коефіцієнт варіації здається гарною відправною точкою (я також пам’ятаю, що бачив про це деякий документ тому). Але що робити, якщо мій часовий ряд демонструє сезонність / зсув рівня / календарні ефекти / сильні тенденції?
Я вважаю, що слід базувати свою оцінку лише на мінливості випадкової складової, а не на одній із "необроблених" даних. Або я щось пропускаю?
Хтось раніше натрапляв на подібну проблему? Як би ви, хлопці, пішли про це?
Як завжди, будь-яка допомога дуже цінується!