Я намагаюся знайти формулу, метод чи модель, яку б використати для аналізу ймовірності того, що конкретна подія вплинула на деякі поздовжні дані. Мені важко зрозуміти, що шукати в Google.
Ось приклад сценарію:
Image Ви є власником бізнесу, який щодня має в середньому 100 відвідувачів. Одного разу ви вирішите, що хочете збільшувати кількість відвідувачів, які щодня приходять у ваш магазин, тому витягуєте шалений трюк за межами магазину, щоб привернути увагу. Протягом наступного тижня ви бачите в середньому 125 клієнтів на день.
Протягом наступних кількох місяців ви знову вирішите, що хочете зайнятися ще одним бізнесом і, можливо, підтримаєте його трохи довше, тож ви спробуєте деякі інші випадкові речі, щоб отримати більше клієнтів у вашому магазині. На жаль, ви не найкращий маркетолог, і деякі ваші тактики мало чи взагалі не впливають, а інші навіть негативно впливають.
Яку методологію я міг би використати для визначення ймовірності того, що будь-яка окрема подія позитивно чи негативно вплинула на кількість відвідувачів? Я цілком усвідомлюю, що кореляція не обов'язково є рівною причинно-наслідковою причиною, але які методи я можу використовувати, щоб визначити ймовірне збільшення чи зменшення щоденної прогулянки вашого бізнесу у клієнта після конкретної події?
Мені не цікаво аналізувати, чи існує взаємозв’язок між вашими спробами збільшити кількість відвідувачів, а більше, чи вплинула чи не одна окрема подія, незалежна від усіх інших.
Я розумію, що цей приклад є досить надуманим та спрощеним, тому я також дам вам короткий опис фактичних даних, які я використовую:
Я намагаюся визначити вплив того чи іншого маркетингового агентства на веб-сайт свого клієнта, коли вони публікують новий вміст, проводять кампанії в соціальних мережах тощо. Для будь-якого конкретного агентства вони можуть мати від 1 до 500 клієнтів. У кожного клієнта є веб-сайти розміром від 5 сторінок до понад 1 мільйона. Протягом останніх 5 років кожне агентство анотувало всю свою роботу для кожного клієнта, включаючи тип роботи, яку виконували, кількість веб-сторінок на веб-сайті, на які впливали, кількість витрачених годин тощо.
Використовуючи наведені вище дані, які я зібрав у сховище даних (розміщений у купі схем зірки / сніжинки), мені потрібно визначити, наскільки ймовірно, що будь-яка робота (будь-яка одна подія в часі) мала вплив на на трафік, що потрапляє на будь-яку / всі сторінки, впливає конкретна робота. Я створив моделі для 40 різних типів контенту, які знаходяться на веб-сайті, який описує типову схему трафіку, яку сторінка із зазначеним типом вмісту може відчуватись від дати запуску до сьогодні. Нормалізований відносно відповідної моделі, мені потрібно визначити найбільшу і найменшу кількість збільшених або зменшених відвідувачів певної сторінки, отриманої в результаті конкретної роботи.
Хоча я маю досвід аналізу базових даних (лінійної та багаторазової регресії, кореляції тощо), я не знаю, як підійти до вирішення цієї проблеми. Якщо в минулому я, як правило, аналізував дані за допомогою декількох вимірювань для даної осі (наприклад, температура в порівнянні з спрагою і твариною, і визначав вплив на спрагу, яка збільшувалась помірне значення для тварин), я відчуваю, що вище, я намагаюся проаналізувати вплив однієї події в якийсь момент часу для нелінійного, але передбачуваного (або принаймні спроможного для моделювання) поздовжнього набору даних. Я наткнувся :(
Будь-яка допомога, поради, вказівки, рекомендації чи вказівки були б надзвичайно корисними, і я буду вічно вдячний!