Модель прогнозування кількості переглядів Youtube стилю Gangnam


73

Музичне відео PSY "Gangnam style" популярне, через трохи більше ніж 2 місяці його налічує близько 540 мільйонів глядачів. Про це я дізнався від своїх дітей, що перебувають у дванадцятирічному віці, на обіді минулого тижня, і незабаром дискусія пішла в бік того, чи можна зробити якесь передбачення, скільки глядачів буде за 10-12 днів і коли (/ якщо) пісня пройде 800 мільйонів глядачів або 1 мільярд глядачів.

Ось картинка від кількості глядачів з моменту публікації: PSY OGS

Ось картинка від кількості глядачів музики із музики №1 "Джастін Бівер-Бебі" та No2 "Емінем - Люби так, як ти брешеш", які обидва існують набагато довше Джастін Емінем

Моя перша спроба міркувати про модель полягала в тому, що це має бути S-крива, але це, здається, не відповідає композиціям No1 і No2, а також не підходить, що немає обмежень на кількість переглядів музичного відео може мати, лише повільніше зростання.

Отже, моє запитання: яку модель слід використовувати для прогнозування кількості глядачів музичного відео?


21
+1 для керування керуванням розмовою за обіднім столом від Gangnam до статистики. Нам потрібні такі люди, як ти!
Стефан Коласа

4
Що я можу додати до дискусії, що, сподіваюсь, буде корисним gui11aume або іншим, хто пише рівняння, щоб спробувати це моделювати, - це те, що на прикладі KONY географічне кластеринг було важливим аспектом поширення вірусів. Те, що PSY - це спочатку корейське, а потім азіатське явище, є важливою частиною історії. Не точно знаю, як би це було змодельовано, але це може бути підказкою.

Дані щодо переглядів, коментарів,
сподобань та сподобань

Відповіді:


38

Ага, відмінне запитання !!

Я б також наївно запропонував логістичну криву S-подібної форми, але це, очевидно, погано підходить. Наскільки мені відомо, постійне збільшення є приблизним, оскільки YouTube рахує унікальні перегляди (один на IP-адресу), тому не може бути більше переглядів, ніж комп'ютери.

Ми могли б використовувати епідеміологічну модель, коли люди мають різну сприйнятливість. Щоб зробити це просто, ми могли б поділити його на групу підвищеного ризику (скажімо, діти) та групу з низьким рівнем ризику (скажімо, дорослі). Назвемо питому вагу "заражених" дітей та питому вагу "заражених" дорослих за час . Я назву (невідома) кількість осіб із групи високого ризику, а - (також невідомо) число осіб із групи низького ризику.x(t)y(t)tXY

x˙(t)=r1(x(t)+y(t))(Xx(t))
y˙(t)=r2(x(t)+y(t))(Yy(t)),

де . Я не знаю, як вирішити цю систему (можливо, @EpiGrad хотів би), але, дивлячись на ваші графіки, ми могли б зробити кілька спрощення припущень. Оскільки зростання не насичується, можна вважати, що дуже великий, а малий, абоr1>r2Yy

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2x(t),

що прогнозує лінійний ріст, коли група високого ризику повністю заражена. Зауважимо, що для цієї моделі немає причин вважати , навпаки, тому що великий термін тепер підписаний у .r1>r2Yy(t)r2

Ця система вирішує проблему

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2x(t)dt+C2=r2r1log(1+C1eXr1t)+C2,

де і - константи інтеграції. Тоді загальна "заражена" популяція становить , яка має 3 параметри та 2 константи інтеграції (початкові умови). Я не знаю, як легко було б помістити ...C1C2x(t)+y(t)

Оновлення: граючи з параметрами, я не міг відтворити форму верхньої кривої з цією моделлю, перехід від до завжди різкіший, ніж вище. Продовжуючи ту ж ідею, ми знову можемо припустити, що є два види користувачів Інтернету: "акціонери" та "loners" . Акціонери заражають один одного, а самотні випадково натикаються на відео. Модель є0600,000,000x(t)y(t)

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2,

і вирішує

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2t+C2.

Можна припустити, що , тобто, що при є лише пацієнт 0 , що дає оскільки є велика кількість. тож можна припустити, що . Тепер лише 3 параметри , і визначають динаміку.x(0)=1t=0C1=1X11XXC2=y(0)C2=0Xr1r2

Навіть у цій моделі здається, що перегин дуже різкий, він не дуже добре підходить, тому модель повинна бути неправильною. Це робить проблему дуже цікавою насправді. Як приклад, наведена нижче цифра побудована з , і .X=600,000,000r1=3.6671010r2=1,000,000

модель зростання стилю Гангнам

Оновлення: Із коментарів я зібрав, що Youtube рахує перегляди (по-своєму таємно), а не унікальні IP-адреси, що робить велику різницю. Назад до дошки для малювання.

Щоб зробити це просто, припустимо, що глядачі "заражені" відео. Вони повертаються, щоб регулярно спостерігати за ним, поки не очистять інфекцію. Однією з найпростіших моделей є SIR (стійкий до зараження), який є наступним:

˙ I (t)=αS(t)I(t)-βI(t) ˙ R (t)=βI(t)

S˙(t)=αS(t)I(t)
I˙(t)=αS(t)I(t)βI(t)
R˙(t)=βI(t)

де - швидкість зараження, а - швидкість кліренсу. Загальна кількість переглядів така, що , де - середнє число переглядів на день на заражену особу.β x ( t ) ˙ x ( t ) = k I ( t ) kαβx(t)x˙(t)=kI(t)k

У цій моделі кількість переглядів починає різко збільшуватися через деякий час після початку інфекції, що не стосується оригінальних даних, можливо, тому, що відео також розповсюджується невірусним (або мемом) способом. Я не є експертом в оцінці параметрів моделі SIR. Просто граючи з різними значеннями, ось що я придумав (в R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Екстраполяція поглядів на відео в стилі Gangnam Youtube

Модель, очевидно, не ідеальна, і її можна доповнити багатьма звуковими способами. Цей дуже грубий ескіз передбачає мільярд переглядів десь у березні 2013 року, давайте подивимось ...


5
(+1) Як перший підхід. Зауважте, що політика ютуб для підрахунку переглядів недостатньо зрозуміла, враховуючи, що вони не оприлюднили свій алгоритм. Вони говорять лише: "Перегляд враховується кожного разу, коли хтось дивиться відео на YouTube. Ми не отримуємо більш конкретної інформації, ніж це, щоб уникнути спроб штучно завищеного кількості перегляду" (див.) .

3
@FredrikD дякую. Ви все ще можете видалити "Прийняти" у березні 2013 року, якщо я помилився: D
gui11aume

2
Оцінка параметрів моделі SIR, див. Rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD

1
Здається, я втрачу цю! Вони можуть потрапити на мільйон ще до 2013 року ...
gui11aume

2
engadget.com/2012/12/21/gangnam-style-one-billion-views Отже, світ не закінчився, але сьогодні потрапив 1 мільярд переглядів.
DanTheMan

5

Напевно, найпоширенішою моделлю прогнозування прийняття нового продукту є модель дифузії Bass , яка - подібно до відповіді @ gui11aume - моделює взаємодію між поточними та потенційними користувачами. Прийняття нового продукту є досить гарячою темою прогнозування, пошук цього терміна повинен отримати багато інформації (про яку я, на жаль, не маю часу розгортатися ...).


так, це теж модель кандидата. Однак, схоже, передбачається, що ви можете бути лише користувачем один раз. Тут ви переглядаєте відео кілька разів, якщо ви "заражені".
FredrikD

1
@FredrikD: точка взята. (Хоча мені особисто не вдалося простояти навіть через одне "використання" цього "продукту" ...) Бас повинен мати узагальнення, щоб вирішити це. (Безсоромний модуль :) Міжнародний симпозіум прогнозування наступного року проходить у Сеулі, тому кожен може розглянути можливість представити свою улюблену модель прогнозування Gangnam там! ;-)
Стефан Коласа

4

Я б дивився на криву зростання Гомперца .

Крива Гомперца - це 3-параметрична (a, b, c) подвійна експоненціальна формула з часом, T, як незалежна змінна.

R код:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

Формула росту Гомперца, як відомо, добре описує багато явищ життєвого циклу, коли спочатку зростання прискорюється, потім зменшується, що призводить до асиметричної сигмоподібної кривої, похідна якої крутіше зліва, ніж справа від вершини. Наприклад, загальна кількість статей у Вікіпедії, що також має вірусний характер, протягом багатьох років з великою точністю слідкує за кривою зростання Гомперца (з певними параметрами a, b, c).

Діаграма кривих Гомперца: загальний розмір та похідна його швидкість зростання

Редагувати: Якщо кривої Гомперца недостатньо для наближення форми, яку ви шукаєте, ви можете додати параметри d& θ, як описано в Експонентальному узагальненому розподілі Вейбула Гомперца . Зауважте, що цей документ використовує xзамість tнезалежного параметра часу. Цікаво, що Вікіпедія також змінила їх найкраще наближення, додавши єдиний четвертий параметр d, щоб врахувати розбіжність прогнозування від фактичного значення після 2012 року . Модифікована формула 4-парамної кривої Гомперца:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

Функція Гомперца названа на честь Бенджаміна Гомперца (1779-1865) , сучасника Гаусса (всього 2 роки молодший Гаус), першого математика, який описав її.


Влучне зауваження! Однак, що кидає виклик моделі в тому, що вона, здається, не є межею (див. №1 та №2). Тобто, фактор a в моделі також зростає з часом.
FredrikD

Я б заперечував проти "Здається, немає межі". Чи може стиль Gangnam досягти 1B? 10В? 100В? погляди? врешті-решт темпи зростання доходять до нуля та кривих плато. Це важко зрозуміти, коли ти перебуваєш у фазі високого зростання, як ми зараз із Гангнамом, але просто почекай кілька років, і ти переможеш Гомперцем :) Підступ, звичайно, з’ясувати правильно (а, б, в) параметри для цього конкретного випадку.
аріельф

2
Ось посилання на оцінку параметрів моделі Gompertz
FredrikD

3

Я думаю, що вам потрібно відокремити такі явища, як стиль Gangnam, який багато в чому зобов'язаний поглядам бути мемою / вірусною річчю, від Джастіна Бібера та Емінема, які самі по собі є великими художниками і які також широко поширилися б у традиційній обстановці - JB або Eminem також продають багато синглів, я не впевнений, що PSY буде.


влучне зауваження. Прочитавши та прослухавши інтерв’ю PSY та команди, що стоїть за "OGS" (Oppa Gangnam Style), зрозуміло, що вони добре знають, яку кнопку натиснути, щоб створити вірусну річ. Через аналіз аналізу зображень, наведених вище, здається, що кількість переглядів лінійна приблизно до 90 днів після запуску, тоді PSY з'являється на Гран-Прі Кореї, і кількість переглядів за одиницю часу збільшується.
FredrikD

- і чим ці два класи відрізняються від "класики" - пісень, які, мабуть, були добре відомі під час їх першого завантаження на YouTube (я думаю, Девід Боуі)?
абауман

2

5
Ласкаво просимо на сайт, @ ProfRoy47. Ви б не хотіли дещо детальніше розробитись на цій посаді? Незрозуміло, що це насправді відповідь на питання ОП / що це цілком самостійно. OTOH, це не підходить як коментар, і я вважаю, що це робить корисний внесок у цю тему. У нашому поширеному запитанні є кілька обговорень щодо надання відповідей на резюме, які можуть бути корисними для вас.
gung

1

Модель, очевидно, не ідеальна, і її можна доповнити багатьма звуковими способами. Цей дуже грубий ескіз передбачає мільярд переглядів десь у березні 2013 року, давайте подивимось ...

Дивлячись на уповільнення переглядів за останній тиждень, дата березня-13 виглядає як гідна ставка. Більшість нових переглядів видаються вже зараженими користувачами, які повертаються кілька разів на день.

Що стосується доповнення вашої моделі, один із методів, який дослідники використовують для відстеження поширення вірусу, - це відстежувати його мутації геному - коли і де він мутував, може показати дослідникам, як швидко передається і поширюється вірус (див. Відстеження вірусу Західного Нілу в США) .

У практичному сенсі такі відео, як Gangnam Style та Party Rock Anthem (групи LMFAO), швидше за все, "мутують" на пародії, флешмоби, весільні танці, ремікси та інші відеовідповіді, ніж скажімо, пісні Джастіна Бібера або Пісні Емінема.

Дослідники могли проаналізувати кількість відеовідповідей (і, зокрема, пародій) як проксі для мутацій. Вимірювання частоти та популярності цих мутацій на початку життя відео може бути корисним для моделювання його життєвих переглядів YouTube.


Ласкаво просимо на сайт, @lucasng. Резюме призначене для серйозних, фактичних відповідей на змістовні запитання (ви можете прочитати наш факс ), і я думаю, що ОП запитала це на увазі. Ваша відповідь на межі тут; Я думаю, що він повинен залишатися на основі своїх уявлень про мутації тощо, але зауважте, що думки про достоїнства відео насправді не є німецькими.
gung

Я думаю, що ідея гарна. @gung Щоправда, це не відповідь на ОП, але друга відповідь також не є.
gui11aume

@gung: (пошук Google підказує, що) lucasng не висловлював думки в тій частині, яку ви відредагували, а навпаки, назвав назву групи, яка виконує пісню!
кардинал

1
@cardinal, дякую за голови вгору. Лукаснг, вибачте за плутанину; Я повернув назву групи назад.
gung
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.