Досягнення успіхів у випробуваннях Бернуллі або експерименті з фільмом Джорджа Лукаса


23

Я зараз читаю "Прогулянку п'янички" і не можу зрозуміти одну історію з неї.

Ось це іде:

Уявіть, що Джордж Лукас робить новий фільм «Зоряні війни» і на одному тестовому ринку вирішує здійснити шалений експеримент. Він випускає ідентичний фільм під двома назвами: "Зоряні війни: Епізод А" та "Зоряні війни: Епізод В". У кожного фільму є свій графік маркетингової кампанії та розповсюдження, з відповідними деталями, окрім того, що трейлери та реклама одного фільму кажуть "Епізод А", а інші - "Епізод В".

Тепер ми робимо з нього конкурс. Який фільм буде популярнішим? Скажімо, ми дивимось перших 20 000 кіноманів і записуємо той фільм, який вони обрали для перегляду (ігноруючи тих завзятих шанувальників, які підуть до обох, а потім наполягають на тому, що між ними є тонкі, але значущі відмінності). Оскільки фільми та їх маркетингові кампанії однакові, ми можемо математично моделювати гру таким чином: уявіть, як вишикуватися всі глядачі поспіль і перегортати монету для кожного глядача по черзі. Якщо монета приземляється вгору, він бачить Епізод А; якщо монета приземлиться хвостами, це епізод B. Оскільки монета має однакові шанси підійти в будь-якому випадку, ви можете подумати, що в цій експериментальній касі війна кожного фільму повинна вести приблизно половину часу.

Але математика випадковості говорить інакше: найімовірніша кількість змін у ведучій дорівнює 0, і це в 88 разів більше ймовірність, що один із двох фільмів проведе всіх 20 000 клієнтів, ніж це, скажімо, ведучий постійно проглядає "

Я, мабуть, неправильно, пов'язую це з простою проблемою випробувань Бернуллі, і мушу сказати, що я не розумію, чому лідер в середньому не бачить! Хтось може пояснити?

Відповіді:


22

Ось декілька код R для імітації експерименту Джорджа Лукаса:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

Запускаючи його, ми отримуємо такі фотографії:

введіть тут опис зображення

де різниця проданих квитків між A і B знаходиться на осі y.

Далі, ми проводимо таких модельованих експериментів Джорджа Лукаса. Для кожного експерименту ми обчислюємо пропорцію часу, витраченого 0 , тобто пропорцію вишикуваних глядачів, для яких кількість квитків, проданих на A, більша або дорівнює кількості квитків, проданих компанії B. Інтуїтивно, ви б сказати , що ця частка повинна бути приблизно 1 / 2 . Ось гістограма результатів:10,00001/2

введіть тут опис зображення

Частка становить в середньому в тому сенсі , що очікуване значення дорівнює 1 / 2 , але 1 / 2 є малоймовірним значення по порівнянні зі значеннями , близькими до 0 або 1 . Для більшості експериментів відмінності є позитивними або негативними більшість часу!1/21/21/201

Червона крива є функцією щільності розподілу арксинуса, також відомий як розподілуБета-версія(1/2,1/2) . Проілюстроване на наведеній вище картині - це теорема, відома як перший закон закону про випадкові прогулянки , яка говорить про те, що оскільки кількість кроків простого симетричного випадкового прогулянки наближається до нескінченності, розподіл частки часу, витраченого вище має тенденцію до розподіл дуги. Стандартним посиланням на цей результат є Розділ III.4 Вступу до теорії ймовірностей та її застосувань, Том 1 Вільяма Феллера.0


Код R для імітаційного дослідження є

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

Спасибі! Я встановив R і хотів би повторити всі ваші кроки - як я можу запустити 10 000 моделювання та обчислити пропорцію витраченого часу?
andreister

@andreister: я відредагував свою відповідь, додавши код для моделювання наприкінці. Сподіваюсь, вам це стане в нагоді!
MånsT

Дякую, це дуже корисно! Щоб переконатися, що я розумію речі, я створив pastebin.com/mtRdsPkP на основі вашого коду - чи можете ви флікнути?
andreister

cumsumsumcumsumii

(продовження) Це інформація, яка нас цікавить, оскільки ми хочемо дізнатися, чи бачить лідер. sumпросто було б підсумовувати всі 1 та -1, що дасть вам остаточний результат після того, як усі 20 000 глядачів були враховані (тобто останній елемент cumsumвектора).
MånsT

11

1/2тт=13/4т=3т

11

20,000

Якщо ви хочете обчислити деякі ймовірності, вам доведеться порахувати щось подібне до гратчастих прогулянок, які не перетинають діагональ. Існує чудовий комбінаторний метод, який застосовується до випадкових прогулянок (і до броунівського руху), які не перетинають таку лінію, що називається принципом відображення або методом відображення . Це один метод визначення каталонських чисел . Ось ще два додатки:

А10,200-9,800(20,0009,800)(10,200,9,800)БББ(9,799,10,201)(10,200,9,800)Б(20,0009,800)-(20,00010,201)=(20,0009,800)-(20,0009,799)=(20,0009,800)40110,201.Б(10,200,9,800),96%

А(20,00010,000)220,000/10,000π.А1100π150π1/89.56


Спасибі! Мені потрібно зрозуміти позначення, перш ніж я зрозумію вашу відповідь! Що це означає, що "закінчується вперед 10200-9 800" тощо, звідки ви берете цифри? Як ви бачите режим 20K?
andreister

10,2009,80011,0009,00010,0019,999.20,00000p000

0

"це в 88 разів більше ймовірності, що один з двох фільмів проведе всіх 20 000 клієнтів, ніж це, скажімо, ведучий постійно бачить"

Простий англійською мовою: один із фільмів достроково ведучий. Це повинно, як перший клієнт повинен перейти на A або B. Тоді цей фільм так само ймовірно, що він збереже свою лідируючу роль, як і програє.

У 88 разів більше ймовірних звуків, ну, навряд чи, поки ви не пам’ятаєте, що ідеальне просочення дуже малоймовірне. Діаграма у відповіді MansT , що показує це графічно, є захоплюючою, чи не так.

АСІДА: Особисто я думаю, що це буде більше 88 разів - завдяки <buzzword-alert>вірусному маркетингу </buzzword-alert>. Кожна людина запитає інших людей, що вони бачили, і, швидше за все, відвідає той же фільм. Вони підроблять це навіть підсвідомо: люди швидше приєднуються до довгої черги, щоб щось побачити. Тобто, як тільки випадковість серед перших кількох клієнтів створила лідера, людська психологія збереже його як лідера :-).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.