Чи дотримуються унікальні відвідувачі веб-сайту закону про владу?

Припустимо, у мене є впорядкований вектор, де перший елемент - це кількість відвідувань веб-сайту за певний проміжок часу за унікальним IP-адресою з найбільшою кількістю відвідувань, другий елемент - кількість відвідувань унікальним IP-адресою з другим найбільша кількість відвідувань тощо. Я розумію, що можуть бути варіації сайту, але чи існує взагалі припущений малюнок до форми цього вектора? Чи, наприклад, це відповідає розподілу законів про владу?

web power-law

— Джон Смарк
джерело

ІС не збираються особливо добре підходити до людей через динамічне вирішення та різні інші проблеми (наприклад, люди, які використовують декілька комп'ютерів). Якби я хотів перевірити цю гіпотезу, я, ймовірно, використовував ідентифікатор відвідувача, а не IP-адресу.

— richiemorrisroe

Ні, унікальні відвідувачі веб-сайту не дотримуються закону про владу.

В останні кілька років спостерігається посилення суворості у випробуванні вимог законодавства про владу (наприклад, Clauset, Shalizi і Newman 2009). Мабуть, минулі претензії часто не були належним чином перевірені, і зазвичай було побудувати дані за шкалою журналу журналу та покластись на "тест очного яблука", щоб продемонструвати пряму лінію. Тепер, коли формальні тести зустрічаються частіше, багато розповсюдження виявляються, що вони не відповідають законам влади.

Дві найкращі посилання, на які я знаю, що вивчають відвідування користувачів в Інтернеті, - це Алі і Скарр (2007) і Клаузет, Шалізі і Ньюман (2009).

Алі і Скарр (2007) переглянули випадкову вибірку кліків користувачів на веб-сайті Yahoo і зробили висновок:

Переважає мудрість у тому, що розподіл кліків веб-сторінок та перегляду сторінок слід за розподілом закону про владу без масштабів. Однак ми виявили, що статистично значно кращим описом даних є чутливий до масштабу розподіл Зіпф-Мандельброт і їх суміші ще більше посилюють придатність. Попередні аналізи мають три недоліки: вони використали невеликий набір розповсюджень кандидатів, проаналізували застарілу поведінку користувачів в Інтернеті (близько 1998 р.) Та застосували сумнівні статистичні методології. Хоча ми не можемо виключати, що кращого придатного розподілу може бути знайдено не один день, ми можемо впевнено сказати, що чутливий до масштабу розподіл Zipf-Mandelbrot забезпечує статистично значно сильніше пристосування до даних, ніж безмасштабний енергозакон або Zipf на різноманітні вертикалі з домену Yahoo.

Ось гістограма окремих кліків користувачів протягом місяця та їх однакові дані на графіку журналу журналу з різними моделями, які вони порівнювали. Дані, очевидно, не є прямою лінією журналу журналу, очікуваною від безмасштабного розподілу електроенергії.

Фігури 2 і 4 від Алі та Шрара

Клаузет, Шалізі та Ньюман (2009) порівнювали пояснення закону про владу з альтернативними гіпотезами, використовуючи тести коефіцієнта ймовірності, і зробили висновки як веб-звернень, так і посилань, "правдоподібно не можна вважати таким, що слідує закону влади". Їх даними для перших були веб-хіти клієнтів Інтернет-сервісу America Online за один день, а для останніх - посилання на веб-сайти, знайдені в веб-скануванні 1997 року на 200 мільйонах веб-сторінок. На малюнках, наведених нижче, наведені функції кумулятивного розподілу P (x) та їх максимально можливі коефіцієнти потужності.

введіть тут опис зображення

Для обох цих наборів даних Клаузет, Шалізі та Ньюман встановили, що розподіл потужності з експоненціальним розрізом для модифікації крайнього хвоста розподілу був явно кращим, ніж чистий розподіл закону потужності, і що нормальні розподіли журналів також добре підходять. (Вони також розглядали експоненціальні та розтягнуті експоненціальні гіпотези.)

Якщо у вас є набір даних у руці, і ви не просто цікаво цікаві, вам слід встановити його з різними моделями та порівняти їх (в R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, нижчий. хвіст = ЛАЖНИЙ)). Зізнаюся, я поняття не маю на увазі, як моделювати нульову модель ЗМ. Рон Пірсон блогів про ZM-дистрибуції, і, мабуть, існує пакет R zipfR. Мені, мабуть, я б почав з негативної біноміальної моделі, але я не справжній статистик (і мені б хотілося їх думки).

(Я також хочу, щоб другий коментатор @richiemorrisroe вище, який вказує, що на дані, ймовірно, впливають фактори, не пов'язані з поведінкою людини, наприклад програми, що сканують Інтернет та IP-адреси, що представляють комп'ютери багатьох людей.)

Згадані статті:

— MattBagg
джерело

@MattBag, Здається, цікаво, спробуй це у цьому випадку stats.stackexchange.com/q/41286/13201

— FredrikD