Чи вважається Гауссом розподіл, який є нормальним, але сильно перекошеним?


12

У мене таке питання: як ви вважаєте, як виглядає розподіл часу, проведеного на YouTube на день?

Моя відповідь полягає в тому, що це, ймовірно, нормально розподілене і сильно ліве перекошене. Я думаю, що існує один режим, коли більшість користувачів витрачає приблизно середній час, а потім довгий правий хвіст, оскільки деякі користувачі переважають споживачів потужності.

Це справедлива відповідь? Чи є краще слово для цього розподілу?


4
Як зазначають деякі відповіді, але не підкреслюють, косисть називається неофіційно для більш довгого хвоста, якщо він є, тому правокосий, якщо довший правий хвіст. Ліворуч та праворуч, що використовуються в даному контексті, обидва передбачають відображення за умовами, що величина відображається на хоризонтальній осі. Якщо це звучить занадто очевидно, розгляньте відображення в Землі та науках про навколишнє середовище, в яких величина - це висота чи глибина та показана вертикально. Дрібний шрифт: деякі заходи косості можуть бути нульовими, навіть якщо розподіл перекошений геометрично.
Нік Кокс

1
Загальний час на день для всіх користувачів? чи час на день на людину? Якщо остання, то, безумовно, є помірно великий сплеск у 0, і в цьому випадку вам, мабуть, потрібен розподіл стилю "шип і плита" з дельтою Дірака в 0.
innisfree

6
"Нормальний" є синонімом "Гаусса", і Гауссові розподіли, які також називаються нормальними розподілами, не перекошені.
Майкл Харді

Я вважаю, що питання в заголовку сильно відрізняється від питання в тексті тексту. Або принаймні заголовок дуже заплутаний. Ніякий розподіл не є "нормальним, але сильно перекошеним", це суперечність. Також гауссовий розподіл дуже добре визначений і зовсім не так, як розподіл часу, витраченого на день на YouTube. Тож відповідь на запитання в заголовку - велика ні. f(x)=12πσ2exp((xμ)22σ2)
Секст

2
також питання в кінці "чи є краще слово для цього розподілу?" дуже розпливчастий або широкий. Інформація здається лише "одним режимом" і "довгим правим хвостом" (частина "ймовірно нормально розподілена" не має сенсу). Може бути багато розповсюджень, які відповідають цим умовам. Дивовижно, що це питання приваблює більше десяти відповідей і принаймні стільки ж пропозицій щодо альтернативного розповсюдження, перш ніж ми насправді спробуємо уточнити питання (немає навіть даних).
Секст

Відповіді:


14

Частка на день, безумовно, не є негативною. Це виключає нормальний розподіл, який має масу ймовірностей по всій реальній осі - зокрема, за мінусовою половиною.

Розподіл закону про владу часто використовується для моделювання таких речей, як розподіл доходів, розміри міст тощо. Вони не мають негативного характеру і, як правило, сильно перекошені. Це було б перше, що я спробував би в моделюванні часу, проведеного за переглядом YouTube. (Або моніторинг перехресних питань.)

Більш детальну інформацію про закони про владу можна знайти тут або тут , або в нашому тегу .


16
Ви абсолютно вірні, що звичайні дистрибутиви підтримують реальну лінію. І все-таки ... вони не є жахливою моделлю для таких суто позитивних якостей, як висота чи вага дорослих, де середнє значення та дисперсія такі, що негативні значення малоймовірні за моделлю.
Метт Крауз

2
@MattKrause Це справді велике запитання - чи є однакова ймовірність, що я буду "10 см вище або нижче середньої висоти" або "10 відсотків вище або нижче середньої висоти"? Лише перший випадок міг бути гарантією нормального розподілу.
Томаш Кафка

1
@MattKrause: Я повністю згоден, в загальному сенсі. Тим не менш, теперішнє питання стосується частки щоденного часу, проведеного на перегляд YouTube. У нас немає даних, але я був би надзвичайно здивований, якби розподіл був навіть віддалено симетричним.
Стефан Коласа

43

Нормальний розподіл не дуже перекошений. Це суперечність. Зазвичай розподілені змінні мають перекос = 0.


1
Який кращий спосіб описати розподіл? Чи є слово для такого типу розповсюдження, де воно зосереджується навколо режиму, а потім має довгий хвіст?
Кадер

13
Унімодальний і перекошений так само близько, як я можу підійти ...
jbowman

9
Як і осторонь, просто неймовірно, що люди приділяють свій час, щоб допомогти іншим людям покращитись у цьому. Я знаю, що це само собою зрозуміло, але це так круто, що ви обидва робите!
Кадер

6
Так, але варто уточнити, що це твердження стосується нормально розподіленого населення. Зразок, узятий з цієї сукупності, може бути дуже перекошеним.
gung - Відновіть Моніку

Якщо значення перекосу невелике ("мале" вирішують люди, які мають справу з відповідною статистикою), ви все одно можете ставитися до населення як до нормального, хоча і з незначною помилкою.
Карл Віттофт

19

Якщо у нього довгий правий хвіст, значить, він правильно косий.

введіть тут опис зображення

Це не може бути нормальним розподілом, оскільки перекос! = 0, це, мабуть, одномодальний перекіс звичайного розподілу:

https://en.wikipedia.org/wiki/Skew_normal_distribution


13

Це може бути звичайний журнал розподілу. Як згадувалося тут :

Час перебування користувачів на статтях в Інтернеті (жарти, новини тощо) слід звичайному розповсюдженню журналу.

Дана довідка: Інь, Пейфен; Ло, Пінг; Лі, Ван-Кіен; Ван, Мін (2013). Мовчання також є свідченням: тлумачення часу перебування на рекомендації з психологічної точки зору. Міжнародна конференція ACM з питань KDD.


7

"Чи є краще слово для цього розподілу?"

Тут є вагома різниця між використанням слів для опису властивостей розподілу, а не намаганням знайти "ім'я" для розподілу, щоб ви могли ідентифікувати його як (приблизно) екземпляр певного стандартного розподілу: той, для якого формула або статистичні таблиці можуть існувати для його функції розподілу і для яких можна оцінити його параметри. В цьому останньому випадку ви, ймовірно, використовуєте названий розподіл, наприклад, "нормальний / гауссовий" (ці два терміни, як правило, синонімічні), як модель, яка фіксує деякі ключові особливості ваших даних, а не вимагає населення, яке ваші дані випливає саме з цього теоретичного розподілу. Щоб трохи неправильно сказати Джордж Бокс,всі моделі "неправильні", але деякі корисні. Якщо ви замислюєтесь про підхід моделювання, варто подумати, які функції ви хочете включити та наскільки складною чи парсимонічною ви хочете бути вашою моделлю.

Бути позитивно перекошеним - це приклад опису властивості, яку має дистрибутив, але не наближається до уточнення того, який нестандартний розподіл є відповідною моделлю. Це виключає деяких кандидатів, наприклад, гауссова (тобто нормальна) дистрибуція має нульовий нахил, тому не буде доречно моделювати ваші дані, якщо перекос є важливою особливістю. Можуть бути й інші властивості даних, які також важливі для вас, наприклад, що це унімодальний (має лише один пік) або обмежений між 0 і 24 годин (або між 0 і 1, якщо ви записуєте їх як дріб дня) або що існує ймовірність маси, зосередженої в нулі (оскільки є люди, які взагалі не дивляться youtube в даний день).куртоз . І варто пам’ятати, що навіть якщо ваш розподіл мав форму «горбик» або «крива дзвона» і мав нульовий або майже нульовий перекіс, це автоматично не випливає, що нормальний розподіл для нього «правильний»! З іншого боку, навіть якщо популяція, з якої ви отримуєте ваші дані, насправді послідувала певному розподілу саме через помилку вибіркиваш набір даних може не дуже нагадувати його. Малі набори даних, ймовірно, будуть "галасливими", і може бути незрозуміло, чи певні функції, які ви можете бачити, наприклад додаткові невеликі горби або асиметричні хвости, є властивостями базової сукупності, з якої отримані дані (і, можливо, тому їх слід включити у вашій моделі) чи вони є лише артефактами вашого конкретного зразка (а для цілей моделювання слід ігнорувати). Якщо у вас невеликий набір даних і перекос близький до нуля, то навіть правдоподібно базовий розподіл насправді симетричний. Чим більший набір ваших даних і чим більша косостість, тим меншою мірою це стає правдоподібно - але, хоча ви зможете провести тест на значимість, щоб побачити, наскільки переконливими є докази, якими ваші дані надають нахил у популяції, з якої він був отриманий, можливо, це не вистачає питання про те, чи є нормальним (або іншим нульовим перекосом) розподіл відповідним як модель ...

Які властивості даних насправді мають значення для цілей, які ви збираєтесь моделювати? Зауважте, що якщо перекос досить малий, і ви не дуже переймаєтесь цим, навіть якщо основне населення справді перекошене , ви все одно можете знайти звичайний розподіл корисною моделлю для наближення цього справжнього розподілу часів спостереження. Але ви повинні перевірити, чи не закінчується це дурними прогнозами. Оскільки нормальний розподіл не має найвищого або найнижчого можливого значення, то хоча надзвичайно високі або низькі значення стають все більш малоймовірними, ви завжди виявите, що ваша модель передбачає, що існує деяка кількістьймовірність перегляду негативної кількості годин на день, або більше 24 годин. Це стає для вас більш проблематичним, якщо прогнозована ймовірність таких неможливих подій стає високою. Симетричний розподіл, подібний до нормального, передбачає, що стільки людей будуть спостерігати протягом тривалого часу більше, ніж, наприклад, на 50% вище середнього, як і на менше ніж на 50% нижче середнього. Якщо час перегляду дуже перекошений, то подібне передбачення також може бути настільки неправдоподібним, що може бути нерозумним, і дасть вам оманливі результати, якщо ви берете результати своєї моделі та використовуєте їх як вхід для інших цілей (наприклад, ви виконується моделювання часу перегляду, щоб обчислити оптимальне планування реклами). Якщо нахил настільки примітний, ви хочете захопити його як частину вашої моделі, токосий нормальний розподіл може бути більш підходящим. Якщо ви хочете захопити як косисть, так і куртоз, то розгляньте перекошений t . Якщо ви хочете включити верхню та нижню межі фізично можливих, тоді подумайте про використання усічених версій цих розподілів. Існує багато інших розподілів ймовірностей, які можуть бути перекошеними та одномодовими (для відповідного вибору параметрів), таких як розподіл F або гамма , і знову можна їх урізати, щоб вони не передбачили неможливо високий час перегляду. Бета - розподілможе бути хорошим вибором, якщо ви моделюєте частку дня, проведеного за переглядом, оскільки це завжди обмежено між 0 і 1, не потребуючи подальших усікань. Якщо ви хочете включити ймовірність концентрації рівно нульової через не спостерігачів, то розгляньте побудову в моделі перешкод .

Але в той момент, коли ви намагаєтеся вкласти в себе всі функції, які ви можете ідентифікувати за своїми даними, і побудувати все більш досконалу модель, можливо, ви повинні запитати себе, чому ви це робите? Чи є перевага перед більш простою моделлю, наприклад, легше працювати з математикою або мати менше параметрів для оцінки? Якщо ви стурбовані тим, що таке спрощення не дозволить вам захопити всі цікаві для вас властивості, цілком може бути, що жоден «нестандартний» розподіл не робить те, що ви хочете. Однак ми не обмежуємось роботою з названими розподілами, математичні властивості яких були з'ясовані раніше. Натомість розгляньте використання своїх даних для побудови емпіричної функції розподілу. Це зафіксує всю поведінку, яка була у ваших даних, але ви більше не можете давати їй назву типу "нормальна" чи "гамма", а також не можете застосовувати математичні властивості, що стосуються лише певного розповсюдження. Наприклад, правило "95% даних лежить в межах 1,96 стандартних відхилень середнього значення" для нормально розподілених даних і може не стосуватися вашого розповсюдження; хоча зауважте, що деякі правила застосовуються до всіх розподілів, наприклад , нерівність Чебишева гарантує принаймні75% ваших даних повинні лежати в межах двох стандартних відхилень від середнього значення, незалежно від перекосу. На жаль, емпіричний розподіл також успадкує всі ті властивості вашого набору даних, що виникають виключно через помилку вибірки, а не лише ті, якими володіє базове населення, тож ви можете виявити, що гістограма вашого емпіричного розподілу має деякі горби та провали, які не має сама популяція. . Ви можете вивчити згладжені емпіричні функції розподілу , а ще краще, збільшивши розмір вибірки.

Підсумовуючи це: хоча нормальний розподіл має нульовий нахил, той факт, що ваші дані перекошені, не виключає нормальної дистрибуції як корисної моделі, хоча він дозволяє припустити, що інший розподіл може бути більш підходящим. Вибирайте інші властивості даних, вибираючи свою модель, окрім перекосу, і також враховуйте цілі, для яких ви збираєтесь використовувати модель. Можна з упевненістю сказати, що ваше справжнє населення, яке спостерігає за часом, точно не відповідає деякому відомому, названому розповсюдженню, але це не означає, що такий розподіл приречений на марність як модель. Однак для деяких цілей ви можете скористатись самим емпіричним розподілом, а не намагатися встановити стандартний розподіл до нього.





2

Як щодо моделі перешкод?

Модель перешкод складається з двох частин. Перший - це експеримент Бернуллі, який визначає, чи взагалі ви використовуєте YouTube. Якщо ви цього не зробите, то час користування, очевидно, дорівнює нулю, і ви закінчите. Якщо ви переходите через цю перешкоду, то час використання виходить з іншого строго позитивного розподілу.

Тісно пов'язана концепція - це моделі, завищені нулем. Вони призначені для вирішення ситуації, коли ми спостерігаємо купу нулів, але не можемо розрізнити завжди нулі та іноді нулі. Наприклад, розглянемо кількість сигарет, яку людина викурює щодня. Для некурящих ця кількість завжди дорівнює нулю, але деякі курці можуть не палити в даний день (від сигарет? У тривалому рейсі?). На відміну від перешкодної моделі, розподіл "курців" тут повинен включати нуль, але ці показники також "завищені" внеском некурящих.


0

Якщо розподіл справді є «підмножиною» звичайного розподілу, слід розглянути усічену модель. Широко використовується в цьому контексті сімейство моделей TOBIT.
Вони суттєво пропонують pdf із (позитивною) масою ймовірностей у 0, а потім "скороченням частини нормального розподілу" для позитивних значень.
Я утримаюсь від введення формули тут і, скоріше, відправлю вас до статті Вікіпедії: https://en.wikipedia.org/wiki/Tobit_model


-4

Звичайні розподіли за визначенням не перекошені, тому не можна мати обох речей. Якщо розподіл є косою зліва, то він не може бути Гауссом. Вам доведеться вибрати інший! Найближче до вашого запиту, про яке я можу придумати, це:

https://en.wikipedia.org/wiki/Skew_normal_distribution


5
Я погоджуюся, за винятком того, що ОП плутає косий лівий і правий, як уже зазначалося. І @behold вже запропонував у відповіді перекоси. Отже, я не бачу, що це доповнює існуючі відповіді.
Нік Кокс

Він узагальнює багато з них у прямолінійній
Девід

4
Вибачте, але це все-таки повторення.
Нік Кокс

Гаразд ... кого це хвилює?
Девід

4
Ну, я роблю; і хто додав +1 до моїх коментарів (очевидно, що не я), і хто протидіяв вашій відповіді (не я, як це відбувається). Ця нитка вже довга і повторювана; все ж більш зайві коментарі не покращують її для майбутніх читачів.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.