"Чи є краще слово для цього розподілу?"
Тут є вагома різниця між використанням слів для опису властивостей розподілу, а не намаганням знайти "ім'я" для розподілу, щоб ви могли ідентифікувати його як (приблизно) екземпляр певного стандартного розподілу: той, для якого формула або статистичні таблиці можуть існувати для його функції розподілу і для яких можна оцінити його параметри. В цьому останньому випадку ви, ймовірно, використовуєте названий розподіл, наприклад, "нормальний / гауссовий" (ці два терміни, як правило, синонімічні), як модель, яка фіксує деякі ключові особливості ваших даних, а не вимагає населення, яке ваші дані випливає саме з цього теоретичного розподілу. Щоб трохи неправильно сказати Джордж Бокс,всі моделі "неправильні", але деякі корисні. Якщо ви замислюєтесь про підхід моделювання, варто подумати, які функції ви хочете включити та наскільки складною чи парсимонічною ви хочете бути вашою моделлю.
Бути позитивно перекошеним - це приклад опису властивості, яку має дистрибутив, але не наближається до уточнення того, який нестандартний розподіл є відповідною моделлю. Це виключає деяких кандидатів, наприклад, гауссова (тобто нормальна) дистрибуція має нульовий нахил, тому не буде доречно моделювати ваші дані, якщо перекос є важливою особливістю. Можуть бути й інші властивості даних, які також важливі для вас, наприклад, що це унімодальний (має лише один пік) або обмежений між 0 і 24 годин (або між 0 і 1, якщо ви записуєте їх як дріб дня) або що існує ймовірність маси, зосередженої в нулі (оскільки є люди, які взагалі не дивляться youtube в даний день).куртоз . І варто пам’ятати, що навіть якщо ваш розподіл мав форму «горбик» або «крива дзвона» і мав нульовий або майже нульовий перекіс, це автоматично не випливає, що нормальний розподіл для нього «правильний»! З іншого боку, навіть якщо популяція, з якої ви отримуєте ваші дані, насправді послідувала певному розподілу саме через помилку вибіркиваш набір даних може не дуже нагадувати його. Малі набори даних, ймовірно, будуть "галасливими", і може бути незрозуміло, чи певні функції, які ви можете бачити, наприклад додаткові невеликі горби або асиметричні хвости, є властивостями базової сукупності, з якої отримані дані (і, можливо, тому їх слід включити у вашій моделі) чи вони є лише артефактами вашого конкретного зразка (а для цілей моделювання слід ігнорувати). Якщо у вас невеликий набір даних і перекос близький до нуля, то навіть правдоподібно базовий розподіл насправді симетричний. Чим більший набір ваших даних і чим більша косостість, тим меншою мірою це стає правдоподібно - але, хоча ви зможете провести тест на значимість, щоб побачити, наскільки переконливими є докази, якими ваші дані надають нахил у популяції, з якої він був отриманий, можливо, це не вистачає питання про те, чи є нормальним (або іншим нульовим перекосом) розподіл відповідним як модель ...
Які властивості даних насправді мають значення для цілей, які ви збираєтесь моделювати? Зауважте, що якщо перекос досить малий, і ви не дуже переймаєтесь цим, навіть якщо основне населення справді перекошене , ви все одно можете знайти звичайний розподіл корисною моделлю для наближення цього справжнього розподілу часів спостереження. Але ви повинні перевірити, чи не закінчується це дурними прогнозами. Оскільки нормальний розподіл не має найвищого або найнижчого можливого значення, то хоча надзвичайно високі або низькі значення стають все більш малоймовірними, ви завжди виявите, що ваша модель передбачає, що існує деяка кількістьймовірність перегляду негативної кількості годин на день, або більше 24 годин. Це стає для вас більш проблематичним, якщо прогнозована ймовірність таких неможливих подій стає високою. Симетричний розподіл, подібний до нормального, передбачає, що стільки людей будуть спостерігати протягом тривалого часу більше, ніж, наприклад, на 50% вище середнього, як і на менше ніж на 50% нижче середнього. Якщо час перегляду дуже перекошений, то подібне передбачення також може бути настільки неправдоподібним, що може бути нерозумним, і дасть вам оманливі результати, якщо ви берете результати своєї моделі та використовуєте їх як вхід для інших цілей (наприклад, ви виконується моделювання часу перегляду, щоб обчислити оптимальне планування реклами). Якщо нахил настільки примітний, ви хочете захопити його як частину вашої моделі, токосий нормальний розподіл може бути більш підходящим. Якщо ви хочете захопити як косисть, так і куртоз, то розгляньте перекошений t . Якщо ви хочете включити верхню та нижню межі фізично можливих, тоді подумайте про використання усічених версій цих розподілів. Існує багато інших розподілів ймовірностей, які можуть бути перекошеними та одномодовими (для відповідного вибору параметрів), таких як розподіл F або гамма , і знову можна їх урізати, щоб вони не передбачили неможливо високий час перегляду. Бета - розподілможе бути хорошим вибором, якщо ви моделюєте частку дня, проведеного за переглядом, оскільки це завжди обмежено між 0 і 1, не потребуючи подальших усікань. Якщо ви хочете включити ймовірність концентрації рівно нульової через не спостерігачів, то розгляньте побудову в моделі перешкод .
Але в той момент, коли ви намагаєтеся вкласти в себе всі функції, які ви можете ідентифікувати за своїми даними, і побудувати все більш досконалу модель, можливо, ви повинні запитати себе, чому ви це робите? Чи є перевага перед більш простою моделлю, наприклад, легше працювати з математикою або мати менше параметрів для оцінки? Якщо ви стурбовані тим, що таке спрощення не дозволить вам захопити всі цікаві для вас властивості, цілком може бути, що жоден «нестандартний» розподіл не робить те, що ви хочете. Однак ми не обмежуємось роботою з названими розподілами, математичні властивості яких були з'ясовані раніше. Натомість розгляньте використання своїх даних для побудови емпіричної функції розподілу. Це зафіксує всю поведінку, яка була у ваших даних, але ви більше не можете давати їй назву типу "нормальна" чи "гамма", а також не можете застосовувати математичні властивості, що стосуються лише певного розповсюдження. Наприклад, правило "95% даних лежить в межах 1,96 стандартних відхилень середнього значення" для нормально розподілених даних і може не стосуватися вашого розповсюдження; хоча зауважте, що деякі правила застосовуються до всіх розподілів, наприклад , нерівність Чебишева гарантує принаймні75% ваших даних повинні лежати в межах двох стандартних відхилень від середнього значення, незалежно від перекосу. На жаль, емпіричний розподіл також успадкує всі ті властивості вашого набору даних, що виникають виключно через помилку вибірки, а не лише ті, якими володіє базове населення, тож ви можете виявити, що гістограма вашого емпіричного розподілу має деякі горби та провали, які не має сама популяція. . Ви можете вивчити згладжені емпіричні функції розподілу , а ще краще, збільшивши розмір вибірки.
Підсумовуючи це: хоча нормальний розподіл має нульовий нахил, той факт, що ваші дані перекошені, не виключає нормальної дистрибуції як корисної моделі, хоча він дозволяє припустити, що інший розподіл може бути більш підходящим. Вибирайте інші властивості даних, вибираючи свою модель, окрім перекосу, і також враховуйте цілі, для яких ви збираєтесь використовувати модель. Можна з упевненістю сказати, що ваше справжнє населення, яке спостерігає за часом, точно не відповідає деякому відомому, названому розповсюдженню, але це не означає, що такий розподіл приречений на марність як модель. Однак для деяких цілей ви можете скористатись самим емпіричним розподілом, а не намагатися встановити стандартний розподіл до нього.