Як використовувати статистику CDF та PDF для аналізу


12

Це може бути надто загальним питанням, але я сподіваюся, що тут я можу знайти допомогу. Я розпочинаю роботу в університеті, і моя тема буде пов'язана з аналізом інтернет-трафіку. Я досить новачок у світі аналізу, але, мабуть, у світі досліджень це те, що мені потрібно зробити багато.

Я розглядав декілька робіт, і в багатьох з них я вважаю, що вони використовують ймовірність щільності (PDF), CDF, CCDF тощо, щоб пояснити отримані ними результати. Наприклад, PDF тривалість сеансу користувача, CDF байтів, що передаються щодня і т. Д. Я взяв клас імовірності та статистики, тому я розумію, що вони є, але я все ще плутаю випадки, коли таке представлення буде вибране.

Отже, якщо хтось там робить такі графіки та аналіз (у будь-якій іншій темі взагалі чи в цій), ви могли б просто сказати мені, в якій ситуації я б використовував те чи інше з цих уявлень

Відповіді:


17

Частково це питання смаку та умовності, але теорія, увага до ваших цілей та зміна когнітивної нейронауки [див. Посилання] можуть дати певні вказівки.

Оскільки pdf та cdf передають однакову інформацію, відмінність між ними виникає через те, як вони це роблять: pdf являє собою ймовірність з областями, тоді як cdf представляє ймовірність з (вертикальними) відстанями . Дослідження показують, що люди порівнюють відстані швидше і точніше, ніж вони порівнюють райони, і що вони систематично неправильно оцінюють райони. Таким чином, якщо ваша мета - надати графічний інструмент для зчитування ймовірностей, вам слід скористатися файлом cdf.

Pdfs та cdfs також являють собою щільність ймовірності : перша робить це за допомогою висоти, а друга - щільність за нахилом . Тепер таблиці повернуті, тому що люди є поганими оцінками нахилу (який є дотичною до кута; ми, як правило, бачимо сам кут). Щільності добре передають інформацію про режими, важкість хвостів і прогалини. Вигідно використовувати pdfs в таких ситуаціях і в будь-якому іншому місці, де потрібно підкреслити місцеві деталі розподілу ймовірностей.

Іноді pdf або cdf дає корисну теоретичну інформацію. Його значення (а точніше зворотне його) задіяне у формулах стандартних помилок для квантових, крайніх та рангових статистик. У таких ситуаціях відображайте pdf, а не PDF. При вивченні багатовимірних кореляцій в непараметричної обстановці, наприклад, з зв'язками , ВВР виявляється більш корисними (можливо , тому , що це функція , яка перетворює безперервний імовірнісний закон в рівномірному).

Pdf або cdf може бути тісно пов'язаний з певним статистичним тестом. Тест Колмогорова-Смірнова (та статистика KS) має просте графічне зображення у вертикальному буфері навколо cdf; воно не має простого графічного зображення у форматі pdf (що я знаю).

Ccdf (додатковий cdf) використовується у спеціальних додатках, які зосереджені на виживанні та рідкісних подіях. Її використання, як правило, встановлюється конвенцією.

Список літератури

В. С. Клівленд (1994). Елементи графічних даних. Саміт, штат Нью-Джерсі, США: Hobart Press. ISBN 0-9634884-1-4

BD Dent (1999). Картографія: Тематичний дизайн карт 5-е видання. Бостон, Массачусетс, США: WCB McGraw-Hill.

А.М. Макхрен (2004). Як працюють карти. Нью-Йорк, штат Нью-Йорк, США: The Guilford Press. ISBN 1-57230-040-X


(+1), особливо для розуміння інтерпретації відстаней проти областей та схилу проти висоти.
steffen

8

Я погоджуюся з відповіддю Ваубера, але маю ще один додатковий момент:

CDF має простий непараметричний оцінювач, який не повинен робити вибір: емпірична функція розподілу . Це не зовсім так просто оцінити PDF. Якщо ви використовуєте гістограму, вам потрібно вибрати ширину відрізка та початкову точку для першого контейнера. Якщо ви використовуєте оцінку щільності ядра, вам потрібно вибрати форму та пропускну здатність ядра. Підозрілий чи цинічний читач може задатися питанням, чи дійсно ви вибрали ці цілком апріорі, чи ви спробували декілька різних значень і вибрали ті, які дали результат, який вам найбільше сподобався.

Це лише незначний момент. Ті, що зроблені на хутрі, є більш важливими, тому я, мабуть, використовую це лише для вибору, коли я все ще не визначився після розгляду цих питань.


Це все ще цікавий момент. Дякуємо, що виховували це.
whuber

2

Я думаю, це залежить від того, яку статистику чи результати ви збираєтесь дізнатись, дослідити, вивчити чи повідомити. Я припускаю, що ви будете використовувати ці графіки для представлення результатів для вашої університетської теми, правда?

Як, наприклад, якщо ви хочете представити свої висновки про те, як сказати: "Як довго користувачі залишаються на певному веб-сайті", можливо, це буде добре показати це в CDF, оскільки він відображає накопичений час, який він провів на цьому веб-сайті, через сторінки і т.д. .

З іншого боку, якщо ви хочете просто показати ймовірність того, що користувачі натискатимуть на рекламне посилання (наприклад, посилання Google adwords), тоді ви можете подати його у формі PDF, оскільки це, ймовірно, буде звичайною кривою дзвінка розповсюдження, і ви можете показати ймовірність того, що відбувається.

Сподіваюся, це допоможе, Джеффе

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.