Різниця між гістограмою та pdf?


18

Якщо ми хочемо наочно бачити розподіл безперервних даних, який з гістограм та pdf слід використовувати?

Які відмінності між гістограмою та pdf не відрізняються від формули?


Чи можете ви уточнити, чи стосується це питання даних (розподіл яких може бути представлений гістограмою) або теоретичних конструкцій (наприклад, pdf, який описує розподіл ймовірностей).
whuber

4
Але звідки береться pdf? За визначенням pdf описується теоретичний розподіл ймовірностей. Ви, мабуть, маєте на увазі edf (емпіричну функцію розподілу)?
whuber

Відповіді:


22

Щоб уточнити точку Діркса:

Скажімо, ваші дані є зразком нормального розподілу. Ви можете побудувати наступний сюжет:

alt текст

Червона лінія - це емпірична оцінка щільності, синя - теоретичний pdf основного нормального розподілу. Зауважте, що гістограма виражається тут у щільності, а не у частотах. Це робиться для побудови графіків, загалом частоти використовуються в гістограмах.

Отже, щоб відповісти на ваше запитання: ви використовуєте емпіричний розподіл (тобто гістограму), якщо хочете описати зразок, і pdf, якщо хочете описати гіпотезований базовий розподіл.

Ділянка генерується за допомогою наступного коду в R:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)

у чому різниця між частотою та щільністю?
Лакшай

2
@Lakshay частота рахується. Всі підсумовані частоти дорівнює кількості спостережень. Щільність коротка для PDF (функція густини ймовірності), яка є проксі для ймовірності наявності певного значення. Площа під PDF-програмою
Joris Meys

13

Гістограма - це вікова оцінка перед комп’ютерним віком. Оцінка щільності є альтернативою.

У наші дні ми використовуємо і те, і інше, і є багата література про те, які за замовчуванням варто використовувати.

З іншого боку, pdf - це вираз закритої форми для заданого розповсюдження. Це відрізняється від опису вашого набору даних з розрахунковою щільністю або гістограмою.


1
@Harpreet Ви не оцінюєте форму PDF, оскільки як @Dirk вказав, що він має закриту форму, ви просто вказуєте його параметри (наприклад, та для гаусса). Це не обов'язково буде "підходити" до даних. Тепер існує кілька різновидів непараметричної оцінки щільності, де ви використовуєте лише дані, що є під рукою (плюс деякі специфікації ядра, або проміжок вікна тощо); див., наприклад, Інтернет-допомогу для функції R σ 2μσ2density
chl

@Harpreet Це просто синтаксис Markdown, що стосується редагування публікації через онлайн-редактор: *ab*дає ab (курсив) **ab**дає ab (жирним шрифтом) $\sqrt{2}$=2
chl

6

Тут немає жорсткого і швидкого правила. Якщо ви знаєте щільність свого населення, то PDF-файл краще. З іншого боку, ми часто маємо справу з пробами, і гістограма може передавати інформацію, яку оцінюється щільність. Наприклад, Ендрю Гелман зазначає це:

Варіації на гістограмі

Ключовою перевагою гістограми є те, що вона, як графік необроблених даних, містить насіння власної оцінки помилок. Або, по-іншому, зубчастість злегка згладженої гістограми виконує корисну послугу, візуально вказуючи на мінливість вибірки. Ось чому, якщо подивитися на гістограми в моїх книгах та опублікованих статтях, я майже завжди використовую багато бункерів. Я також майже ніколи не люблю оцінок щільності ядра, які люди іноді використовують для відображення одновимірних розподілів. Я б краще побачив гістограму і знав, де дані.


3
Я мушу визнати, що ніколи не розумію, чому Гельман виступає за використання гістограми з невеликою шириною відростка; чому б не використовувати графік діаграми або необроблені дані з накладеними оцінками щільності ядра, які набагато краще передають емпіричний розподіл спостережуваних даних?
chl

2
@chl: Звичайно, є й інші хороші методи візуалізації, щоб отримати відчуття мінливості вибірки. Але щодо більш вузького порівняння гістограми v. Pdf, що обговорюється тут, я думаю, що його висновок добре зроблений.
АРС

1
це приємне посилання, як там обговорюються документи. Але чи відповідає цей підхід для моделювання, і в цьому випадку ми насправді намагаємося оцінити щільність?
David LeBauer

1

Гістограма відносної частоти ( дискретна )

  • вісь 'у' - нормалізована кількість
  • вісь 'y' - дискретна ймовірність для цього конкретного біна / діапазону
  • Нормалізовані підрахунки складають до 1

Гістограма щільності ( дискретна )

  • вісь 'y' - це значення щільності ('Нормоване число', розділене на 'ширина бункера')
  • Площа барів дорівнює 1

Функція щільності ймовірності PDF ( безперервна )

  • PDF - це безперервна версія гістограми, оскільки скриньки гістограм дискретні
  • загальна площа під Кривою інтегрується до 1

Ці посилання були корисними :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Безперервна_проблема_розподіл із зазначеного вище сайту

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.