Потрібна допомога з визначення розподілу за його гістограмою


13

У мене вибіркова сукупність зареєстрованих амплітудних максимумів певного сигналу. Населення складає близько 15 мільйонів проб. Я створив гістограму сукупності, але не можу здогадатися про розподіл за допомогою такої гістограми.

EDIT1: Файл із необов’язковими значеннями вибірки тут: вихідні дані

Хтось може допомогти оцінити розподіл за допомогою наступної гістограми: введіть тут опис зображення


1
не те, що це важливо, але при використанні гістограм зазвичай допомагає мати відносну частоту замість абсолютної частоти на осі y.
posdef

тобто надати 120000/15000000 = 0,008 замість 120000 по вертикальній осі?
mbaitoff

@mbaitoff: Ваші коментарі до відповіді schenectady вказують на те, що ви менш зацікавлені в отриманні назви розповсюдження, але дізнаєтесь, чому значення розподіляються таким чином. Це правильно ?
steffen

1
@mbaitoff, я не впевнений, що це цілком відповідало б вашій програмі, але у відповідних областях застосування величини хвиль, які зазнають (безліч) випадкових відбитків між джерелом і приймачем, моделюються розподілом Релея або одним із його узагальнень, наприклад, Rice або Nakagami- розподілу. m
кардинал

2
Справжній інтерес до цих даних полягає в десятках і більше стрибків: обсяг даних досить великий, щоб вони були реальними , в тому сенсі, що вони є свідченням фактичних локальних режимів. Здається, тут є багатий набір даних з великою кількістю інформації, яку можна було б не помітити, як це була проста параметрична формула, яка використовується для узагальнення їх розподілу.
whuber

Відповіді:


23

Використовуйте fitdistrplus:

Ось посилання CRAN на fitdistrplus.

Ось старе віньєтське посилання для fitdistrplus.

Якщо посилання на віньєтку не працює, виконайте пошук "Використовувати бібліотеку fitdistrplus для визначення розподілу з даних".

Віньєтка добре роз’яснює, як користуватися пакетом. Ви можете подивитися, як різні дистрибутиви підходять за короткий проміжок часу. Він також створює діаграму Каллена / Фрея.

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

введіть тут опис зображення

введіть тут опис зображення


(+1): Раніше не знав цього пакету.
steffen

1
(+1 (не знав, що називається діаграмою Каллена / Фрея. Мені довелося в один момент
придумати це

друге зображення - з plotdistкомандою? Як я можу отримати діаграму Каллена / Фрея?
juanpablo

1
@juanpablo - Спробуйте descdist(). Я оновив вищезгаданий пост, щоб включити код і посилання на стару віньєтку. Я не міг отримати вищезгадане віньєткове посилання на роботу. Отже, Google наступне: "Використання бібліотеки fitdistrplus для визначення розподілу з даних". Це .pdf-файл.
bill_080

3
@juanpablo - Заява f1g <- fitdist(x1, "gamma")пристосовує розподіл гамми до вихідних даних x1і зберігає їх у f1g. У верхньому лівому графіку plot(f1g)показана гістограма для вихідних даних у x1вигляді брусків, а пристосований графік щільності гамма - f1gяк безперервна лінія. Діаграма густини (неперервна лінія) намальована над гістограмою як вказівка ​​на те, наскільки «придатність» представляє дані.
bill_080

6

Населення складає близько 15 мільйонів проб.

Тоді ви, швидше за все, зможете відхилити будь-який конкретний розподіл простої, закритої форми.

Навіть цього крихітного удару зліва від графіка, ймовірно, буде достатньо, щоб змусити нас сказати «явно не таке і таке».

З іншого боку, це, мабуть, досить добре наближене до ряду поширених розподілів; очевидними кандидатами є такі речі, як логічність і гамма, але є безліч інших. Якщо ви подивитеся на журнал x-змінної, ви, ймовірно, можете вирішити, чи нормально логоритм на виду (після взяття журналів гістограма повинна виглядати симетрично).

Якщо журнал є лівим косим, ​​подумайте, чи гамма гаразд, якщо це правильний перекос, подумайте, чи нормальна гамма або (ще більше перекос) обернена гауссова. Але ця вправа скоріше - пошук розподілу, який є досить близьким, щоб жити; жодна з цих пропозицій насправді не має всіх функцій, які, здається, є там.

Якщо у вас є якась теорія, яка підтримує вибір, викиньте всю цю дискусію і скористайтеся нею.


Нічого собі, яка інтуїція щодо справи; приємно! :)
onurcanbektas

1

Я не впевнений, чому ви хочете віднести вибірку до конкретного розподілу з таким великим розміром вибірки; парситизм, порівнюючи його з іншим зразком, шукаючи фізичну інтерпретацію параметрів?

Більшість статистичних пакетів (R, SAS, Minitab) дозволяють побудувати дані на графіку, який дає пряму лінію, якщо дані надходять із певного розподілу. Я бачив графіки, які дають пряму лінію, якщо дані нормальні (журнал нормальний - після перетворення журналу), Weibull і chi-квадрат приходять до шахти негайно. Ця методика дозволить вам побачити людей, що вижили, і дасть вам можливість призначити причини того, чому точки даних є позаштатними. У R звичайний графік ймовірності називається qqnorm.


Гарна ідея, що пропонує qqplot. Однак я вважаю, що ваше пояснення щодо техніки трохи розпливчасте / важке для розуміння. Чи можете ви надати якийсь зразковий R-код? Це суттєво збільшить значення відповіді.
steffen

Я сподіваюся, що хтось стикався з такою картиною, як моя, і досліджував основний розподіл, оскільки значення мають фізичну основу.
mbaitoff

Я досліджую фізичну основу розподілу вибірки - як вона розподіляється та чому.
mbaitoff
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.