Сума незалежних лонормальних випадкових величин здається ненормальною?


11

Я намагаюся зрозуміти, чому сума двох (або більше) лонормальних випадкових величин наближається до лонормального розподілу, коли ви збільшуєте кількість спостережень. Я подивився в Інтернеті і не знайшов жодного результату щодо цього.

Зрозуміло, що якщо і є незалежними логічними нормами, то за властивостями експонентів та гауссових випадкових величин також є ненормальним. Однак немає підстав припускати, що також є ненормальним.Y X × Y X + YXYX×YX+Y

ЗАРАЗ

Якщо ви генеруєте дві незалежні лонормальні випадкові величини і , і нехай , і повторюють цей процес багато разів, розподіл виявляється ненормальним. Здається, навіть наблизиться до лонормального розподілу, оскільки ви збільшуєте кількість спостережень.Y Z = X + Y ZXYZ=X+YZ

Наприклад: Після генерації 1 мільйона пар розподіл природного журналу Z наведено в гістограмі нижче. Це дуже чітко нагадує звичайний розподіл, припускаючи, що дійсно ненормально.Z

введіть тут опис зображення

Хтось має розуміння чи посилання на тексти, які можуть бути корисними для розуміння цього?


Ви припускаєте однакові відхилення для і ? Якщо ви імітуєте , то журнал суми вже не виглядає дуже нормально. YXYxx <- rlnorm(1e6,0,3); yy <- rlnorm(1e6,0,1)
Стефан Коласа

Я припускав рівні відхилення - спробую ще одну з нерівною дисперсією і побачу, що я закінчу.
Патті

З варіаціями 2 і 3 я отримав щось, що все-таки виглядало трохи нормально, алеби з тим, що схоже на крихітний крихітний перекіс.
Патті

1
Перегляд попередніх питань може бути корисним. Тут і тут є потенційно корисні папери. Добре виглядати!
Стефан Коласа

Відповіді:


20

Ця орієнтовна ненормальність сум лонормальних тварин є добре відомим правилом; це згадується в численних працях - і в ряді публікацій на сайті.

Лонормальне наближення для суми логін, що відповідає першим двом моментам, іноді називається наближенням Фентона-Вілкінсона.

Цей документ від Dufresne може здатися корисним (доступний тут чи тут ).

Я також в минулому іноді вказував людей на папір Мітчелла

Мітчелл, Р.Л. (1968),
"Постійність нормально-нормального розподілу".
J. Optical Society of America . 58: 1267-1272.

Але це зараз висвітлено у посиланнях на Дуфресне.

Але, хоча він утримується у досить широкому наборі не занадто перекошених випадків, він не є загальним, навіть для ідентичних логік, навіть коли стає досить великим.n

Ось гістограма з 1000 змодельованих значень, кожен журнал суми п’ятдесяти тисяч ідентичних лонормалів:

гістограма суми п'ятдесяти тисяч логін

Як бачите ... журнал є досить перекошеним, тому сума не дуже близька до логічної.

У самому справі, цей приклад також вважається корисним прикладом для людей , які думають (з центральної граничної теореми) , що деякі в сотнях або тисячах будуть давати дуже близько до нормального середнього; цей настільки нахилений, що його лог є значно правильним перекосом, але центральна межа теореми все-таки застосовується тут; багатомільйонних * буде необхідний , перш ніж він починає шукати де - небудь поруч з симетричним.nnn

* Я не намагався розібратися, скільки, але через те, як поводиться скасованість сум (рівнозначно середніх), кілька мільйонів явно будуть недостатніми


Оскільки в коментарях було запропоновано більше деталей, ви можете отримати схожий результат на прикладі з наступним кодом, який виробляє 1000 повторень суми 50 000 логічно нормальних випадкових величин із параметром масштабу та параметром форми :μ=0σ=4

res <- replicate(1000,sum(rlnorm(50000,0,4)))
hist(log(res),n=100)

(Я з тих пір намагався Її журнал все ще сильно правий перекос)n=106


Чи можете ви, будь ласка, додати параметри (або фрагмент коду), використані для створення гістограми на рисунку?
altroware

1
Це було два роки тому, я не пам'ятаю, якими були лонормальні параметри. Але застосуємо просту логіку. Вам не потрібно буде турбуватися про параметр , оскільки він впливає лише на значення на шкалі осі x, а не на форму ( буде використано щось зручне на зразок ). Таким чином, параметр залишає єдиний, який впливає на форму. Якщо припустити, що і повертається приблизно зі шкали на гістограмі вище, ми отримуємо, що повинна знаходитись у центрі або більше (зверніть увагу, наскільки це перекос). І лише спроба дає досить схожий зовнішній вигляд із вищезгаданим. μ = 0 σ μ = 0 σ 4 4μμ=0σμ=0σ44
Glen_b -Встановити Моніку

1
Отже: res <- replicate(1000,sum(rlnorm(50000,0,4))); hist(log(res),n=100)... якщо ви спробуєте це кілька разів, ви побачите, що масштаб трохи стрибає, але загальна картина приблизно правильна. Зауважте, що похибка моменту популяції логістичних компонентів становить мільярда - середній показник сукупності перевищить майже кожне створене значення у більшості ваших зразків. 26.5
Glen_b -Встановити Моніку

2

Напевно, вже пізно, але я знайшов наступний документ про суми лонормальних розподілів , який висвітлює цю тему. Це не логічно, а щось зовсім інше і з ним важко працювати.


1

Документ, запропонований Дюфресом 2009 року, і цей 2004 року, разом з цим корисним документом, висвітлюють історію наближення суми нормально-нормального розподілу і дають суму математичного результату.

Проблема полягає в тому, що всі цитовані наближення знайдені, припустивши, відхиляючись, що ви знаходитесь у випадку, коли сума розподілів log-нормальних досі залишається нормальною. Тоді ви можете обчислити та глобальної суми деяким приблизним способом. Але це не дає вам умов, які вам доведеться виконати, якщо ви хочете, щоб сума все-таки була нормальною.σμσ

Можливо, [ця стаття] ( http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6029348 ) дає вам у певному випадку якусь центральну граничну теорему для суми log-нормалей, але все ж є відсутність загальності. У будь-якому випадку приклад, поданий Glen_b, це насправді не доречно, тому що це випадок, коли ви можете легко застосувати класичну теорему про центральну межу, і, звичайно, у цьому випадку сума log-normal є гауссова.

n


1
Ви говорите, що в моєму прикладі "ви можете легко застосувати класичну теорему про центральну межу", але якщо ви розумієте, що показує гістограма, явно ви не можете використовувати CLT, щоб стверджувати, що для цього випадку застосовується нормальне наближення при n = 50000; сума є настільки правим перекосом, що її лог все ще сильно правим перекосом. Суть прикладу полягала в тому, що це навіть занадто перекошене, щоб наблизитись лонормальним (або що гістограма виглядатиме дуже близькою до симетричної). Менше наближення перекосу (наприклад, нормальне) було б * гірше * /
Glen_b -Встановити Моніку

Я згоден, але, напевно, у вас прикладі або числової збіжності вибірки не досягнуто (1000 випробувань занадто мало), або статистичної конвергенції не досягнуто, (50 000 додає занадто мало), але для обмеження нескінченності розподіл повинен будь Гауссом, оскільки ми перебуваємо в умовах CLT, чи не так?
Міма

1000 зразків більш ніж достатньо, щоб визначити форму розподілу суми - кількість взятих зразків не змінює форму, наскільки це "чітко" ми бачимо. Це чітке перекос не зникне, якщо ми візьмемо більшу пробу, воно просто стане більш гладким. Так, 50 000 - це занадто мало, щоб сума виглядала нормально - це настільки правильне перекос, що журнал все ще виглядає дуже перекошеним. Це може зажадати багатьох мільйонів, перш ніж це виглядає досить нормально. Так, CLT безумовно застосовується; це iid, а дисперсія є кінцевою, тому стандартизовані засоби повинні врешті-решт наблизитись до нормальності.
Glen_b -Встановити Моніку

1

Закономірний закон широко присутній у фізичних явищах. Суми такого типу змінних розподілів потрібні, наприклад, для вивчення будь-якої поведінки масштабування системи. Я знаю цю статтю (дуже довгу і дуже сильну, початок може бути недоотриманим, якщо ви не спеціаліст!), "Ефекти широкого розподілу в сумах лонормальних випадкових змінних", опубліковані в 2003 році, (Європейський фізичний журнал "B-Condensed Matter and Complex" Системи 32, 513) та доступний https://arxiv.org/pdf/physics/0211065.pdf .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.