Чому існує функція щільності розподілу бета-версії -1?


18

Бета-розподіл з’являється під двома параметрами (або тут )

(1)f(x)xα(1x)β

або той, який, здається, використовується частіше

(2)f(x)xα1(1x)β1

Але чому саме там є " " у другій формулі?1

Перша рецептура, інтуїтивно зрозуміло , безпосередньо відповідає біноміального розподілу

(3)g(k)pk(1p)nk

але «видно» з точки зору «sp . Це особливо зрозуміло в бета-біноміальній моделі, де може бути зрозуміла як попередня кількість успіхів, а - попередня кількість відмов.αβ

То чому саме друга форма набула популярності і що обґрунтовує її? Які наслідки використання будь-якої параметризації (наприклад, для зв'язку з біноміальним розподілом)?

Було б чудово, якби хтось міг би додатково вказати на джерела такого вибору та вихідні аргументи для цього, але це не є для мене необхідністю.


3
У цій відповіді натякається глибока причина : дорівнює відносно міри . Це зводить ваше запитання до " чому саме цей захід "? Визнаючи, що цей захід є пропонує" правильний "спосіб зрозуміти ці розподіли полягає в застосуванні логістичної трансформації: терміни " " потім зникнуть.x α ( 1 - x ) β d μ = d x / ( ( x ( 1 - x ) ) d μ = d ( log ( xfxα(1x)βdμ=dx/((x(1x))-1
dμ=d(log(x1x))
1
whuber

1
Я думаю, що справжньою причиною цього сталося є історична - тому що саме таким чином виявляється в бета-функції, за якою розподілено ім'я. Що стосується того , чому у влади це , я вважаю, що це в кінцевому рахунку буде пов'язане з причиною, яку згадує Бубер (хоча історично це не має нічого спільного з мірою або навіть ймовірністю). 1
Glen_b -Встановити Моніку

2
@Glen_b Це більш ніж історично: є глибокі причини. Вони пов'язані з інтимним зв'язком між функціями Beta і Gamma, зводячи питання до того, чому показник у є а не . Це тому, що - сума Гаусса . Еквівалентно, що "правильно" розглядати як інтеграл мультиплікативного гомоморфізму разів адитивного символу проти міри Хаар на мультиплікативній групі . s - 1 s Γ Γ t t s t e - t d t / t R ×Γ(s)=0ts1etdts1sΓΓttstetdt/tR×
качан

1
@wh Це є вагомою причиною того, що гамма-функцію слід обирати саме таким (і я вже припускав, що така причина існувала вище, і я приймаю певну форму міркування, схожу на це - але обов'язково з різним формалізмом - увійшов у вибір Ейлера); відповідно важкі причини трапляються з щільністю; але це не встановлює, що це насправді було причиною вибору (чому форма була обрана такою, якою вона була), тільки що це вагома причина для цього. Форма функції гамми ...
ctd

1
ctd ... одне може легко бути достатньою підставою вибрати таку форму за щільністю, а для інших наслідувати її. [Часто вибір робиться з більш простих причин, з тих, яких ми можемо визначити згодом, і тоді часто потрібні вагомі причини робити все інше. Чи знаємо ми , що саме тому він був спочатку вибраний] - ви чітко пояснити , що є причина , чому ми повинні вибрати щільність бути так, а не чому це є таким чином. Це включає в себе послідовність людей, які роблять вибір (використовувати його таким чином і наслідувати приклад), та їх причини в той момент, який вони обрали.
Glen_b -Встановити Моніку

Відповіді:


9

Це історія про ступінь свободи та статистичні параметри і чому приємно, що вони мають прямий простий зв'язок.

Історично склалося, що терміни " " з'явилися в дослідженнях функції Бета Ейлера. Він використовував цю параметризацію до 1763 року, так само і Адрієн-Марі Легендр: їх використання встановило наступну математичну конвенцію. Ця робота анулює всі відомі статистичні програми.1

Сучасна математична теорія дає достатньо свідчень, завдяки багатству застосувань в аналізі, теорії чисел та геометрії, що терміни " " насправді мають певне значення. Деякі з цих причин я промальовував у коментарях до цього питання.1

Більш цікавим є те, якою повинна бути "правильна" статистична параметризація. Це не так однозначно, і це не повинно бути таким же, як математичне умовлення. Існує величезна мережа поширених, добре відомих, взаємопов'язаних сімей розподілу ймовірностей. Таким чином, конвенції, які використовуються для імені (тобто параметризації) однієї сім'ї, зазвичай мають на увазі споріднені конвенції для імені споріднених сімей. Змініть одну параметризацію, і ви захочете змінити їх усі. Тому ми можемо розглянути ці стосунки для підказки.

Мало хто погодився б із тим, що найважливіші сім'ї розподілу походять із сім'ї Нормальних. Нагадаємо, що випадкова величина як кажуть, "нормально розподілена", коли має щільність ймовірності пропорційну . Коли і , як кажуть, має стандартне нормальне розподіл.( Х - μ ) / σ е ( х ) ехр ( - х 2 / 2 ) σ = 1 μ = 0 ХX(Xμ)/σf(x)exp(x2/2)σ=1μ=0X

Багато наборів даних вивчаються за допомогою відносно простої статистики, що включає раціональні комбінації даних та низькі потужності (зазвичай квадрати). Коли ці дані моделюються як випадкові вибірки з нормального розподілу - так що кожен розглядається як реалізація нормальної змінної , всі мають спільний розподіл і є незалежними - розподіли цих статистичних даних визначаються що нормальне розподіл. Ті, що найчастіше виникають на практиці, цеx i X i X ix1,x2,,xnxiXiXi

  1. t ν = n - 1 t = ˉ Xtν , Студентське розподілt з "ступенів свободи" . Це розподіл статистики ім'я де моделює середнє значення даних і - це стандартна похибка середнього значення. Ділення на показує, що повинно бути або більше, звідки - ціле числоν=n1ˉ X =(X1+X2++Xn)/nse(X)=(1/

    t=X¯se(X)
    X¯=(X1+X2++Xn)/nn-1n2ν1se(X)=(1/n)(X12+X22++Xn2)/(n1)X¯2n1n2ν1або більше. Формула, хоча і, мабуть, трохи складна, є квадратним коренем раціональної функції даних другого ступеня: вона відносно проста.
  2. χ 2 ν ν χ 2 1 / ν χ 2χν2 , розподіл (chi-квадрат)χ2 з "ступенем свободи" (df). Це розподіл суми квадратів незалежних стандартних звичайних змінних. Таким чином, розподіл середнього квадрату цих змінних буде розподілом масштабованим на : я буду називати це "нормалізованим" розподілом.ννχ21/νχ2

  3. F ( ν 1 , ν 2 ) χ 2 ν 1 ν 2Fν1,ν2 , розподіл відносини з параметрами являє собою відношення двох незалежних нормалізується розподілів з і ступенів свободи.F(ν1,ν2)χ2ν1ν2

Математичні розрахунки показують, що всі три ці розподіли мають щільність. Важливо, що щільність розподілу пропорційна інтегралу в інтегральному визначенні Ейлера функції Гамма ( ). Порівняємо їх: Γχν2Γ

fχν2(2x)xν/21ex;fΓ(ν)(x)xν1ex.

Це показує, що двічі змінна має розподіл Gamma з параметром . Коефіцієнт половини є досить набридливим, але віднімання зробить відносини набагато гіршими. Це вже дає переконливу відповідь на питання: якщо ми хочемо, щоб параметр розподілу підрахував кількість квадратних нормальних змінних, які його виробляють (до коефіцієнта ), то показник у його щільності функція повинна бути однією меншою, ніж половина від кількості. , N , / 2 1 χ 2 1 / 2χν2ν/21χ21/2

Чому коефіцієнт менш клопітний, ніж різниця ? Причина полягає в тому, що фактор залишатиметься послідовним, коли ми додаємо речі. Якщо сума квадратів незалежних стандартних норм пропорційна розподілу гамми з параметром (разів на деякий коефіцієнт), то сума квадратів незалежних стандартних норм пропорційна гамма-розподілу з параметром (в рази однаковий коефіцієнт) , звідки сума квадратів усіх змінних пропорційна розподілу Gamma з параметром (все одно разів однаковий коефіцієнт). 1 н н м м п + т т + п1/21nnmmn+mm+nТой факт, що додавання параметрів настільки тісно імітує додавання рахунків, є дуже корисним.

Якби ми, мабуть, видалили цей примхливий " " з математичних формул, ці приємні стосунки стали б складнішими. Наприклад, якщо ми змінили параметризацію гамма-розподілів на фактичну потужність у формулі, так що розподіл буде пов'язане з розподілом "Gamma " (оскільки потужність в його PDF дорівнює ), тоді суму трьох слід було б назвати розподілом "Gamma ". Коротше кажучи, тісний адитивний зв'язок між ступенями свободи та параметром у розподілах Gamma був би втрачений шляхом вилученняx χ 2 1 ( 0 ) x 1 - 1 = 0 χ 2 1 ( 2 ) - 11xχ12(0)x11=0χ12(2)1 з формули та поглинаючи її в параметрі.

Аналогічно функція ймовірності розподілу відношення тісно пов'язана з розподілами Beta. Дійсно, коли має розподіл відношення , розподіл має Beta . Функція його щільності пропорційнаУ Р Z = ν 1 Y / ( ν 1 Y + ν 2 ) ( ν 1 / 2 , ν 2 / 2 )FYFZ=ν1Y/(ν1Y+ν2)(ν1/2,ν2/2)

fZ(z)zν1/21(1z)ν2/21.

Крім того, якщо взяти ці ідеї повним колом - квадрат розподілу Стьюдента з df має розподіл відношення з параметрами . Ще раз видно, що дотримання звичайної параметризації підтримує чітку взаємозв'язок з основними підрахунками, що сприяють рівню свободи.ν F ( 1 , ν )tνF(1,ν)

Зі статистичної точки зору, найприроднішим і найпростішим було б використовувати варіацію звичайних математичних параметризацій розподілів та Beta: ми повинні вважати за краще називати розподіл " розподіл ", а розподіл Beta слід назвати" Beta ". Насправді ми вже зробили це: саме тому ми продовжуємо використовувати назви "Chi-квадрат" та " Ratio", а не "Gamma" та "Beta". Незважаючи на це, ні в якому разі ми не хотіли б зняти "Γ ( α ) Γ ( 2 α ) ( α , β ) ( 2 α , 2 β ) FΓΓ(α)Γ(2α)(α,β)(2α,2β)F1"терміни, які відображаються в математичних формулах для їх щільності. Якби ми це зробили, ми втратили б прямий зв'язок між параметрами в густинах і числом даних, з якими вони пов'язані: ми завжди були б відключені на одне.


1
Дякуємо за вашу відповідь (я вже + 1д). У мене є лише невелике подальше запитання: можливо, мені щось не вистачає, але хіба ми не жертвуємо прямим зв’язком з двочленним, використовуючи параметризацію -1?
Тім

Я не впевнений, про яке "пряме відношення до двочленного" ви маєте на увазі, Тіме. Наприклад, коли бета розподіл використовується в якості кон'югату перед для зразка Біном, ясно параметри є точно правильними для використання: додати (НЕ ) до числа успіхів і (не ) до кількості відмов. a a - 1 b b - 1(a,b)aa1bb1
whuber

1

Позначення вводить вас в оману. Існує «прихований » у формулі , так як в , і має бути більше , ніж (друга ланка ви вказали в своєму питанні каже , що це явно). "и і » S в двох формулах не самі і ті ж параметри; вони мають різний діапазон: в , і в , . Ці діапазони для та( 1 ) ( 1 ) α β - 1 α β ( 1 ) α , β > - 1 ( 2 ) α , β > 0 α β ( 1 ) α = - 1 β = 0 0 1 ( 2 ) α1(1)(1)αβ1αβ(1)α,β>1(2)α,β>0αβнеобхідно гарантувати, що інтеграл щільності не розходиться. Щоб побачити це, розгляньте в випадок (або менше) і , а потім спробуйте інтегрувати (ядро) щільності між і . Рівно спробуйте те ж саме в для (або менше) і .(1)α=1β=001(2)β = 1α=0β=1


2
Питання діапазону визначення та схоже, відходить, коли інтеграл трактується, як це робив Поххеммер у 1890 р., Як специфічний контурний інтеграл. У цьому випадку його можна прирівняти до виразу, який визначає аналітичну функцію для всіх значень та включаючи всі складні. Це підсвічує стурбованість питанням: чому саме була прийнята ця конкретна параметризація, враховуючи, що існує багато інших можливих параметризацій, які, здається, можуть служити однаково добре? β ααβαβ
whuber

1
Мені сумніви в ОП здаються набагато основнішими. Він якось плутається з приводу «-1» у (2), але не в (1) (неправда, звичайно). Здається, що ваш коментар відповідає на інше запитання (набагато цікавіше, до речі).
Дзен

2
Дякую за ваші зусилля та відповідь, але це все ще не відповідає моїй головній стурбованості: чому було обрано -1? Виходячи з вашої логіки, в основному можна вибрати будь-яке значення, змінюючи довільну нижню межу на щось інше. Я не можу зрозуміти, чому -1 або 0 може бути кращою або гіршою нижньою межею для значень параметрів, окрім того, що 0 є "естетично" приємнішим. З іншого боку, Beta (0, 0) було б непоганим "за замовчуванням" для рівномірного розподілу при використанні першої форми. Так, це дуже суб'єктивні зауваження, але це мій головний пункт: чи є якісь необов’язкові причини такого вибору?
Тім

1
Дзен, я згоден, виникло питання, як інтерпретувати оригінальний пост. Дякую, Тіме, за роз'яснення.
whuber

1
Привіт, Тіме! Я не бачу жодної остаточної причини, хоча це робить більш прямим зв'язок з тим, що для , якщо і є незалежними, тоді є , а щільність пропорційна . Але тоді ви можете поставити під сумнів параметризацію розподілу гамми ...U G a m m a ( α , 1 ) V G a m m a ( β , 1 ) X = U / ( U + V ) B e t a ( α , β ) X x α - 1 ( 1 - х ) β - 1α,β>0UGamma(α,1)VGamma(β,1)X=U/(U+V)Beta(α,β)Xxα1(1x)β1
Дзен

0

Для мене існування -1 в експоненті пов'язане з розвитком функції Гамма. Мотивація функції Гамма полягає у пошуку плавної кривої для з'єднання точок факторного. Так як не можна обчислитибезпосередньо, якщо не ціле число, ідея полягала в тому, щоб знайти функцію для будь-якого яка задовольняє відношення рецидивів, визначене факторіалом, а самеx!x!xx0

f(1)=1f(x+1)=xf(x).

Розв’язання було за допомогою зближення інтеграла. Для функції, визначеної як

f(x+1)=0txexdt,

інтеграція по частинах забезпечує наступне:

f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).

Отже, наведена вище функція задовольняє цю властивість, а -1 в експоненті випливає з процедури інтегрування частинами. Дивіться статтю Wikipedia https://en.wikipedia.org/wiki/Gamma_function .

Редагувати: прошу вибачення, якщо моя публікація не повністю зрозуміла; Я просто намагаюся зазначити, що, на мою думку, існування -1 у бета-розподілі походить від узагальнення факторіалу за допомогою функції Гамма. Існує дві умови: і . У нас є, тому вона задовольняє. Крім того, у нас є . Що стосується бета-розподілу з параметрами , то узагальнення коефіцієнта двочлену єf(1)=1f(x+1)=xf(x)Γ(x)=(x1)!Γ(x+1)=xΓ(x)=x(x1)!=x!Γ(1)=(11)!=0!=1α,βΓ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!. Там у знаменнику є -1 для обох параметрів.


Це не має сенсу, оскільки функція повторення, яку задовольняє факториал, - це не те, про що ви заявляєте:(x+1)!xx!.
whuber

Функція задовольняє відношення рецидиву, - це Gamma: . Ось як це визначено. Γ ( x + 1 ) = x Γ ( x )f(x)Γ(x+1)=xΓ(x)
aatr

Так: але ваша заявлена ​​мотивація заснована на факторіальній функції, а не на Гаммі.
whuber

Важливо нагадати про співвідношення Гамми та факторіалу:. Γ(x)=(x1)!
aatr

На жаль, це кругова логіка: ви починаєте з факторіалу, характеризуєте Гамму як інтерполяцію її, а потім робите висновок, що тому -1. Насправді ваша публікація демонструє -1 так, ніби вона помилково випала, плутаючи Гамму з факторською. Мало хто знайде це або освітлююче, або переконливе.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.