Безперервне узагальнення негативного біноміального розподілу


24

Негативний двочленний (NB) розподіл визначається на невід'ємні цілі числа і має функцію масової ймовірностіЧи має сенс розглянути безперервний розподіл на негативних реалах, визначених тією ж формулою (замінивши на x \ in \ mathbb R _ {\ ge 0} )? Біноміальний коефіцієнт можна переписати як добуток (k + 1) \ cdot \ ldots \ cdot (k + r-1) , що добре визначено для будь-якого реального k . Отже, у нас був би PDF f (x; r, p) \ propto \ prod_ {i = 1} ^ {r-1} (x + i) \ cdot p ^ {x} (1-p) ^ {r} . Більш загально, ми можемо замінити біноміальний коефіцієнт на функції Гамма, враховуючи не цілі значення r : kN0xR0(k+1)(k+r-1)

f(k;r,p)=(k+r1k)pk(1p)r.
kN0xR0(k+1)(k+r1)k
f(x;r,p)i=1r1(x+i)px(1p)r.
r
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

Це дійсний розподіл? Чи має це ім’я? Чи має це використання? Може це якась сполука чи суміш? Чи є закриті формули для середнього та дисперсії (та постійної пропорційності в PDF)?

(На даний момент я вивчаю документ, який використовує модель суміші NB (з фіксованим r=2 ) і відповідає їй через ЕМ. Однак дані є цілими числами після деякої нормалізації, тобто не цілих чисел. Тим не менш, автори застосовують стандартну формулу NB для обчислення ймовірність та отримання дуже розумних результатів, тому все, здається, виходить просто чудово. Мені це здається дуже дивним. Зауважте, що це питання не стосується NB GLM.)


1
Хіба це не буде сумішшю Гамма з параметром масштабу logp ? Якщо розширити многочлен Πi=1r1(x+i) ви просто отримаєте i=2raixi1 , потім помноживши на px це те саме, що і в exp{xlogp} , де ai - коефіцієнт xi1 у многочлени, і logp<0 звичайно, тому, схоже, він перетворився б на a середньозважене середнє поширення гамми, тобто суміші.
jbowman

... фактично має бути i=1 .
jbowman

2
Оскільки залежить тільки від параметрів, це константа, яка може бути поглинена пропорційністю. Більше того, також має константу яка може ігнорувати. Записуючи для , ви запитуєте про щільність, пропорційнуЦе визначає як коефіцієнт масштабу, а як параметр фігури. Для інтегрального це явно суміш гамма-розподілів. Немає сенсу обмежувати цілими числами.(1p)r(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))1/Γ(r)pk=ekρρ=log(p)0
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rr
whuber

1
@whuber Правильно. Я фактично використовую розподіл, який є безперервним за позитивними значеннями і має точкову масу в нулі. Я вважаю, що це правильний підхід. Але мені запропонували використовувати безперервне узагальнення NB, яке мало б нульову ймовірність при нулі, а отже, здавалося б, дозволило мати справу з точними нулями. Звідси моє запитання.
амеба каже, що повернеться Моніка

2
Я думаю, що може виникнути певна плутанина в цьому припущенні: це, мабуть, поєднує ймовірність (яка є точковою масою або розподіл NB має нуль) з щільністю ймовірності (що таке значення було б). Ненульова щільність не дозволяє вам мати справу з точними нулями, оскільки вона все ще передбачає нульовий шанс, що виникне будь-яке значення ! f(0,θ)0
whuber

Відповіді:


21

Це цікаве питання. Моя дослідницька група вже кілька років використовує дистрибуцію, про яку ви посилаєтесь, у нашому загальнодоступному програмному забезпеченні біоінформатики. Наскільки я знаю, дистрибутив не має назви і літератури про нього немає. Незважаючи на те, що статті Chandra et al (2012), цитовані Аксакалом, тісно пов'язані, розподіл, який вони вважають, здається обмеженим цілими значеннями для і, схоже, вони не дають явного вираження для pdf.r

Щоб дати вам деяку інформацію, розподіл NB дуже широко використовується в геномних дослідженнях для моделювання даних про експресію генів, що виникають з РНК-seq і пов'язаних з ними технологій. Дані підрахунку виникають, коли кількість зчитуваних послідовностей ДНК або РНК витягується з біологічного зразка, який може бути віднесений до кожного гена. Зазвичай є десятки мільйонів читань з кожного біологічного зразка, які відображаються приблизно до 25 000 генів. Можна також мати зразки ДНК, з яких показання відображаються на геномні вікна. Ми та інші популяризували підхід, згідно з яким NB glms прилаштовуються до зчитування послідовностей для кожного гена, а емпіричні методи Байєса використовуються для моделювання оцінок генеріальної дисперсії (дисперсіяϕ=1/r). Цей підхід цитується у десятках тисяч журнальних статей у геномній літературі, тож ви можете отримати уявлення про те, наскільки він звикає.

Моя група підтримує програмне забезпечення edgeR R. Деякі роки тому ми переглянули весь пакет, щоб він працював з дробовими підрахунками, використовуючи безперервну версію NB pmf. Ми просто перетворили всі біноміальні коефіцієнти в NB pmf у співвідношення гамма-функцій і використали його як (змішаний) безперервний pdf. Мотивація цього полягала в тому, що підрахунок зчитування послідовностей іноді може бути дробовим через (1) неоднозначне відображення показань читання до стенограми або геному та / або (2) нормалізацію підрахунків для виправлення технічних ефектів. Таким чином, підрахунки іноді очікуються підрахунками або розрахунковими підрахунками, а не спостережуваними. І звичайно, кількість прочитаних може бути точно нульовою з позитивною ймовірністю. Наш підхід забезпечує постійне підрахунок результатів нашого програмного забезпечення, що точно збігається з дискретними результатами NB, коли розрахункові підрахунки стають цілими числами.

Наскільки я знаю, в pdf немає закритої форми для нормалізуючої константи, а також для середнього або дисперсії закритих форм. Якщо вважати, що для інтеграла (константа Франсена-Робінсона) немає закритої форми, то зрозуміло, що не може бути інтеграла безперервного NB pdf також. Однак мені здається, що традиційні формули середнього значення та дисперсії для NB повинні продовжувати залишатися хорошими наближеннями для суцільної NB. Крім того, константа нормалізації повинна повільно змінюватися в залежності від параметрів, і тому її можна ігнорувати як незначний вплив на розрахунки максимальної ймовірності.

01Γ(x)dz

Підтвердити ці гіпотези можна числовою інтеграцією. Розподіл NB виникає в біоінформатиці як гамма-суміш розподілів Пуассона (див. Статтю щодо негативного біноміулу у Вікіпедії або McCarthy та ін нижче). Постійний розподіл NB виникає просто заміною розподілу Пуассона на його безперервний аналог на pdf для де - нормалізуюча константа для забезпечення інтеграції щільності до 1. Припустимо, наприклад, що . Розподіл Пуассона має pmf, що дорівнює вищевказаному PDF на невід'ємні цілі числа, і з

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10, середнє значення та дисперсія Пуассона дорівнює 10. Числова інтеграція показує, що та середнє значення та дисперсія безперервного розподілу дорівнюють від 10 до приблизно 4 значущих цифр. Тож нормалізуюча константа практично дорівнює 1, а середнє значення та дисперсія майже такі самі, як і для дискретного розподілу Пуассона. Наближення ще більше покращується, якщо додати корекцію безперервності, інтегруючи від до замість 0. З корекцією безперервності все правильно (нормалізуюча константа 1 і моменти узгоджуються з дискретним Пуассоном) приблизно до 6 цифри.a(10)=1/0.9998751/2

У нашому пакеті edgeR нам не потрібно вносити жодних коригувань на те, що існує маса нуля, оскільки ми завжди працюємо з умовними ймовірностями журналу або з різницею ймовірностей журналу, і будь-які дельта-функції відміняються з обчислень. Це типово BTW для glms із змішаним розподілом ймовірностей. Як варіант, ми можемо вважати, що розподіл не має маси в нулі, але має підтримку, починаючи з -1/2, а не з нуля. Будь-яка теоретична перспектива веде до однакових розрахунків на практиці.

Хоча ми активно використовуємо безперервний розподіл NB, ми нічого не публікували на ньому прямо. Статті, що цитуються нижче, пояснюють підхід NB до геномних даних, але не обговорюють постійний розподіл NB прямо.

Підсумовуючи, я не здивований, що стаття, яку ви вивчаєте, отримала обґрунтовані результати від неперервної версії PDF pdf, тому що це також наш досвід. Основна вимога полягає в тому, що ми повинні правильно моделювати засоби та відхилення, і це буде добре, якщо дані, цілі чи ні, демонструють ту саму форму квадратичного середньо-дисперсійного співвідношення, що і розподіл NB.

Список літератури

Робінсон, М. та Сміт, GK (2008). Невелика оцінка вибірки негативної біноміальної дисперсії з додатками до даних SAGE . Біостатистика 9, 321-332.

Робінсон, доктор медицини, та Сміт, GK (2007). Модеровані статистичні тести для оцінки різниць у кількості міток . Біоінформатика 23, 2881-2887.

Маккарті, DJ, Chen, Y, Smyth, GK (2012). Диференційний аналіз експресії багатофакторних експериментів РНК-Seq щодо біологічних варіацій . Дослідження нуклеїнових кислот 40, 4288-4297.

Chen, Y, Lun, ATL та Smyth, GK (2014). Диференціальний експресійний аналіз складних РНК-послідовних експериментів з використанням краюR. В: Статистичний аналіз даних послідовності нового покоління, Сомнат Датта та Даніель С Неттлтон (редакції), Спрінгер, Нью-Йорк, сторінки 51--74. Передрук

Lun, ATL, Chen, Y і Smyth, GK (2016). Це DE-licious: рецепт диференціального аналізу експресії RNA-послідовних експериментів з використанням квазіімовірнісних методів у edgeR. Методи молекулярної біології 1418, 391-416. Передрук

Chen Y, Lun ATL та Smyth, GK (2016). Від зчитування до генів до шляхів: диференціальний експресійний аналіз експериментів РНК-Seq з використанням Rsubread та квазіімовірності трубопроводу edgeR . F1000дослідження 5, 1438.


Це надзвичайно корисно, @Gordon; велике дякую, що знайшли час, щоб написати це. Я також працюю з даними послідовності РНК, тому відповідь з цієї точки зору є особливо цінною (я тепер додав тег [біоінформатика] до питання). Ваша робота стосується диференціального вираження, тоді як моя теперішня робота стосується кластеризації (стаття, яку я читав, - Harris et al., Присвячена інтернеронам CA1; biorxiv ). У будь-якому випадку, дозвольте мені задати вам кілька невеликих питань / роз'яснень. [продовження]
амеба каже Відновити Моніку

(1) Ви сказали, що суцільна NB - це гамма-суміш суцільних Пуассонів. Чи можете ви трохи розширити його, можливо, показати це трохи чіткіше? Я думаю, що це стане в нагоді для загальної аудиторії. З цього приводу в коментарях до мого запитання двоє людей писали, що суцільна NB повинна бути сумішшю гамма з параметром масштабу , але тільки для цілого . Чи правдиві обидва погляди? (2) Ви сказали, що функція дельти на нулі не має значення для GLM. У той же час є велика література про ГЛМ з нульовим завищенням розподілів. Як це поєднується? log(p)r
Амеба каже: Відновити Моніку

(3) У вашій практичній роботі, ви використовуєте ML оцінити всі параметри, в тому числі , або ж ви фіксуєте до деякої певної величини заздалегідь (можливо , те ж значення , загальні для всіх генів?) , А потім тримати його постійним? Я б здогадався, що це має бути набагато простіше. (Сам Наприклад , Н. Б. є експоненціальною дисперсія сім'ї , але тільки з фіксованим .)rrr
амеби каже Моніка відновило

1
@amoeba Дякую за реф. (1) Виведення NB у вигляді суміші Пуассона досить добре відоме і є у наших роботах, наприклад, McCarthy та ін. Виведення безперервного НБ випливає саме заміною безперервного Пуассона на Пуассона. Чи варто додати це до своєї відповіді? Зробив би це довго. Я не бачу, як суцільна NB може бути корисно представлена ​​як суміш гам. (2) Ні, нульова інфляція - це інше додаткове ускладнення. Ми уникаємо цього ускладнення в нашій роботі.
Гордон Сміт

1
@amoeba (3) Оцінюємо всі параметри. Важливо оцінити генеровані дисперсії для досягнення контролю швидкості помилок, і це потрібно робити з особливою обережністю, оскільки розміри вибірки часто невеликі, а розмірність даних величезна. Ми використовуємо складну процедуру, яка передбачає скориговану ймовірність профілю (думаю, REML) в межах кожного гена, пов'язаного з емпіричною процедурою Баєса між зваженою ймовірністю. Потім генеальні NB glms встановлюються ML з фіксованими дисперсіями. Нарешті, коефіцієнти тестуються за допомогою квазівірогідних F-тестів.
Гордон Сміт

19

Подивіться на цей документ: Чандра, Німай Кумар та Діліп Рой. Безперервна версія негативного біноміального розподілу. Statistica 72, вип. 1 (2012): 81 .

У роботі визначено як функцію виживання, що є природним підходом, оскільки в аналізі надійності було введено недвозначний біном:

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
де і .q=eλ,λ0,p+q=1rN,r>0

Спасибі! Я погляну на цей документ. (Це я не зробив прихильність.)
Амеба каже,

@amoeba, я не хвилююся про зворотне сприяння, це інтернет :)
Aksakal

3
(Дивно, що цю відповідь було оскаржено ...) +1
whuber

Добре мати це посилання, але в ідеалі я хотів би побачити тут більш детальну дискусію. Чи визначає ця функція виживання той самий розподіл, що й PDF у моєму запитанні? (До речі, мені здається, що дивно, що автори використовують біноміальні коефіцієнти для не цілих значень .) Кілька коментарів вище вказують, що це суміш гамма-розподілів (я не бачу жодної дискусії з цього приводу папір, документ); які параметри цих гам, які ваги суміші? Чи справедливі формули NB для середнього та дисперсії для безперервної версії? x
амеба каже: Відновити Моніку

@amoeba, у папері є моменти, вони не такі, як у NB, на жаль
Aksakal
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.