Це цікаве питання. Моя дослідницька група вже кілька років використовує дистрибуцію, про яку ви посилаєтесь, у нашому загальнодоступному програмному забезпеченні біоінформатики. Наскільки я знаю, дистрибутив не має назви і літератури про нього немає. Незважаючи на те, що статті Chandra et al (2012), цитовані Аксакалом, тісно пов'язані, розподіл, який вони вважають, здається обмеженим цілими значеннями для і, схоже, вони не дають явного вираження для pdf.r
Щоб дати вам деяку інформацію, розподіл NB дуже широко використовується в геномних дослідженнях для моделювання даних про експресію генів, що виникають з РНК-seq і пов'язаних з ними технологій. Дані підрахунку виникають, коли кількість зчитуваних послідовностей ДНК або РНК витягується з біологічного зразка, який може бути віднесений до кожного гена. Зазвичай є десятки мільйонів читань з кожного біологічного зразка, які відображаються приблизно до 25 000 генів. Можна також мати зразки ДНК, з яких показання відображаються на геномні вікна. Ми та інші популяризували підхід, згідно з яким NB glms прилаштовуються до зчитування послідовностей для кожного гена, а емпіричні методи Байєса використовуються для моделювання оцінок генеріальної дисперсії (дисперсіяϕ=1/r). Цей підхід цитується у десятках тисяч журнальних статей у геномній літературі, тож ви можете отримати уявлення про те, наскільки він звикає.
Моя група підтримує програмне забезпечення edgeR R. Деякі роки тому ми переглянули весь пакет, щоб він працював з дробовими підрахунками, використовуючи безперервну версію NB pmf. Ми просто перетворили всі біноміальні коефіцієнти в NB pmf у співвідношення гамма-функцій і використали його як (змішаний) безперервний pdf. Мотивація цього полягала в тому, що підрахунок зчитування послідовностей іноді може бути дробовим через (1) неоднозначне відображення показань читання до стенограми або геному та / або (2) нормалізацію підрахунків для виправлення технічних ефектів. Таким чином, підрахунки іноді очікуються підрахунками або розрахунковими підрахунками, а не спостережуваними. І звичайно, кількість прочитаних може бути точно нульовою з позитивною ймовірністю. Наш підхід забезпечує постійне підрахунок результатів нашого програмного забезпечення, що точно збігається з дискретними результатами NB, коли розрахункові підрахунки стають цілими числами.
Наскільки я знаю, в pdf немає закритої форми для нормалізуючої константи, а також для середнього або дисперсії закритих форм. Якщо вважати, що для інтеграла
(константа Франсена-Робінсона) немає закритої форми,
то зрозуміло, що не може бути інтеграла безперервного NB pdf також. Однак мені здається, що традиційні формули середнього значення та дисперсії для NB повинні продовжувати залишатися хорошими наближеннями для суцільної NB. Крім того, константа нормалізації повинна повільно змінюватися в залежності від параметрів, і тому її можна ігнорувати як незначний вплив на розрахунки максимальної ймовірності.
∫∞01Γ(x)dz
Підтвердити ці гіпотези можна числовою інтеграцією. Розподіл NB виникає в біоінформатиці як гамма-суміш розподілів Пуассона (див. Статтю щодо негативного біноміулу у Вікіпедії або McCarthy та ін нижче). Постійний розподіл NB виникає просто заміною розподілу Пуассона на його безперервний аналог на pdf
для де - нормалізуюча константа для забезпечення інтеграції щільності до 1. Припустимо, наприклад, що . Розподіл Пуассона має pmf, що дорівнює вищевказаному PDF на невід'ємні цілі числа, і з
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10, середнє значення та дисперсія Пуассона дорівнює 10. Числова інтеграція показує, що та середнє значення та дисперсія безперервного розподілу дорівнюють від 10 до приблизно 4 значущих цифр. Тож нормалізуюча константа практично дорівнює 1, а середнє значення та дисперсія майже такі самі, як і для дискретного розподілу Пуассона. Наближення ще більше покращується, якщо додати корекцію безперервності, інтегруючи від до замість 0. З корекцією безперервності все правильно (нормалізуюча константа 1 і моменти узгоджуються з дискретним Пуассоном) приблизно до 6 цифри.
a(10)=1/0.999875−1/2∞
У нашому пакеті edgeR нам не потрібно вносити жодних коригувань на те, що існує маса нуля, оскільки ми завжди працюємо з умовними ймовірностями журналу або з різницею ймовірностей журналу, і будь-які дельта-функції відміняються з обчислень. Це типово BTW для glms із змішаним розподілом ймовірностей. Як варіант, ми можемо вважати, що розподіл не має маси в нулі, але має підтримку, починаючи з -1/2, а не з нуля. Будь-яка теоретична перспектива веде до однакових розрахунків на практиці.
Хоча ми активно використовуємо безперервний розподіл NB, ми нічого не публікували на ньому прямо. Статті, що цитуються нижче, пояснюють підхід NB до геномних даних, але не обговорюють постійний розподіл NB прямо.
Підсумовуючи, я не здивований, що стаття, яку ви вивчаєте, отримала обґрунтовані результати від неперервної версії PDF pdf, тому що це також наш досвід. Основна вимога полягає в тому, що ми повинні правильно моделювати засоби та відхилення, і це буде добре, якщо дані, цілі чи ні, демонструють ту саму форму квадратичного середньо-дисперсійного співвідношення, що і розподіл NB.
Список літератури
Робінсон, М. та Сміт, GK (2008). Невелика оцінка вибірки негативної біноміальної дисперсії з додатками до даних SAGE . Біостатистика 9, 321-332.
Робінсон, доктор медицини, та Сміт, GK (2007). Модеровані статистичні тести для оцінки різниць у кількості міток . Біоінформатика 23, 2881-2887.
Маккарті, DJ, Chen, Y, Smyth, GK (2012). Диференційний аналіз експресії багатофакторних експериментів РНК-Seq щодо біологічних варіацій . Дослідження нуклеїнових кислот 40, 4288-4297.
Chen, Y, Lun, ATL та Smyth, GK (2014). Диференціальний експресійний аналіз складних РНК-послідовних експериментів з використанням краюR. В: Статистичний аналіз даних послідовності нового покоління, Сомнат Датта та Даніель С Неттлтон (редакції), Спрінгер, Нью-Йорк, сторінки 51--74. Передрук
Lun, ATL, Chen, Y і Smyth, GK (2016). Це DE-licious: рецепт диференціального аналізу експресії RNA-послідовних експериментів з використанням квазіімовірнісних методів у edgeR. Методи молекулярної біології 1418, 391-416. Передрук
Chen Y, Lun ATL та Smyth, GK (2016). Від зчитування до генів до шляхів: диференціальний експресійний аналіз експериментів РНК-Seq з використанням Rsubread та квазіімовірності трубопроводу edgeR . F1000дослідження 5, 1438.