Хороша книга з рівним наголосом на теорію та математику


10

У мене було достатньо курсів зі статистики в шкільні роки та в університеті. Я добре розумію такі поняття, як, CI, p-значення, інтерпретація статистичної значущості, багаторазове тестування, кореляція, проста лінійна регресія (з найменшими квадратами) (загальні лінійні моделі) та всі тести гіпотези. Мене знайомили з цим більшу частину ранніх часів здебільшого математично. І останнім часом я вважаю , що за допомогою книги « Інтуїтивна біостатистика» я зрозумів і безпрецедентне розуміння фактичної концептуальної теорії.

Тепер мені не вистачає розуміння придатності моделей (визначення параметрів для моделі) тощо. Зокрема, такі поняття, як оцінка максимальної вірогідності, узагальнені лінійні моделі, байєсівські підходи до інфекційної статистики мені завжди здаються чужими. Прикладів чи навчальних посібників чи концептуально обґрунтованих прикладів недостатньо, як це можна було б знайти в простих імовірнісних моделях або в інших (основних) темах в Інтернеті.

Я є біоінформатором і працюю над даними РНК-Seq, яка займається невідкритим підрахунком читання для пошуку, скажімо, експресії генів (або диференціальної експресії генів). З мого досвіду, навіть якщо я не знайомий зі статистичними моделями, я можу зрозуміти причину припущення про розподіл пуассона та негативні біномі та інше. Але деякі статті розглядають узагальнені лінійні моделі та оцінюють MLE тощо. Я вважаю, що у мене є необхідний досвід для розуміння.

Я думаю, що я прошу - це підхід, який деякі фахівці серед вас вважають корисним і (а) книга (и), яка допомагає мені зрозуміти ці поняття більш інтуїтивно зрозумілим способом (не лише суворою математикою, а теорією, підкріпленою математикою). Оскільки я здебільшого збираюся їх застосувати, я був би задоволений (на даний момент) розумінням того, що є, і пізніше я можу повернутися до суворих математичних доказів ... Хтось має якісь рекомендації? Я не проти купувати більше 1 книги, якщо теми, про які я попросив, справді розкидані, щоб бути висвітленими в книзі.

Дуже дякую!


Чи можете ви порадити мені кілька хороших джерел, щоб дізнатися про дані РНК-Seq та статистичні проблеми в цій галузі?
Біостат

1
Біостат, звичайно, веб-сайт seqanswers.com - це дуже хороший ресурс для NGS. Ви можете почати з різних технологій і того, як вони працюють звідси: goo.gl/NLuvJ Ось деякі документи, що пояснюють деякі статистичні проблеми з даними NGS. Коротше кажучи, це технічна та біологічна дисперсія (стосовно експресії генів). 1) Один з перших робіт, що оцінюють технічні зміни: ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq: інструмент для виявлення експресії генів: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders
Арун

1
Перетворений на CW, оскільки він виглядає, як буде запропоновано купу хороших пропозицій, і немає очевидного об'єктивного стандарту, щоб визначити "кращого" серед них. Я сподіваюся, що це полегшить читачам також голосування за багато відповідей :-).
whuber

ну, точно! має сенс. Чи можу я створити вікі-повідомлення про спільноту? або для цього потрібні привілеї модератора?
Арун

Відповіді:


5

Ви знайдете все, що не є байєсівським, про що ви запитали про це Стратегії моделювання регресії Франка Гаррелла . Я б залишив байєсовські рекомендації більш знаючим людям (хоча на своїй книжковій полиці у мене є Гельман, Карлін, Стерн і Рубін , а також Гілкс, Річардсон і Шпігельхальтер ). На ринку має бути кілька книг біостатів Баєса.

Оновлення: McCullach і Nelder (1989) - це, звичайно, класична книга про ГЛМ. Це було новаторським для свого часу, але я вважаю це досить нудно, відверто кажучи. Крім того, він не охоплює більш пізні доповнення, як-от залишкова діагностика, нульові завищені моделі або багаторівневі / ієрархічні розширення. Hardin та Hilbe (2007) висвітлюють деякі з цих нових речей в деталях із практичними прикладами в Stata (де ГЛМ та розширення дуже добре реалізовані; Хардін використовував для роботи в Stata Corp. написання багатьох цих команд, а також сприяючи сендвіч-оцінювач).


Привіт, Стаске, дуже дякую! Я вважаю, що те, що регресійне моделювання відповідатиме моїм вимогам. Скільки вони охоплюють ГЛМ? Я також бачу, що ваші посилання на байєсівські умовиводи є стандартними, які я завжди вважаю рекомендованими. На вашу думку, наскільки легко / важко їх дотримуватись (як якщо рівень занадто просунутий)? Крім того, ви переглянули книгу Узагальнені лінійні моделі ? Один з авторів - Дж. А. Нелдер. Також я хотів би придбати цю книгу на статистичних моделях . У вас є якісь думки щодо цього? Дякую!
Арун

Я не бачив цієї книги Фрідмана. Це досить цікаво, хоча це здається досить легким з точки зору жорсткості, і я не впевнений, що задоволений цим. (Книга, яка дуже легка на математику, яка говорить про регресію без матричної алгебри, але ДУЖЕ глибока наукова суворість, є здебільшого нешкідливою економетрикою Ангріста і Пішке, і якщо ви працюєте з причинними моделями, ця книга є обов'язковою.) Я справді не знаю твою математику / статистика, тому мені буде важко судити, чи важко буде ці книги. Деякі байєські книги можуть бути; вони, як правило, припускають, що ви вже знаєте MLE та GLM.
StasK

1
Я оновив свою відповідь, щоб включити посилання на McCullach та Nelder.
Стаск

Я електронік англ. звернувся біоінформатик. У мене були курси зі статистики (для теорії комунікацій), ймовірності та випадкових процесів, мені комфортно з численням (хоча трохи іржавим), а також лінійною алгеброю. Звичайно, це здебільшого ступінь бакалавра ... Моя мета - бути концептуально здоровим (більше геометричних інтерпретацій, розуміння методів і головне призначення) тощо ... Звичайно, я не проти математики, якщо це поставляється разом з цими рецептами. Ще раз дякую за рекомендації!
Арун

3

Ці книги пояснюють хороший матеріал, але не той матеріал, про який просили ОП.
StasK

@StasK, Не могли б ви пояснити, яких речей немає у наведених вище книгах?
Біостат

Я викладав з HTF, і те, що я викладав на ньому, стосувався базових функцій, ефективного ступеня свободи, вибору моделі, ласо, перехресної перевірки тощо. MLE та GLM, які цікавили ОП, згадуються мимохідь, у кращому випадку. Передбачається, що студент із статистики знайомий з цим матеріалом із загальної статистичної підготовки, або студенти КС використовуватимуть SVM, а не логістичну регресію як реакцію на коліна на бінарні результати результатів. Байєсівські речі також згадуються лише в тій мірі, в якій байєсівські рішення у певному сенсі оптимальні; скажімо, не MCMC або кон'югація.
StasK

Чи читали ви книгу "Статистичні методи біоінформатики"?
Біостат

@biostat, ні, у мене немає. Я не працюю в біоінформатиці, але знаю, що це трохи інший світ. Тому я не можу дати жодних розумних рекомендацій. На мою думку, галузь біостатистики, яка займається такими моделями, як GLM, GEE, поздовжні моделі та моделі виживання, має більше спільного з економетрикою (так, скажімо, книга Вулдріджа про моделі перетину та панелей даних може бути хорошою рекомендацією для деяких людей, що працюють з біостатом з цими моделями), ніж зі статистичною генетикою, контролем швидкості помилок у сімейному режимі та вилученням даних, що, здається, є вашою сферою досвіду.
Стаск
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.