Довідник зі статистики з R - чи існує він і що він повинен містити?


25

Фон

Навколо цього проходить багато дискусій, тому я подумав, що можу знайти свою відповідь від попередніх кроків на StackExchange та люто гуглити. Після використання півдня, намагаючись знайти лише один довідник для (біо) статистики з R, я вкрай розгубився і довелося здатися. Можливо, комбінований безкоштовний матеріал насправді кращий за будь-яку книгу, яку ви можете придбати на даний момент. Давайте це з’ясуємо.

В Інтернеті повно хорошої безкоштовної літератури для мови R , тому дійсно немає сенсу платити за посередню книгу, яка в кінцевому підсумку використовується як прикраса офісу більшу частину часу. Домашній сайт R перераховує книги, пов'язані з R, і їх дуже багато. Якщо точніше: 115. Тільки один з них рекламується словами " окремий довідник статистики ". Зараз йому 8 років і може застаріти. Четверте видання Сучасної прикладної статистики з S ще старше. Книгу R часто розжовують як занадто основну і не рекомендується через відсутність посилань, погано відформатованого коду та неохайної обробки.

Однак я шукаю одну книгу , яку я міг би використовувати як окремий посилання на практичну статистику (в першу чергу) з R (вторинною). Книга повинна жити на моєму офісному столі, збираючи анотації, плями від кави та жирні відбитки пальців замість пилу на книжковій полиці. Він повинен замінити колекцію безкоштовних PDF-файлів, якими я користувався досі, не забуваючи, що R поставляється з відмінною бібліотекою довідників. « Який правильний підхід? "," Чому? "та" технічно, як це працює? ", часто є більш гострими питаннями, ніж" як це зробити з R? "

Оскільки я є екологом, мене найбільше цікавлять додатки до біостатистики. Однак, оскільки ці речі часто пов'язані між собою, міждисциплінарна загальна довідка була б для мене найціннішою.

Завдання

Якщо така книга існує (я сумніваюся в цьому), будь ласка, вкажіть назву книги (лише одна на кожну відповідь) та короткий огляд книги з поясненням, чому її слід називати довідковою темою. Оскільки це запитання не сильно відрізняється від існуючого, будь ласка, використовуйте цей протектор для своєї відповіді. Ви також можете перелічити недоліки книги, щоб ми могли перелічити їх як особливості ідеального довідника.

Моє запитання: що повинен містити довідник зі статистики (найчастіше використовуваних видів) з R?

Деякі початкові думки мають такі загальні характеристики (будь ласка, оновіть):

  • Товстий, як цегла
  • Лаконічний, але зрозумілий
  • Заповнене цифрами (із наданим кодом R)
  • Легкі для розуміння таблиці та схеми, що описують найважливіші деталі з тексту
  • Легкий для розуміння описовий текст про статистику / методи, що містять найважливіші рівняння.
  • Хороші приклади для кожного підходу (з кодом R)
  • Широкий та оновлений список посилань
  • Мінімальна кількість друкарських помилок

Зміст

Оскільки я не статистик і мені знадобиться ця (не існує?) Книга, щоб відповісти на запитання, мені важко написати про зміст. Оскільки «Книга R» явно має намір стати довідником для статистики з R, але її часто піддають критиці, я скопіював зміст із книги як вихідний пункт для змісту для самостійного довідника зі статистики R. Додаткове завдання: будь ласка, введіть доповнення, пропозиції, вилучення тощо для змісту.

  1. Починаємо
  2. Основи мови R
  3. Введення даних
  4. Кадри даних
  5. Графіка
  6. Столи
  7. Математика
  8. Класичні тести
  9. Статистичне моделювання
  10. Регресія
  11. Аналіз варіації
  12. Аналіз коваріації
  13. Узагальнені лінійні моделі
  14. Дані підрахунку
  15. Підрахунок даних у таблицях
  16. Дані пропорції
  17. Зміни двійкової відповіді
  18. Узагальнені моделі добавок
  19. Моделі зі змішаними ефектами
  20. Нелінійна регресія
  21. Деревомоделі
  22. Аналіз часових рядів
  23. Багатовимірна статистика
  24. Просторова статистика
  25. Аналіз виживання
  26. Моделі моделювання
  27. Зміна вигляду графіки
  28. Список літератури та подальше читання
  29. Покажчик

Що було сказано раніше?

StackExhange містить кілька протекторів, запитуючи статистику та пропозиції щодо R-книг. Книги для вивчення мови R запитують про довідник, який вивчає R мову без аспекту статистики. Програмування Art of R оцінюється як найкраща окрема пропозиція. Книга для вивчення статистики за допомогою R вимагає ідеальної вступної книги до статистики, що насправді не те саме, що довідник. Статистичні підручники з відкритим кодом класифікують багатоваріантну статистику з найкращою альтернативою R. Яку книгу ви б рекомендували для вчених, які не мають статистики? запитує про кращий довідник зі статистикою, не вказуючи програму вибору.Довідка або книга про моделювання даних експериментальних конструкцій у балах R, можливо, найбільш близька до мого питання. Вступ до наукового програмування та моделювання за допомогою R - це найбільш рекомендована книга, яка може бути близькою до того, що я шукаю. Однак і цієї книги не вистачить як єдиний довідник статистики з Р.

Деякі пропозиції довідника та їх недоліки

R in Action отримав кращі відгуки, ніж The Book Book, але, мабуть, досить вступний .

Біостатистичне проектування та аналіз за допомогою R: практичний посібник , можливо, близький до того, що я шукаю. Він отримав хороший відгук , але, мабуть, і цей містить багато помилок. Окрім того, ця книга не зосереджена на поясненні статистики, а дає статистичний аналіз як готові рецепти дослідників для використання.

Екологічні моделі та дані в R пропускає вступний рівень. Це дуже корисна функція, коли слово "вступ" набирає 43 випадки в списку книг R , але, можливо, не цілком задовольняє, якщо ми шукаємо довідник зі статистики ...?

Вступ до наукового програмування та моделювання за допомогою R отримав дуже позитивний відгук , але обмежується моделюванням даних.

Річіеморрісрой припускає, що сучасної прикладної статистики з S достатньо для окремого довідника зі статистикою з Р. Ця книга отримала відмінні відгуки ( 1 , 2 ) і, мабуть, є найкращим кандидатом на звання на даний момент? Найновіша версія вийшла 10 років тому, що досить довго враховує розробку програми.

Димитрій Вікторович Мастеров пропонує аналіз даних за допомогою регресії та багаторівневих / ієрархічних моделей . Ще не перевірили цю книгу.


Прочитавши багато оглядів книг, здається, що ідеальної книги, про яку тут питають, ще не існує. Однак, можливо, можна вибрати той, який досить близький. Цей протектор призначений як вікі спільноти для користувачів статистики, щоб знайти найкращі існуючі довідники та як мотивація нових і старих письменників до вдосконалення своєї роботи.


3
(+1) за хороший огляд! Однак, здається, ви відповіли на власне запитання в межах свого власного питання ...
ocram

1
Якщо ви витратили стільки часу на це, розбираючи це, придумуючи довгий список власних і навіть контур такої книги, можливо, ви повинні написати її. Це рекомендація, яку я часто даю у списках статистики та економетрики, коли хтось просить хороший оглядовий документ про [BLAH] і обговорює те, що їм не подобається у п’яти-десяти існуючих оглядових документах - напишіть на цьому свій власний документ.
Стаск

Відповіді:


12

Я особисто вважав, що Сучасна прикладна статистика за допомогою S-Plus відбиває всі вікна, які ви окреслили. У кожному прикладі є код R, вони добре посилаються на інші джерела, а Venables і Ripley мають дивовижно короткий і пояснювальний стиль написання, який я дуже цінував. Я схильний перечитувати книгу так часто, і кожного разу отримую від неї більше. Звичайно, ваш пробіг може відрізнятися.


2
Я згоден. У мене є багато книг статистики, які базуються на R, і MASS4 є, мабуть, найближчим до того, що ви шукаєте, але місцями "короткий" стає нечитабельним і вимагає більшості статистичних базових знань, ніж у мене. Це означає, що книжці я маю майже 10 років, і я продовжую повертатися до неї та вивчати нові речі. Я не дозволив би його вік відкласти. О, і я зараз роблю статистику phd :-)
Шон

Я також повертаюсь назад і назад до MASS, що звучить як виявлене уподобання до нього як довідника.
Пітер Елліс

Чи сильно відрізняється версія MASS 1998 року від 2003 року? Цікаво, чи достатньо різниці в вмісті, щоб виділити приблизно 50 фунтів більше за це.
вигадки

6

Дякую за таке гарне запитання, а особливо за збір усієї цієї інформації. На жаль, книги, яку ви описуєте, не існує, і якщо чесно, вона не могла існувати. Якщо ви, насамперед, хочете, це довідник для статистики, я б почав із справді хорошої книги про лінійних моделях. Моя рекомендація - Kutner et al, він відповідає критеріям того, що цегла є більшою як за обсягом, так і за масою, дуже вичерпна, чітка і з великою кількістю прикладів. Насправді, якщо ви усунете вимогу R, вона значною мірою відмічає весь ваш список. Я посилаюся на це часто. Однак, на ~ 1500 сторінках, він майже охоплює лінійні моделі - регресію та ANOVA - є кілька коротких розділів на пару інших тем, але ви хочете, щоб інші книги для цього були. Далі я отримав би найвищий статистичний довідник на відповідному для вас рівні для будь-яких інших методик, з якими вам може знадобитися працювати (наприклад, аналіз виживання, просторовий аналіз тощо). Якщо ці книги не використовують R для своїх прикладів, ви можете отримати специфічну для R книгу, як-от одну із категорій використання-R! книги, але між документацією, віньєтками, списками розсилки R-довідки, StackOverflow та CV можуть вам не знадобитися. Якщо ви хочете навчитися правильно програмувати на R, вам також слід отримати одну з цих книг. На даний момент у вас є щонайменше 4 книги. Вибачте, але так воно і є. Ніхто, хто широко працює зі статистикою, не має лише однієї книги, яка охоплює все.


5

Я не думаю, що така книга існує. Книга, яка, на мою думку, найбільш близька - це аналіз даних Гельмана та Хілла з використанням регресії та багаторівневої / ієрархічної моделі .

Мінуси:

  • Це ~ 5 років і спрямоване на соціальних вчених.

  • У вашому списку TOC не є все (нічого просторового, в основному нічого в часових рядах тощо)

Плюси:

  • Добре написано

  • У ньому є список помилок та TOC за посиланням

  • Він охоплює такі ключові речі, як відсутні дані, яких немає у вашому нумерованому списку.

  • Він дійсно потрапляє до більшості предметів у вашому списку куль.

  • Багато графіків і код R (деякі коди помилок для багаторівневого).

  • Всі дані / код доступні для завантаження.


4

Я працюю шляхом Елементи статистичного навчання . Ця книга охоплює неймовірний спектр прийомів (так це 700+ сторінок), але кожен підхід пояснюється чітко в дуже практичному, а не в дуже теоретичному плані. Він прямо не містить нічого про R, однак графіки та графіки чітко зроблені з R, і на CRAN є пакети для всіх обговорюваних тем. Всі автори були причетні до розробки R (а також неабиякого фрагмента сучасних технологій машинного навчання).


2
Для цієї книги є навіть пакет R: ElemStatLearn :-)
chl

3

Я погодився з відповіді, яку зараз голосують, що MASS4 досить добре підходить до запиту і має такий же досвід, як інший респондент із труднощами задовольняє його вимогу щодо досить високого рівня статистичної складності. Насправді MASS3 був моїм першим "Rbook", і він досить добре служив мені. Я купив Кроулі "Книгу R" і виявив її незадовільною як для неточного опису мови R, так і лише для набору відпрацьованих прикладів, які, здавалося, не мають глибини статистичної теорії.

Однак із плином часу я виявив, що "Регресійне моделювання стратегій" (RMS) Гаррелла краще підходить для "біостатистичного" фокусу цього питання, а також має достатню глибину. Це не вступний текст про Р. Для цього потрібно шукати в іншому місці, і для цього я рекомендую один із Вступ до наукового програмування та моделювання за допомогою R [ http://www.crcpress.com/product/isbn/9781420068726] або (незважаючи на це її назва) "R для манекенів", написане декількома довговічними учасниками тегів StackOverflow для публікації R. У першій редакції у мене є лише RMS, коли він був більш зосереджений на S, але з того часу Harrell перейшов на R і повністю підтримуєrms/HmiscR пакетний дует. Я вважаю, що це задовольняє пропозицію @ gung щодо висвітлення спеціальностей у кількох перелічених областях, хоча не для просторового аналізу чи змішаних моделей.


1
Я дуже рекомендую як RMS, так і MASS. Я не в біостатистиці, але більшість порад Харрелла корисні набагато загальніше. Я часто прошу потенційних студентів-дослідників прочитати Гаррелла або, принаймні, главу 4, а потім часто рекомендую MASS як хорошу загальну книгу, щоб переконатися, що вони знайомі.
Glen_b -Встановити Моніку

Для загального самонавчання я номіную «Теоретичну статистику» Кокса та Хінкліса та 2-томний том «Вступ до теорії ймовірностей» Феллера. Але це, очевидно, не стосується R-частини цього питання.
DWin

[Студенти, якими я керую, перебувають у сферах, що не відповідають статистиці, навіть якщо їхня робота пов'язана з цим досить багато ... MASS і RMS їм частіше корисні, ніж Кокс, Хінклі та Феллер Том 2, хоча обидва - разом із Кендалл і Стюарт - були дуже цінними для мого власного походження]
Glen_b -Встановити Моніку

2

Якщо ви хочете перекласти ... (це книга-супутник теоретичної книги на 3900 сторінок):

Велика R книга

Ця книга (з якою я є співавтором) - це збірка 15-річного досвіду консалтингу та викладання на рівні бакалаврату та аспірантури та показує лише приклади матеріалів R, для яких детально про математику (докази) наведено на моїх 3900 сторінках супутникові книги, де розрахунки також проводяться вручну з числовими значеннями (+500 сторінок, які будуть доступні в наступному випуску). Ця книга також дає можливість перевірити, чи програмне забезпечення дає правильні значення, і це набагато веселіше, ніж робити розрахунки вручну або в MS Excel щодо предметів, які зазвичай викладаються на аспірантурах в європейських школах. Мета цієї книги також показати, що ви можете використовувати 1 програмне забезпечення замість багатьох для однакових результатів без витрат (замість того, щоб разом використовувати JMP + Minitab + SPSS + SAS + MATLAB). У цій книзі також показані слабкі сторони R (обслуговування пакетів не гарантується). Це також збірник дуже цінних питань на різних R форумах та блогах. Це безкоштовно і за кольором!


1
Чи можете ви також надати запитуваний "короткий огляд"? Чому ви рекомендуєте цю книгу? Які хороші (і погані) речі в цьому?
whuber

Я один із співавторів ... не дуже нейтральний для короткого огляду ...
Вінсент ISOZ

1
Це нормально - ми будемо вдячні почути від вас, що, на вашу думку, є сильними сторонами вашої книги або характеристикою того, хто від неї виграє. Розкриваючи зв’язок із книгою (що важливо ), ви даєте можливість читачам це враховувати під час оцінки того, що ви говорите. Я підозрюю, що багато читачів зрозуміли б, що ви глибоко обізнані з цією книгою, і оцінили б те, що ви говорите. Не надаючи якихось відгуків, ваша відповідь повинна була б перейти до простого коментаря, який би приділяв відносно мало уваги.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.