Повні змістовні приклади відтворюваних досліджень з використанням R


71

Питання: Чи є якісь хороші приклади відтворюваних досліджень з використанням R, які є у вільному доступі в Інтернеті?

Ідеальний приклад: конкретно, ідеальні приклади забезпечують:

  • Необроблені дані (і в ідеалі метадані, що пояснюють ці дані),
  • Весь код R, включаючи імпорт, обробку даних, аналіз та генерування результатів,
  • Зміна або інший підхід для прив'язки кінцевого результату до підсумкового документа,
  • Все у форматі, який легко завантажувати та компілювати на комп'ютері читача.

В ідеалі, прикладом може бути стаття в журналі чи дисертація, де акцент робиться на фактично застосованій темі, а не на прикладі статистичного навчання.

Причини для зацікавлення: Мене особливо цікавлять прикладні теми у статтях та тезах журналів, оскільки в таких ситуаціях виникає кілька додаткових питань:

  • Виникають проблеми, пов'язані з очищенням та обробкою даних,
  • Виникають проблеми, пов'язані з керуванням метаданими,
  • Часописи та тези часто мають очікування щодо стилю щодо появи та форматування таблиць та малюнків,
  • У багатьох журналах та тезах часто є широкий спектр аналізів, які піднімають питання стосовно робочого процесу (тобто, як послідовно проводити аналіз) та часу обробки (наприклад, питання аналізу кешування тощо).

Перегляд повних робочих прикладів може дати хороший інструктивний матеріал для дослідників, починаючи з відтворюваних досліджень.

Відповіді:


14

Френк Харрелл бив барабан про дослідження, що відтворюються, багато-багато років. Ви можете почати з цієї сторінки вікі, яка містить перелік інших ресурсів, включаючи опубліковані дослідження, а також охоплює сторінку Чарльза Гейєра.


11

У журналі «Біостатистика» є асоційований редактор з питань відтворення, і всі його статті позначені:

Відтворювані дослідження

Наша політика щодо відтворюваного дослідження полягає в тому, що статті в журналі повинні бути позначені кайтом D, якщо дані, на яких вони базуються, є у вільному доступі, C, якщо код авторів є у вільному доступі, і R, якщо доступні і дані, і код, і наш Асоційований редактор для відтворення здатний використовувати їх для відтворення результатів у статті. Дані та код публікуються в електронному вигляді на веб-сайті журналу як додаткові матеріали.

http://biostatistics.oxfordjournals.org/

Наскільки це гарна ідея?

http://biostatistics.oxfordjournals.org/content/12/1/18.abrief постачається з пакетом R в додатках, які роблять аналіз - ще не пробував цього. Крім того, не вдається з’ясувати, де вказано рейтинг відкритості. Я надсилаю електронний лист асоційованому редактору з деякими питаннями ...

[редагувати]

Роджер Пенг, асоційований редактор, каже, що, мабуть, немає способу знайти відтворювані папери без отримання PDF-файлу. Він вказав мені на цю, на якій є хороший великий 'R' (це не означає, що фільми оцінюються як R) для відтворюваності:

http://biostatistics.oxfordjournals.org/content/10/3/409.abrief

Звичайно, сам журнал не безкоштовний ... #fail

Баррі


1
це чудово, щоб побачити журнал, що надає пріоритет відтворюваності. Ви бачили якісь хороші приклади статей із позначкою R?
Джеромі Англім

1
Вони не надають пріоритету для публікації, я думаю, що вони просто хочуть виділити це. Я відредагую свою відповідь на прикладі.
Spacedman

10

Невідтворюваність предикторів хіміотерапії NCI60

Це відтворюваний аналіз, який показує відсутність відтворюваності документа, що був у новинах. Клінічне випробування, засноване на помилкових висновках невідтворюваного паперу, було призупинено, повторно встановлено, знову призупинено, ... Це хороший приклад відтворюваного аналізу в новинах.


10

У мене є кілька таких прикладів на сторінці моїх наукових робіт . (Мені заборонено публікувати більше одного гіперпосилання як новий учасник. Тому я просто опишу статті на цьому веб-сайті.)

(1) "Маніфест ефектів у рандомізованих експериментах" використовує віньєтну систему R.

(2) "Присвоєння ефектів кластеризованій кампанії" Вихід-Голос ", що склалася", була більш складною статтею, яка передбачає певні трудомісткі симуляції. Ми використовували систему на основі Makefile і розміщували її в Dataverse

(3) "EDA for HLM" була моєю найдавнішою спробою. Тут я просто помістив дані та пов’язані з ними файли Sweave у тарбол.

Однією з проблем, які ми виявили під час створення нашого архіву JASA, було те, що змінилися версії та типові параметри CRAN-пакетів. Отже, в цей архів ми також включаємо версії пакетів, які ми використовували. Система, що базується на віньєтці, ймовірно, зламається, коли люди змінюють свої пакети (не впевнені, як включити додаткові пакети до пакету, який є Компендіумом).

Нарешті, мені цікаво, що робити, коли змінюється сам R. Чи існують способи виготовлення, скажімо, віртуальної машини, яка відтворює все обчислювальне середовище, що використовується для паперу, таким чином, щоб віртуальна машина не була величезною?

У будь-якому випадку, я сподіваюся, що ці приклади допомагають. Принаймні вони показують деякі мої власні експерименти в цій галузі.

(Ось кілька гіперпосилань на звичайний текст.)

  [2]: http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]: http://hdl.handle.net/1902.1/12174
  [4]: http://hdl.handle.net/1902.1/13376

Ви ставите кілька цікавих питань. Я опублікував окреме запитання, цитуючи вас: stats.stackexchange.com/questions/4466/…
Джеромі Англім

9

Koenker і Zeileis надають веб-сторінку із відносно повним прикладом. Вони діляться:

  • Rnw (Sweave-код)
  • R код коду
  • Заключний PDF
  • Обговорення питань контролю версій

8

Ми написали документ, що пояснює, як використовувати R / Bioconductor при аналізі даних мікромасив. Папір був написаний Sweave, і весь код, який використовується для створення графіків, міститься як додатковий матеріал.

Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010. Аналіз даних мікромасив дріжджового часу за допомогою BioConductor: тематичне дослідження з використанням дріжджів2 Affymetrix масиви BMC Research Notes, 3:81.


7

На сторінці Чарльза Гейєра на Sweave є приклад з дисертації, яка відповідає деяким вашим вимогам (необроблені дані просто з пакету R, але код R / sweave та остаточний PDF доступні):

Доповідь про теорію в дисертації Юна Юна Сена, висновок про ймовірність Монте-Карло для відсутніх моделей даних (додрук) містила приклади обчислень. Кожне число в папері та кожен сюжет було взято (за допомогою вирізання та вставки), з документа «додаткових матеріалів», зробленого в Sweave.

( Вихідний файл пов'язаний у розділі "Додаткові матеріали для паперу".)

Я знаю, що я натрапив щонайменше на один приклад R, переглядаючи сторінку матеріалів ReproducibleResearch.net раніше, але, на жаль, не став на закладку.


5

Саймон Джекман має особливо корисний приклад аналізу результатів опитування: "Американці та австралійці 10 років після 11 вересня". У ньому є кілька прикладів інтеграції таблиць і рисунків.

Він створив документ Sweave і PDF звіт через цю публікацію в блозі .

Хоча необроблені дані не наводяться (наскільки я можу сказати), тому не можна запускати фактичні приклади Sweave, я думаю, справедливий біт можна дізнатися з вивчення коду Sweave.


5

Ніл Сондерс проаналізував взаємодії в Інтернеті, пов'язані з конференцією. Кілька властивостей, які роблять його корисним прикладом підмітання, включають:

  • Файл Rnw надається
  • Графіки формуються за допомогою ggplot
  • Хороший розмір і легко зрозумілий домен

Матеріали доступні тут:


4

Також дивіться журнал статистичного програмного забезпечення ; вони заохочують робити папери в Sweave.


Ні, не формально - подання LaTeX заохочується, але якщо ви подивитесь на сторінку інструкцій, вона не містить слова "Повивати". Автори користуються ним та / або доставляють R-код разом із папером, але мені це відповідає думці Шейна щодо віньєток пакету.
Дірк Еддельбуеттель,

Ок, все ж більшість користувачів, які користуються публікацією, використовують це (також стиль журналу включає Swave.sty); головна проблема полягає в тому, що не публікуються Rnws, все ще документи, зроблені Sweave, поставляються із вихідним сигналом Stangle.

4

У минулому я знайшов хороші, і опублікую, як тільки викопаю їх, але кілька швидких загальних пропозицій:

  1. Можливо, ви зможете знайти кілька цікавих прикладів, шукаючи google за ключовими словами та ext: rnw (який буде шукати файли з розширенням sweave). Ось приклад пошуку . Це третій результат мого пошуку: http://www.ne.su.se/paper/araietal_source.Rnw . Ось ще один приклад з мого пошуку: http://www.stat.umn.edu/geyer/gdor/ .
  2. У багатьох пакунках R є цікаві віньєтки, які по суті становлять одне і те ж. Приклад: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw

4

Роберт Джентльмен написав документ під назвою "Відтворювальне дослідження: приклад дослідження біоінформатики"

Він реалізує короткий набір аналізів як пакет R та використовує Sweave. Він також обговорює використання Sweave більш загальним.

Див. Розділ "Суміжні файли" сторінки статті для архівного файлу всіх використаних файлів і папок.

Довідка:

  • Джентльмен, Роберт (2005) "Відтворювальне дослідження: приклад дослідження біоінформатики", Статистичні програми в генетиці та молекулярній біології: Вип. 4: Вип. 1, стаття 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Доступно за адресою: http://www.bepress.com/sagmb/vol4/iss1/art2

4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Гарний папір, моя лабораторія. Наш PI був дуже задоволений, коли для цього прийшло щось, що нагадувало поштову фанатів. Зараз усі публікації групи мають додаткові методи, викладені в LaTeX / Sweave. Деякі з паперів теж (не можу вирішити, чи потрібно тримати мою в LyX / Sweave чи згортати, а просто робити додатки в Sweave).


3

Шукати приклади та практику - це хороший спосіб навчитися, але я просто хотів зазначити, що відтворюваність має не лише технічну / сценарій перетворення, але й стиль коду та структурування, мінімізацію побічних ефектів у основних функціях тощо. Я особисто виявив, що Програмне забезпечення для аналізу даних Чемберса дозволяє глибше зрозуміти методи, що допомагають уникнути проблем надійності та відтворюваності на рівні коду R.


2

якщо вам все-таки потрібен чудовий приклад повністю ВІДПОВІДНОГО аналізу плюс ПАПЕР, використовуйте це репо .

@Jscamac зробив чудову роботу, зробивши його аналіз повторюваним, і я особисто підтвердив його.

Ви можете скористуватися способом використання певних функцій R, таких як пакунок, remakeдля забезпечення відтворюваності.

Спостерігайте / завершення розрахунків займає близько однієї години.

Її все написано та виготовлено папір LaTeX у підсумку з цифрами.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.