Запитання з тегом «reproducible-research»

Дослідницька практика надання повного експериментального опису, цілих зібраних даних та всіх скриптів аналізу даних загальнодоступними, щоб опубліковані результати могли бути відтворені в іншому місці.

2
Скільки ми знаємо про p-хакерство «в дикій природі»?
Словосполучення р- хакінг (також: " дноуглублення даних" , "сунуння" або "риболовля") відноситься до різних видів статистичних зловживань, результати яких стають штучно статистично значущими. Існує багато способів досягти "більш значущого" результату, включаючи, але жодним чином не обмежуючись: тільки аналіз «цікаве» підмножина даних , в яких був знайдений зразок; невміння правильно налаштувати …

15
Повні змістовні приклади відтворюваних досліджень з використанням R
Питання: Чи є якісь хороші приклади відтворюваних досліджень з використанням R, які є у вільному доступі в Інтернеті? Ідеальний приклад: конкретно, ідеальні приклади забезпечують: Необроблені дані (і в ідеалі метадані, що пояснюють ці дані), Весь код R, включаючи імпорт, обробку даних, аналіз та генерування результатів, Зміна або інший підхід для …

8
Створити випадкову змінну з визначеною кореляцією до існуючої змінної
Для дослідження моделювання я повинен генерувати випадкові змінні , які показують prefined (населення) кореляцію з існуючою YYY . Я подивився в Rпакети copulaі CDVineякі можуть виробляти випадкові багатовимірні розподілу із заданою структурою залежностей. Однак неможливо зафіксувати одну із отриманих змінних до існуючої змінної. Будь-які ідеї та посилання на існуючі функції …

3
Як ми визначаємо "відтворювані дослідження"?
Це з'явилося в кількох питаннях зараз, і я щось цікавив. Чи перемістилося поле в цілому до "відтворюваності", орієнтуючись на доступність оригінальних даних, та на код, про який йдеться? Мене завжди вчили, що ядро ​​відтворюваності не обов'язково, як я вже згадував, здатність клацати Виконати і отримувати однакові результати. Підхід до даних …

8
Як змусити людей краще піклуватися про дані?
На моєму робочому місці працюють співробітники з дуже широкого спектру дисциплін, тому ми генеруємо дані в безлічі різних форм. Отже, кожна команда розробила власну систему зберігання даних. Деякі використовують бази даних Access або SQL; деякі команди (на моє жах) майже повністю залежать від електронних таблиць Excel. Часто формати даних змінюються …

5
Чи є значення p по суті марним і небезпечним у використанні?
Ця стаття " Коефіцієнти, які постійно оновлюються" від NY Times, привернула мою увагу. Коротше кажучи, це стверджує, що [Байєсівська статистика] виявляється особливо корисною у вирішенні складних проблем, включаючи пошуки на зразок того, який берегова охорона використовувала у 2013 році для пошуку зниклого рибалки Джона Олдріджа (хоча ні, поки що під …

6
Як збільшити довгострокову відтворюваність досліджень (особливо з використанням R та Sweave)
Контекст: У відповідь на попереднє запитання про відтворювані дослідження Джейк писав Однією з проблем, які ми виявили під час створення нашого архіву JASA, було те, що змінилися версії та типові параметри CRAN-пакетів. Отже, в цей архів ми також включаємо версії пакетів, які ми використовували. Система, що базується на віньєтці, ймовірно, …

3
Кого слідкувати за github, щоб дізнатися про кращі практики аналізу даних?
Корисно вивчити код аналізу даних експертів. Нещодавно я переглядаю github, і там є кількість людей, які діляться кодом аналізу даних. Сюди входить декілька пакетів R (які, звичайно, доступні безпосередньо у CRAN), а також кілька прикладів відтворюваних досліджень, зокрема з використанням R ( див. Цей список R на github ). Кого …

2
Які існують стандартні практики створення синтетичних наборів даних?
Як контекст: Під час роботи з дуже великим набором даних мене іноді запитують, чи можемо ми створити синтетичний набір даних, де ми «знаємо» взаємозв'язок між предикторами та змінною відповіді або відносини між предикторами. З роками я, мабуть, стикаюся або з одноразовими синтетичними наборами даних, схожими на те, що вони були …

4
Як рецензент, чи можу я обґрунтувати запит про надання даних та коду, навіть якщо журнал цього не робить?
Оскільки наука повинна бути відтвореною, за визначенням зростає визнання того, що дані та код є важливим компонентом відтворюваності, про що йдеться в Єльському круглому столі для обміну даними та кодом . Переглядаючи рукопис журналу, який не потребує обміну даними та кодом, чи можу я вимагати надання даних та коду доступними …

1
Чи було скопійовано повідомлення про найсучасніший результат використання векторів абзацу для аналізу настроїв?
Мене вразили результати в роботі ICML 2014 « Розподілені представлення вироків і документів » Ле та Міколова. Метод, який вони описують, називається "векторами абзацу", вивчає непідконтрольне уявлення довільно довгих абзаців / документів, заснованих на розширенні моделі word2vec. У статті представлено найсучасніші показники аналізу настроїв за допомогою цієї методики. Я сподівався …

1
Як створити кольорові таблиці за допомогою Sweave та xtable? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Я використовую Sweave та xtable для створення звіту. Я хотів би додати трохи фарбування на стіл. Але мені не вдалося знайти жодного …

1
Що робити, якщо висока точність перевірки, але низька точність тестування в дослідженні?
У мене є конкретне питання щодо валідації в дослідженні машинного навчання. Як ми знаємо, режим машинного навчання просить дослідників підготувати свої моделі на навчальних даних, вибирати з кандидатських моделей за допомогою набору перевірок та повідомляти про точність на тестовому наборі. У дуже жорсткому дослідженні тестовий набір можна використовувати лише один …

3
Варіанти розміщення для загальнодоступних даних
Тож ви вирішили підтримати ідею відтворюваних досліджень і хочете зробити свої дані доступними в Інтернеті, щоб люди могли їх бачити та використовувати. Питання в тому, де ви його приймаєте? Моя перша схильність - це, звичайно, приватне веб-простір, який я маю на університетському сервері, але ці речі насправді не є настільки …

4
Наслідки поточної дискусії щодо статистичної значущості
В останні кілька років різні вчені поставили згубну проблему тестування наукової гіпотези, яка отримала назву "ступінь свободи дослідника", тобто вчені мають численні можливості зробити під час свого аналізу те, що ухил до пошуку з р-значенням <5%. Ці неоднозначні варіанти є, наприклад, який випадок включити, який випадок віднесений до категоричності, який …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.