Статистика та великі дані r

6

Яку реалізацію тесту перестановки використовувати в R замість t-тестів (парних та непарних)?

У мене є дані експерименту, які я аналізував, використовуючи t-тести. Залежна змінна масштабується за інтервалом, і дані є непарними (тобто, 2 групи) або парними (тобто, в межах суб'єктів). Напр. (В межах предметів): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, …

56 r t-test nonparametric permutation-test

8

Як імітувати дані, що задовольняють конкретним обмеженням, таким як специфічне середнє та стандартне відхилення?

Це питання мотивоване моїм питанням про метааналіз . Але я думаю, що це також було б корисно в навчанні контекстів, де ви хочете створити набір даних, який би точно відображав наявний опублікований набір даних. Я знаю, як генерувати випадкові дані із заданого розподілу. Наприклад, якщо я прочитав про результати дослідження, …

56 r dataset simulation random-generation

4

Вибір між LM та GLM для змінної відповіді, перетвореної журналом

Я намагаюся зрозуміти філософію, що використовується за допомогою узагальненої лінійної моделі (GLM) проти лінійної моделі (LM). Я створив приклад набору даних нижче, де: log(y)=x+εlog⁡(y)=x+ε\log(y) = x + \varepsilon У прикладі немає помилки як функції величини y , тому я вважаю, що лінійна модель перетвореного y журналу y була б найкращою. …

55 r generalized-linear-model linear-model gamma-distribution link-function

3

Питання про те, як вказані випадкові ефекти в літрах

Нещодавно я виміряв, як значення нового слова набувають протягом неодноразових експозицій (практика: 1-й день 10-го дня), вимірюючи ERP-адреси (ЕЕГ), коли слово переглядалося в різних контекстах. Я також контролював властивості контексту, наприклад, його корисність для виявлення нового значення слова (високий проти низького). Мене особливо цікавить ефект від практики (днів). Оскільки окремі …

55 r mixed-model lme4-nlme random-effects-model

6

Альтернативи логістичній регресії в R

Мені б хотілося стільки алгоритмів, які виконують те саме завдання, що і логістична регресія. Це алгоритми / моделі, які можуть передбачити двійкову відповідь (Y) з деякою пояснювальною змінною (X). Буду радий, якби ви назвали алгоритм, ви також показали, як його реалізувати в R. Ось код, який можна оновити за допомогою …

55 r regression logistic classification predictive-models

9

Як R і Python доповнюють один одного в науці даних?

У багатьох навчальних посібниках чи посібниках начебто випливає, що R та пітон співіснують як доповнюючі компоненти процесу аналізу. Однак на моє непідготовлене око здається, що обидві мови роблять те саме. Тож моє питання полягає в тому, чи існують справді спеціалізовані ніші для двох мов чи це лише особисті переваги, чи …

54 r python software

3

Використання аналізу основних компонентів (PCA) для вибору функцій

Я новачок у виборі функцій, і мені було цікаво, як ви використовуєте PCA для вибору функцій. Чи PCA обчислює відносну оцінку для кожної вхідної змінної, яку можна використовувати для фільтрації неінформативних змінних вводу? В основному, я хочу мати можливість замовити оригінальні функції в даних за відхиленням або кількістю інформації, що …

54 r pca feature-selection

3

Box-Cox як перетворення для незалежних змінних?

Чи існує трансформація типу Box-Cox для незалежних змінних? Тобто перетворення, яке оптимізує змінну так, що волевиявлення зробить більш розумним пристосування для лінійної моделі?хxxy~f(x) Якщо так, чи є функція для цього R?

53 r regression data-transformation normality-assumption

3

API / канали даних, доступні як пакети в R

EDIT: Перегляд завдань CRAN веб-технологій та послуг містить набагато більш повний перелік джерел даних та API, доступних у Р. Ви можете надіслати запит на виклик на github, якщо ви хочете додати пакет до подання завдання. Я складаю список різних каналів даних, які вже підключені до R або які легко налаштувати. …

53 r references dataset

6

Чи мають прогнози моделі випадкового лісу інтервал прогнозування?

Якщо я запускаю randomForestмодель, я можу робити прогнози на основі моделі. Чи є спосіб отримати інтервал прогнозування кожного з прогнозів таким, що я знаю, наскільки "впевнена" модель у своїй відповіді. Якщо це можливо, це просто ґрунтується на мінливості залежної змінної для всієї моделі чи вона матиме більш широкі та вузькі …

52 r confidence-interval random-forest

6

Як визначити найкращу точку відсічення та її довірчий інтервал за допомогою кривої ROC у R?

У мене є дані тесту, які можна було б використовувати для розрізнення нормальних і пухлинних клітин. Згідно кривої ROC, для цієї мети добре виглядає (площа під кривою 0,9): Мої запитання: Як визначити точку відсічення для цього тесту та його довірчий інтервал, коли показання слід оцінювати як неоднозначні? Який найкращий спосіб …

51 r data-visualization confidence-interval roc ggplot2

6

Книги для вивчення статистики за допомогою R Яка саме книга я шукаю. Що я шукаю - це книга, яка навчає вас статистиці під час використання R, щоб отримати практичний досвід і, таким чином, допомогти вам вивчити R разом. Я бачив на Amazon багато книг, які намагаються це зробити, але не …

50 r references

1

Отримання прогнозованих значень (Y = 1 або 0) з моделі логістичної регресії

Скажімо, у мене є об'єкт класу glm(відповідає логістичній регресійній моделі), і я хотів би перетворити передбачувані ймовірності, отримані за predict.glmдопомогою аргументу, type="response"у бінарні відповіді, тобто або . Який найшвидший і найбільш канонічний спосіб зробити це в R?Y=1Y=1Y=1Y=0Y=0Y=0 Хоча, знову ж таки, мені відомо predict.glm, я не знаю, де саме живе …

50 r generalized-linear-model logistic

1

Bootstrap vs. jackknife

Як методи завантаження, так і jackkfefe можуть бути використані для оцінки упередженості та стандартної похибки оцінки, а механізми обох методів перекомпонування не дуже відрізняються: вибірки із заміною порівняно не залишають одночасно спостереження. Однак джекніф не настільки популярний, як завантажувальний тренінг у наукових дослідженнях та практиці. Чи є якась очевидна перевага …

49 r confidence-interval bootstrap jackknife

4

Ручне обчислення значення P від t-значення в t-тесті

У мене є вибірковий набір даних із 31 значенням. Я провів двосхилий t-тест, використовуючи R, щоб перевірити, чи справжня середня величина дорівнює 10: t.test(x=data, mu=10, conf.level=0.95) Вихід: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 …

49 r statistical-significance t-test p-value

Запитання з тегом «r»