Статистика та великі дані r

4

Я використовую пакет партії в R з 10000 рядків і 34 ознаками, а деякі функції фактора мають більше 300 рівнів. Час обчислення занадто довгий. (Минуло 3 години, і це ще не закінчилося.) Хочу знати, які елементи мають великий вплив на час обчислення випадкового лісу. Це фактори, які мають занадто багато …

49 r random-forest

5

Чим відрізняється NaN від NA?

Мені хотілося б знати, чому деякі мови, такі як R, мають НА та NaN. Які відмінності чи вони однаково однакові? Чи справді потрібно мати NA?

48 r

7

З чого почати зі статистики для досвідченого розробника

Протягом першої половини 2015 року я пройшов курс машинного навчання (Ендрю Нг, ВЕЛИКИЙ курс). А також засвоїли основи машинного навчання (лінійна регресія, логістична регресія, SVM, нейронні мережі ...) Також я був розробником 10 років, тому вивчення нової мови програмування не було б проблемою. Останнім часом я почав вивчати R з …

47 r regression machine-learning references

1

Як застосувати стандартизацію / нормалізацію до поїзного і тестового набору, якщо мета прогнозування?

Чи я транслюю всі свої дані або складки (якщо застосовується резюме) одночасно? напр (allData - mean(allData)) / sd(allData) Чи трансформую поїздку та набір тестів окремо? напр (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Або я перетворюю набір поїздів і використовую обчислення на тестовому наборі? напр (trainData - …

47 r cross-validation data-transformation normalization standardization

5

R - QQPlot: як дізнатися, чи нормально поширюються дані

Я створив це після того, як зробив тест на нормальність Шапіро-Вілка. Тест показав, що цілком ймовірно, що населення нормально розподілене. Однак як побачити цю «поведінку» на цьому сюжеті? ОНОВЛЕННЯ Проста гістограма даних: ОНОВЛЕННЯ Тест Шапіро-Вілка говорить:

47 r data-visualization normal-distribution histogram qq-plot

4

Як зробити вибір підмножини логістичної регресії?

Я поміщаю біноміальну glm сім'ю в R, і у мене є ціла група пояснювальних змінних, і мені потрібно знайти найкраще (R-квадрат, як міра - це нормально). Не маючи написання сценарію, щоб переглядати випадкові різні комбінації пояснювальних змінних, а потім записувати, що найкраще, я дійсно не знаю, що робити. І leapsфункція …

47 r logistic

5

Перший вихідний код R пакунків для вивчення під час підготовки до написання власного пакету

Я планую почати писати R-пакети. Я подумав, що було б добре вивчити вихідний код існуючих пакетів, щоб дізнатися про умови створення пакетів. Мої критерії хороших пакетів для вивчення: Прості статистичні / технічні ідеї : Справа в тому, щоб дізнатися про механіку побудови пакетів. Розуміння пакету не повинно вимагати детальних специфічних …

47 r

3

Чи можливо зробити кластеризацію часових рядів на основі форми кривої?

У мене є дані про продажі для ряду торгових точок, і я хочу їх класифікувати за формою кривих у часі. Дані виглядають приблизно так (але, очевидно, не є випадковими і мають деякі відсутні дані): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- …

47 r time-series clustering

5

Як обчислити псевдо- з логістичної регресії R?

Опис Крістофера Меннінга про логістичну регресію в R показує логістичну регресію в R таким чином: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Деякі результати: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 …

46 r logistic log-likelihood

3

Інтерпретація прогнозованого прогнозу та / або відповіді перетвореного журналом

Мені цікаво, чи має значення інтерпретація, чи трансформуються лише залежні, і залежні, і незалежні, або лише незалежні змінні. Розглянемо випадок log(DV) = Intercept + B1*IV + Error Я можу трактувати ІV як збільшення відсотка, але як це змінюється, коли я маю log(DV) = Intercept + B1*log(IV) + Error або коли …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

2

Як моделювати штучні дані для логістичної регресії?

Я знаю, що мені щось не вистачає в моєму розумінні логістичної регресії, і я дуже вдячний за будь-яку допомогу. Наскільки я розумію, логістична регресія передбачає, що ймовірність результату '1' за даними входів є лінійною комбінацією входів, переданих через функцію обернено-логістичної. Це є прикладом у наступному R-коді: #create data: x1 = …

45 r regression logistic generalized-linear-model simulation

5

Використання R в Інтернеті - без його встановлення [закрито]

Чи існує можливість використання R у вебінтерфейсі без необхідності його встановлення? У мене є лише один невеликий сценарій, який я люблю запускати, але я просто хочу його зняти без тривалої процедури установки. Дякую.

45 r

3

Що таке Девіант? (конкретно в CART / rpart)

Що таке "Відхилення", як він обчислюється та якими є його використання в різних галузях статистики? Зокрема, мене особисто цікавить його використання в CART (та його реалізація в rpart in R). Я запитую це, оскільки вікі-статті здається дещо відсутнім, і Ваша думка буде найкраще вітатися.

45 r cart rpart deviance

3

Чи є різниця між lm та glm для гауссового сімейства glm?

Зокрема, я хочу знати, чи є різниця між lm(y ~ x1 + x2)та glm(y ~ x1 + x2, family=gaussian). Я думаю, що цей конкретний випадок glm дорівнює lm. Я помиляюся?

45 r normal-distribution generalized-linear-model lm

1

Як інтерпретувати тип I, II тип та III тип ANOVA та MANOVA?

Моє первинне питання - як інтерпретувати вихід (коефіцієнти, F, P) при проведенні типу I (послідовного) ANOVA? Моя конкретна дослідницька проблема трохи складніша, тому я розбию свій приклад на частини. По-перше, якщо мене цікавить вплив густоти павуків (X1) на ріст рослини (Y1) і я висаджував розсаду у вольєри та маніпулював щільністю …

45 r hypothesis-testing anova manova sums-of-squares

Запитання з тегом «r»