Статистика та великі дані r

5

Хороший спосіб графічно показати багато даних

Я працюю над проектом, який включає 14 змінних та 345 000 спостережень за даними про житло (такі речі, як рік побудови, квадратні метри, продана ціна, графство проживання тощо). Мене хвилює намагання знайти хороші графічні прийоми та бібліотеки R, які містять приємні методики побудови графіків. Я вже бачу, що в ggplot …

15 r data-visualization large-data eda

2

Поетапна регресія в R - Як це працює?

Я намагаюся зрозуміти основну різницю між покроковою і зворотною регресією в R за допомогою функції кроку. Для поетапної регресії я використав таку команду step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") Я отримав нижче вихід для вищевказаного коду. Для вибору зворотної змінної я використав таку команду step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="backward") І я отримав нижчий вихід для відсталого Наскільки я зрозумів, …

15 r regression

3

Логістична регресія: Scikit Learn vs glmnet

Я намагаюся дублювати результати з sklearnлогістичної регресійної бібліотеки за допомогою glmnetпакету в Р. sklearnminw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) З віньєток з glmnetйого реалізація мінімізує дещо інший вартість функції хвβ, β0- [ 1N∑i=1Nyi(β0+xTiβ) -log( 1 + е( β0+ хТiβ)) ] + λ [ ( α - 1 ) …

15 r logistic python scikit-learn glmnet

3

Чи може модель для негативних даних із збіганням нулів (Tweedie GLM, нульовий надутий GLM тощо) передбачити точні нулі?

Розподіл Tweedie може моделювати скошені дані з точковою масою в нулі, коли параметр (показник у співвідношенні середня дисперсія) знаходиться між 1 і 2.ppp Аналогічно, надута з нуля (будь-то безперервна чи дискретна) модель може мати велику кількість нулів. У мене виникають проблеми з розумінням того, що це так, що коли я …

15 r generalized-linear-model prediction zero-inflation tweedie-distribution

1

У мене лінійка найкраще підходить. Мені потрібні точки даних, які не змінять мою лінію найкращим чином

Я веду презентацію про примірні лінії. У мене проста лінійна функція, y=1x+by=1x+by=1x+b . Я намагаюся отримати розрізнені точки даних, які я можу розмістити в діаграмі розкидання, що дозволить моїй лінії найкраще відповідати тому ж рівнянню. Я хотів би вивчити цю техніку або в R, або в Excel - залежно від …

15 r regression least-squares excel

1

Багатовимірний біологічний часовий ряд: VAR та сезонність

У мене є багатофакторний набір даних часових рядів, включаючи взаємодіючі біологічні та екологічні змінні (плюс, можливо, деякі екзогенні змінні). Крім сезонності, даних немає чіткої довгострокової тенденції. Моя мета - побачити, які змінні пов'язані між собою. Прогнозування насправді не шукали. Будучи новим у аналізі часових рядів, я прочитав кілька посилань. Наскільки …

15 r time-series var seasonality

1

Чому я не можу зіставити результат glmer (family = binomial) з ручною реалізацією алгоритму Гаусса-Ньютона?

Я хотів би співставити результати lmer (дійсно glmer) із прикладом іграшкового двочлена. Я читав віньєтки і вважаю, що розумію, що відбувається. Але, мабуть, ні. Після застрягання я виправив "правду" з точки зору випадкових ефектів і пішов після оцінки фіксованих ефектів поодинці. Я включаю цей код нижче. Щоб побачити, що це …

15 r mixed-model optimization lme4-nlme

1

Найкращий спосіб візуально представити відносини з декількох лінійних моделей

У мене є лінійна модель з приблизно 6 провісниками, і я буду представляти оцінки, значення F, значення p тощо. Однак мені було цікаво, що було б найкращим візуальним сюжетом для представлення індивідуального ефекту одного прогноктора змінна відповідь? Діаграма розкиду? Умовна ділянка? Ефекти сюжету? тощо? Як би я трактував цей сюжет? …

15 r regression data-visualization multiple-regression partial-plot

4

Статистика Ljung-Box для залишків ARIMA в R: заплутані результати тестів

У мене є часовий ряд, який я намагаюся прогнозувати, для якого я використав сезонну модель ARIMA (0,0,0) (0,1,0) [12] (= fit2). Він відрізняється від того, що R запропонувало з auto.arima (R, розраховане ARIMA (0,1,1) (0,1,0) [12], було б краще, я назвав це придатним1). Однак, за останні 12 місяців моєї часової …

15 r time-series statistical-significance arima residuals

3

Перевірте значну різницю між двома значеннями нахилу

У мене дані - це значення регресійного нахилу y ~ часу, стандартна помилка, n значення та значення ap для певного виду у двох різних областях. Я хочу перевірити, чи суттєво відрізняється нахил регресії для однієї області від нахилу регресії для іншої області - чи можливо це за таких даних? Хтось …

15 r regression statistical-significance

2

Як зробити регресію з ефектом кодування замість фіктивного кодування в R?

Зараз я працюю над регресійною моделлю, де я маю лише категоричні / факторні змінні як незалежні змінні. Моя залежна змінна - коефіцієнт перетвореного logit. Досить просто просто запустити нормальну регресію в R, оскільки R автоматично знає, як кодувати манекени, як тільки вони стають типу "фактор". Однак цей тип кодування також …

15 r regression categorical-data categorical-encoding

1

Пошук локальних екстремумів функції щільності за допомогою сплайнів

Я намагаюся знайти локальні максимуми для функції щільності ймовірності (знайденої за допомогою densityметоду R ). Я не можу простий метод "озирнутися навколо сусідів" (де можна оглянути точку, щоб побачити, чи це локальний максимум щодо своїх сусідів), оскільки є великий об'єм даних. Крім того, здається більш ефективним і загальним використовувати щось …

15 r pdf splines maximum

4

Ефективне оновлення лінійної регресії при додаванні спостережень та / або предикторів в R

Мені було б цікаво знайти шляхи в R для ефективного оновлення лінійної моделі при додаванні спостереження чи прогноктора. biglm має можливість оновлення при додаванні спостережень, але мої дані досить малі, щоб залишатися в пам'яті (хоча я маю велику кількість примірників для оновлення). Існують способи зробити це голими руками, наприклад, оновити …

15 r regression computational-statistics linear-model

2

Розуміння відставання в розширеному тесті R Діккі Фуллера

Я розігрувався з деяким тестуванням одиничного кореневого контролю в R, і я не зовсім впевнений, що робити з параметром k lag. Я використовував розширений тест Діккі Фуллера та тест Філіпса Перрона з пакету церій . Очевидно, що параметр за замовчуванням (для ) залежить лише від довжини серії. Якщо я вибираю …

15 r time-series trend

2

Що таке "базова лінія" в кривій точності відкликання

Я намагаюся зрозуміти криву точності відкликання, я розумію, що таке точність і відкликання, але те, що я не розумію, це "базове" значення. Я читав це посилання https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ і я не розумію базову частину, як показано в "Кривій точності нагадування ідеального класифікатора", що це робить? і як це ми обчислимо? Це …

15 r machine-learning classification precision-recall

Запитання з тегом «r»