Статистика та великі дані

1

Доведення того, що коефіцієнти в моделі OLS відповідають t-розподілу з (nk) ступенем свободи

Фон Припустимо, у нас є модель звичайних найменших квадратів, де у нашій регресійній моделі є kkk коефіцієнти, y=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} деββ\mathbf{\beta} є (k×1)(k×1)(k\times1) вектор коефіцієнтів, XX\mathbf{X} являє собою матрицю конструкції визначається X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & …

29 regression linear-model least-squares t-distribution

3

Яка різниця у тому, що насправді вимірюють AIC та c-статистику (AUC) для відповідності моделі?

Інформаційний критерій Akaike (AIC) та c-статистика (площа під кривою ROC) - це два заходи моделі, придатної для логістичної регресії. У мене виникають труднощі з поясненням того, що відбувається, коли результати двох заходів не узгоджуються. Я здогадуюсь, що вони вимірюють трохи різні аспекти відповідності моделі, але які ці конкретні аспекти? У …

29 logistic roc aic auc

4

Простий спосіб алгоритмічно визначити сплеск записаних помилок

Нам потрібна система раннього попередження. Я маю справу з сервером, який, як відомо, навантажує проблеми з продуктивністю. Помилки реєструються в базі даних разом із часовою позначкою. Є кілька кроків вручну, які можна вжити для зменшення навантаження сервера, але лише якщо хтось знає про проблему ... З огляду на набір разів, …

29 time-series real-time

1

SVD корельованої матриці має бути добавкою, але, здається, не є

Я просто намагаюся повторити заяву, викладену в наступному документі, знаходження корельованих бікластерів з даних даних про вираження генів , а саме: Пропозиція 4. Якщо . то ми маємо:ХЯJ= RЯСТJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} i. Якщо є ідеальним бікластером з адитивною моделлю, то - це ідеальний бікластер з кореляцією по стовпцях; ii. Якщо - ідеальний …

29 correlation multivariate-analysis svd

3

Інтерпретація простих прогнозів та коефіцієнтів шансів у логістичній регресії

Я дещо новачок у використанні логістичної регресії, і трохи збентежений розбіжністю між моїми інтерпретаціями наступних значень, які, на мою думку, були б однаковими: експонентоване значення бета-версії передбачувана ймовірність результату за допомогою бета-значень. Ось спрощена версія моделі, якою я користуюсь, де недоїдання та страхування є бінарними, а багатство безперервним: Under.Nutrition ~ …

29 regression logistic interpretation prediction odds-ratio

3

Який тест можна використати для порівняння укосів двох або більше регресійних моделей?

Я хотів би перевірити різницю у відповіді двох змінних на один предиктор. Ось мінімальний відтворюваний приклад. library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = …

29 r data-visualization multivariate-analysis hypothesis-testing

3

Чим розподіл Пуассона відрізняється від нормального розподілу?

Я створив вектор, який має розподіл Пуассона так: x = rpois(1000,10) Якщо я роблю гістограму за допомогою hist(x), розподіл виглядає як звичний звичайний розподіл у формі дзвоника. Однак тест Колмогорова-Смірноффа, який використовує, ks.test(x, 'pnorm',10,3)говорить, що розподіл суттєво відрізняється від звичайного розподілу через дуже мале pзначення. Отже, моє запитання: чим розподіл …

29 distributions histogram normal-distribution poisson-distribution

1

Найкращі методи вилучення фактора в факторному аналізі

SPSS пропонує кілька методів вилучення факторів: Основні компоненти (що зовсім не факторний аналіз) Невагомі найменші квадрати Узагальнені найменші квадрати Максимальна ймовірність Основна вісь Альфа-факторинг Імідж-факторинг Ігноруючи перший метод, який не є факторним аналізом (а основним компонентним аналізом, PCA), який із цих методів є "найкращим"? Які відносні переваги різних методів? І …

29 spss pca factor-analysis

1

Відмінності між статистичною моделлю та моделлю ймовірності?

Прикладна ймовірність є важливою галуззю ймовірності, включаючи обчислювальну ймовірність. Оскільки статистика використовує теорію ймовірностей для побудови моделей для обробки даних, як я розумію, мені цікаво, в чому суттєва різниця між статистичною моделлю та моделлю ймовірності? Модель імовірності не потребує реальних даних? Спасибі.

29 probability mathematical-statistics

4

R пакети для моделювання теми / LDA: просто `topicmodels` та` lda` [закрито]

Мені здається, що лише два пакети R здатні виконувати приховане розподілення Діріхле : Один є ldaавтором Джонатана Чанга; а другий topicmodelsавтор - Беттіна Грюн та Курт Горник. Які відмінності між цими двома пакетами щодо продуктивності, деталей реалізації та розширюваності?

29 r bayesian text-mining topic-models latent-dirichlet-alloc

2

Обчисліть матрицю переходу (Маркова) в R

Чи є спосіб у R (вбудована функція) обчислити матрицю переходу ланцюга Маркова з набору спостережень? Наприклад, взявши набір даних, як описано нижче, та обчислити матрицю переходу першого порядку? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))

29 r markov-process

3

Гарні підручники та довідники Гіббса

Я хочу дізнатися, як працює відбір проб Гіббса, і я шукаю хороший основний та проміжний папір. У мене є інформація з інформатики та основні статистичні знання. Хтось читав хороший матеріал навколо? де ти це навчився? Спасибі

29 references gibbs

6

Інтерпретація тесту Шапіро-Вілка

Я досить новачок у статистиці, і мені потрібна ваша допомога. У мене невеликий зразок: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Я провів тест Шапіро-Вілка за допомогою R: shapiro.test(precisionH4U$H4U) і я отримав такий результат: W = 0.9502, p-value = 0.6921 Тепер, якщо я припускаю, що рівень значущості …

29 r distributions interpretation goodness-of-fit normality-assumption

2

Монтаж моделі ARIMAX з регуляризацією чи пеналізацією (наприклад, з регресією ласо, еластичної сітки або конькового хребта)

Я використовую функцію auto.arima () у пакеті прогнозів, щоб підходити до моделей ARMAX з різними коваріатами. Однак мені часто доводиться вибирати велику кількість змінних і, як правило, закінчують остаточну модель, яка працює з їх підмножиною. Мені не подобаються спеціальні методи для вибору змінних, тому що я людина і підданий упередженості, …

29 r time-series lasso regularization elastic-net

3

Чи справедливий тест Колмогорова-Смірнова при дискретних розподілах?

Я порівнюю зразок і перевіряю, чи він розподіляє як деякий, дискретний, розподіл. Однак я не впевнений, що застосовується Колмогоров-Смірнов. Вікіпедія, схоже, означає, що це не так. Якщо це не так, як я можу перевірити розподіл вибірки?

29 hypothesis-testing discrete-data kolmogorov-smirnov