Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

1
Доведення того, що коефіцієнти в моделі OLS відповідають t-розподілу з (nk) ступенем свободи
Фон Припустимо, у нас є модель звичайних найменших квадратів, де у нашій регресійній моделі є kkk коефіцієнти, y=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} деββ\mathbf{\beta} є (k×1)(k×1)(k\times1) вектор коефіцієнтів, XX\mathbf{X} являє собою матрицю конструкції визначається X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & …

3
Яка різниця у тому, що насправді вимірюють AIC та c-статистику (AUC) для відповідності моделі?
Інформаційний критерій Akaike (AIC) та c-статистика (площа під кривою ROC) - це два заходи моделі, придатної для логістичної регресії. У мене виникають труднощі з поясненням того, що відбувається, коли результати двох заходів не узгоджуються. Я здогадуюсь, що вони вимірюють трохи різні аспекти відповідності моделі, але які ці конкретні аспекти? У …
29 logistic  roc  aic  auc 

4
Простий спосіб алгоритмічно визначити сплеск записаних помилок
Нам потрібна система раннього попередження. Я маю справу з сервером, який, як відомо, навантажує проблеми з продуктивністю. Помилки реєструються в базі даних разом із часовою позначкою. Є кілька кроків вручну, які можна вжити для зменшення навантаження сервера, але лише якщо хтось знає про проблему ... З огляду на набір разів, …

1
SVD корельованої матриці має бути добавкою, але, здається, не є
Я просто намагаюся повторити заяву, викладену в наступному документі, знаходження корельованих бікластерів з даних даних про вираження генів , а саме: Пропозиція 4. Якщо . то ми маємо:ХЯJ= RЯСТJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} i. Якщо є ідеальним бікластером з адитивною моделлю, то - це ідеальний бікластер з кореляцією по стовпцях; ii. Якщо - ідеальний …

3
Інтерпретація простих прогнозів та коефіцієнтів шансів у логістичній регресії
Я дещо новачок у використанні логістичної регресії, і трохи збентежений розбіжністю між моїми інтерпретаціями наступних значень, які, на мою думку, були б однаковими: експонентоване значення бета-версії передбачувана ймовірність результату за допомогою бета-значень. Ось спрощена версія моделі, якою я користуюсь, де недоїдання та страхування є бінарними, а багатство безперервним: Under.Nutrition ~ …

3
Який тест можна використати для порівняння укосів двох або більше регресійних моделей?
Я хотів би перевірити різницю у відповіді двох змінних на один предиктор. Ось мінімальний відтворюваний приклад. library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = …

3
Чим розподіл Пуассона відрізняється від нормального розподілу?
Я створив вектор, який має розподіл Пуассона так: x = rpois(1000,10) Якщо я роблю гістограму за допомогою hist(x), розподіл виглядає як звичний звичайний розподіл у формі дзвоника. Однак тест Колмогорова-Смірноффа, який використовує, ks.test(x, 'pnorm',10,3)говорить, що розподіл суттєво відрізняється від звичайного розподілу через дуже мале pзначення. Отже, моє запитання: чим розподіл …

1
Найкращі методи вилучення фактора в факторному аналізі
SPSS пропонує кілька методів вилучення факторів: Основні компоненти (що зовсім не факторний аналіз) Невагомі найменші квадрати Узагальнені найменші квадрати Максимальна ймовірність Основна вісь Альфа-факторинг Імідж-факторинг Ігноруючи перший метод, який не є факторним аналізом (а основним компонентним аналізом, PCA), який із цих методів є "найкращим"? Які відносні переваги різних методів? І …

1
Відмінності між статистичною моделлю та моделлю ймовірності?
Прикладна ймовірність є важливою галуззю ймовірності, включаючи обчислювальну ймовірність. Оскільки статистика використовує теорію ймовірностей для побудови моделей для обробки даних, як я розумію, мені цікаво, в чому суттєва різниця між статистичною моделлю та моделлю ймовірності? Модель імовірності не потребує реальних даних? Спасибі.

4
R пакети для моделювання теми / LDA: просто `topicmodels` та` lda` [закрито]
Мені здається, що лише два пакети R здатні виконувати приховане розподілення Діріхле : Один є ldaавтором Джонатана Чанга; а другий topicmodelsавтор - Беттіна Грюн та Курт Горник. Які відмінності між цими двома пакетами щодо продуктивності, деталей реалізації та розширюваності?

2
Обчисліть матрицю переходу (Маркова) в R
Чи є спосіб у R (вбудована функція) обчислити матрицю переходу ланцюга Маркова з набору спостережень? Наприклад, взявши набір даних, як описано нижче, та обчислити матрицю переходу першого порядку? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))
29 r  markov-process 

3
Гарні підручники та довідники Гіббса
Я хочу дізнатися, як працює відбір проб Гіббса, і я шукаю хороший основний та проміжний папір. У мене є інформація з інформатики та основні статистичні знання. Хтось читав хороший матеріал навколо? де ти це навчився? Спасибі
29 references  gibbs 

6
Інтерпретація тесту Шапіро-Вілка
Я досить новачок у статистиці, і мені потрібна ваша допомога. У мене невеликий зразок: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Я провів тест Шапіро-Вілка за допомогою R: shapiro.test(precisionH4U$H4U) і я отримав такий результат: W = 0.9502, p-value = 0.6921 Тепер, якщо я припускаю, що рівень значущості …

2
Монтаж моделі ARIMAX з регуляризацією чи пеналізацією (наприклад, з регресією ласо, еластичної сітки або конькового хребта)
Я використовую функцію auto.arima () у пакеті прогнозів, щоб підходити до моделей ARMAX з різними коваріатами. Однак мені часто доводиться вибирати велику кількість змінних і, як правило, закінчують остаточну модель, яка працює з їх підмножиною. Мені не подобаються спеціальні методи для вибору змінних, тому що я людина і підданий упередженості, …

3
Чи справедливий тест Колмогорова-Смірнова при дискретних розподілах?
Я порівнюю зразок і перевіряю, чи він розподіляє як деякий, дискретний, розподіл. Однак я не впевнений, що застосовується Колмогоров-Смірнов. Вікіпедія, схоже, означає, що це не так. Якщо це не так, як я можу перевірити розподіл вибірки?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.