Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

9
Який зв’язок між
Який взаємозв'язок між та у наступному сюжеті? На мій погляд, є негативні лінійні відносини, але оскільки у нас багато людей, що пережили, вони дуже слабкі. Чи правий я? Я хочу навчитися пояснювати, як можна пояснити розсіювачі.XYYYХХX

3
Чому поліноміальна регресія вважається особливим випадком множинної лінійної регресії?
Якщо поліноміальна регресія моделює нелінійні зв’язки, як це можна вважати особливим випадком множинної лінійної регресії? У Вікіпедії зазначається, що «Хоча поліноміальна регресія відповідає нелінійній моделі даним, однак проблема статистичного оцінювання є лінійною, в тому сенсі, що функція регресії лінійна в невідомих параметрах, що оцінюються з даних ".Е (у| х)E(y|x)\mathbb{E}(y | …

3
Яке значення має довірчий інтервал, узятий із завантажених повторних копій?
Я переглядав численні запитання на цьому сайті щодо завантажувальних і довірчих інтервалів, але я все ще плутаюся. Частина причини моєї плутанини, мабуть, у тому, що я недостатньо просунувся у своїх знаннях статистики, щоб зрозуміти багато відповідей. Я приблизно на півдорозі вступного курсу статистики, і мій рівень математики - це лише …

2
Чим відрізняється умовна і безумовна квантильна регресія?
Умовна кількісна регресія регресії Коенкера та Бассета (1978) для квантила визначається як де \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) є функцією повторного зважування (називається "перевірити" -функція) залишків u_i .τthτth\tau^{th} рт=Uя⋅(т-1(уя<0))уяβˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau) ρτ=ui⋅(τ−1(ui<0))ρτ=ui⋅(τ−1(ui<0))\rho_\tau = u_i\cdot …

2
Коли Пуассон та негативні біноміальні регресії відповідають однаковим коефіцієнтам?
Я помітив, що в R, Пуассоні та негативних біноміальних регресіях, здається, завжди відповідають однакові коефіцієнти для категоричних, але не безперервних предикторів. Наприклад, ось регресія з категоричним прогноктором: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) Ось приклад з неперервним …

5
Прогнозування в регресії Кокса
Я роблю багатоваріантну регресію Кокса, у мене є значні незалежні змінні та бета-значення. Модель дуже добре підходить до моїх даних. Тепер я хотів би використати свою модель і передбачити виживання нового спостереження. Мені незрозуміло, як це зробити з моделлю Кокса. У лінійній чи логістичній регресії було б просто, просто покладіть …

6
Який зв’язок між достовірними регіонами та тестами гіпотез Баєса?
У частотистській статистиці існує тісний зв’язок між довірчими інтервалами та тестами. Використовуючи умовивід про в розподілі як приклад, інтервал довіри містить усі значення , які не відхиляються -test на рівні значущості .μμ\muN(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1−α1−α1-\alphax¯±tα/2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n}μμ\mutttαα\alpha У цьому сенсі часто перевірливі довірчі інтервали. (Між іншим, це означає, що ми можемо інтерпретувати …

3
Чому наївні байєсівські класифікатори так добре працюють?
Класифікатори Naive Bayes - популярний вибір для класифікаційних проблем. Є багато причин для цього, зокрема: "Zeitgeist" - широке усвідомлення після успіху спам-фільтрів близько десяти років тому Легко писати Модель класифікатора швидко будується Модель можна модифікувати новими навчальними даними без необхідності її перебудови Однак вони "наївні" - тобто вони вважають, що …

2
Що таке ідентифікація моделі?
Я знаю, що за моделлю, яка не може бути ідентифікована, дані можна сказати, що вони генеруються безліччю різних призначень параметрів моделі. Я знаю, що іноді можливо обмежити параметри так, щоб усі були ідентифікованими, як у прикладі в Cassella & Berger 2nd ed, розділ 11.2. З огляду на конкретну модель, як …

8
Чи справедливо включати базовий показник як контрольну змінну при тестуванні впливу незалежної змінної на показники змін?
Я намагаюся запустити регресію OLS: DV: Зміна ваги за рік (початкова вага - кінцева вага) IV: Ви чи не займаєтеся фізичними вправами. Однак здається розумним, що важчі люди втратять більше ваги за одиницю фізичних вправ, ніж худі люди. Таким чином, я хотів включити контрольну змінну: CV: Початковий стартовий вага. Однак …

7
Чи є хороший браузер / глядач, щоб побачити набір даних R (файл .rda)
Я хочу переглянути .rda файл (R набір даних). Я знаю про View(datasetname)команду. R.app за замовчуванням, який постачається для Mac, не має дуже хорошого браузера для даних (він відкриває вікно в X11). Мені подобається браузер даних RStudio, який відкривається Viewкомандою. Однак він показує лише 1000 рядків і опускає решту. ( ОНОВЛЕННЯ: …
38 r 

4
Орієнтовна статистика замовлень для звичайних випадкових величин
Чи відомі формули для статистики порядку певних випадкових розподілів? Зокрема, було б вдячно також статистика першого та останнього порядку звичайної випадкової величини, але більш загальна відповідь. Редагувати: Для уточнення я шукаю формули наближення, які можна більш-менш явно оцінити, а не точний інтегральний вираз. Наприклад, я бачив наступні два наближення для …

9
Як я можу ефективно моделювати суму випадкових змінних Бернуллі?
Я моделюю випадкову змінну ( YYY ), яка є сумою деяких ~ 15-40k незалежних випадкових змінних Бернуллі ( ), кожна з різною ймовірністю успіху ( ). Формально де і \ Pr (X_i = 0) = 1-p_i .XiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_i Pr ( X i = 0 ) = 1 - p iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i …

5
"Кластеризація" часових рядів в R
У мене є набір даних часових рядів. Кожна серія охоплює один і той же період, хоча фактичні дати в кожному часовому ряді можуть не всі «точно вирівнюватися». Тобто, якби серія «Час» читалася у 2D матриці, вона виглядала б приблизно так: date T1 T2 T3 .... TN 1/1/01 100 59 42 …

8
Як ефективно генерувати випадкові позитивні-семідефінітні кореляційні матриці?
Я хотів би мати можливість ефективно генерувати кореляційні матриці з позитивним семідефінітом (PSD). Мій метод різко сповільнюється, оскільки я збільшую розмір матриць, які потрібно генерувати. Чи можете ви запропонувати якісь ефективні рішення? Якщо вам відомі будь-які приклади в Matlab, я буду дуже вдячний. Коли ви генеруєте кореляційну матрицю PSD, як …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.