Запитання з тегом «mathematical-statistics»

Математична теорія статистики, що стосується формальних визначень та загальних результатів.

1
Розуміння використання логарифмів у логарифмі TF-IDF
Я читав: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Але я не можу точно зрозуміти, чому формула була побудована такою, якою вона є. Що я розумію: iDF повинен на якомусь рівні вимірювати, як часто термін S з'являється в кожному з документів, зменшуючи значення, оскільки термін з'являється частіше. З цієї точки зору iDF(S)=# of Documents# of Documents …

1
Уточнення в геометрії інформації
Це питання стосується статті " Диференціальна геометрія криволінійних експоненціальних сімей-кривизни та втрати інформації " Амарі. Текст йде так. Нехай - n -вимірне множина розподілів ймовірностей з системою координат θ = ( θ 1 , … , θ n ) , де p θ ( x ) > 0Sн= { рθ}Sn={pθ}S^n=\{p_{\theta}\}нnnθ …

2
Що стосується t-випробування однієї вибірки, що відбувається, якщо в оцінці дисперсії середнє значення вибірки замінено на
Припустимо однопробний t-тест, де нульова гіпотеза . Тоді статистика t = ¯ x - μ 0μ=μ0μ=μ0\mu=\mu_0 використанням стандартного відхилення вибіркиs. Оцінюючиs, можна порівняти спостереження із середньою вибіркою¯x:t = x¯¯¯- мк0с / н√t=x¯−μ0s/nt=\frac{\overline{x}-\mu_0}{s/\sqrt{n}}сssсssх¯¯¯x¯\overline{x} .s = 1n - 1∑нi = 1( хi- х¯¯¯)2---------------√s=1n−1∑i=1n(xi−x¯)2s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2} Однак, якщо вважати, що заданий є істинним, можна …

2
Очікуване значення Гауссової випадкової величини, перетвореної з логістичною функцією
І логістична функція, і стандартне відхилення зазвичай позначаються . Я буду використовувати і для стандартного відхилення.σσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss У мене є логістичний нейрон зі випадковим входом, середнє значення і стандартне відхилення я знаю. Я сподіваюся, що різницю від середньої можна добре оцінити деяким гауссовим шумом. Отже, з невеликим зловживанням нотацією, …

1
Чи регресії з помилками студента-т марні?
Перегляньте редагування. Коли у вас є дані з важкими хвостами, регресія з помилками студента-т здається інтуїтивно зрозумілою справою. Досліджуючи цю можливість, я наткнувся на цей документ: Breusch, TS, Robertson, JC, & Welsh, AH (01 листопада 1997). Новий одяг імператора: критика багатоваріантної регресійної моделі. Statistica Neerlandica, 51, 3.) ( посилання , …

2
Тестування гіпотез та загальна відстань варіації проти дивергенції Кульбека-Лейблера
У своєму дослідженні я зіткнувся з такою загальною проблемою: у мене є два розподіли і по одному домену і велика (але кінцева) кількість вибірок з цих розподілів. Зразки незалежно та однаково розподіляються з одного з цих двох розподілів (хоча розподіли можуть бути пов’язані між собою: наприклад, може бути сумішшю та …

4
Велика картина щодо аналізу виживання та аналізу даних про життя
Я чув про аналіз виживання та аналіз даних про життя, але не дуже розумію. Мені було цікаво, які теми вони висвітлюють? Це чиста статистика, або просто застосування статистики в якійсь конкретній області? Чи є аналіз дати життя частиною аналізу виживання? Дякую та з повагою!

3
Розподіл коли є незалежними змінними
Як звичайна вправа, я намагаюся знайти розподіл де і є незалежними випадковими змінними.X2+Y2−−−−−−−√X2+Y2\sqrt{X^2+Y^2}XXXYYYU(0,1)U(0,1) U(0,1) Щільність суглоба дорівнює (X,Y)(X,Y)(X,Y)fX,Y(x,y)=10&lt;x,y&lt;1fX,Y(x,y)=10&lt;x,y&lt;1f_{X,Y}(x,y)=\mathbf 1_{0\cos^{-1}\left(\frac{1}{z}\right)cosθcos⁡θ\cos\thetaθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right]zsinθ&lt;1⟹θ&lt;sin−1(1z)zsin⁡θ&lt;1⟹θ&lt;sin−1⁡(1z)z\sin\theta<1\implies\theta<\sin^{-1}\left(\frac{1}{z}\right)sinθsin⁡θ\sin\thetaθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right] Отже, для маємо .1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2cos−1(1z)&lt;θ&lt;sin−1(1z)cos−1⁡(1z)&lt;θ&lt;sin−1⁡(1z)\cos^{-1}\left(\frac{1}{z}\right)<\theta<\sin^{-1}\left(\frac{1}{z}\right) Абсолютне значення якобіана перетворення становить|J|=z|J|=z|J|=z Таким чином, щільність стику задається виразом(Z,Θ)(Z,Θ)(Z,\Theta) fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2√),θ∈(cos−1(1/z),sin−1(1/z))}fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2),θ∈(cos−1⁡(1/z),sin−1⁡(1/z))}f_{Z,\Theta}(z,\theta)=z\mathbf 1_{\{z\in(0,1),\,\theta\in\left(0,\pi/2\right)\}\bigcup\{z\in(1,\sqrt2),\,\theta\in\left(\cos^{-1}\left(1/z\right),\sin^{-1}\left(1/z\right)\right)\}} Інтегруючи , отримуємо pdf asθθ\thetaZZZ fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1(1z))11&lt;z&lt;2√fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1⁡(1z))11&lt;z&lt;2f_Z(z)=\frac{\pi z}{2}\mathbf 1_{0\sqrt 2 \end{cases} що виглядає …


1
Як намалювати встановлений графік та фактичний графік розподілу гамми в одному сюжеті?
Завантажте необхідний пакет. library(ggplot2) library(MASS) Створіть 10 000 чисел, пристосованих до розподілу гами. x &lt;- round(rgamma(100000,shape = 2,rate = 0.2),1) x &lt;- x[which(x&gt;0)] Намалюйте функцію густини ймовірностей, припускаючи, що ми не знаємо, до якого розподілу x підходив. t1 &lt;- as.data.frame(table(x)) names(t1) &lt;- c("x","y") t1 &lt;- transform(t1,x=as.numeric(as.character(x))) t1$y &lt;- t1$y/sum(t1[,2]) ggplot() …

4
Модель історії дискретних подій дискретного часу (виживання) в R
Я намагаюся вписати в R дискретний час модель, але не знаю, як це зробити. Я читав, що ви можете організувати залежну змінну в різні рядки, по одній для кожного часу спостереження, і використовувати glmфункцію за допомогою посилання logit або cloglog. У цьому сенсі, у мене є три колонки: ID, Event(1 …
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
Питання про функцію автоковаріації зразка
Я читаю книгу аналізу часових рядів, а формула для автоковаріації зразків визначається в книзі як: γˆ(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)γ^(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)\widehat{\gamma}(h) = n^{-1}\displaystyle\sum_{t=1}^{n-h}(x_{t+h}-\bar{x})(x_t-\bar{x}) здля . - середнє значення.γˆ(−h)=γˆ(h)γ^(−h)=γ^(h)\widehat{\gamma}(-h) = \widehat{\gamma}(h)\;h=0,1,...,n−1h=0,1,...,n−1\;h = 0,1, ..., n-1x¯x¯\bar{x} Чи може хтось інтуїтивно пояснити, чому ми ділимо суму на а не на ? У книзі пояснюється, що це тому, що …

1
R лінійна регресія, категоріальна змінна значення «приховане»
Це лише приклад, на який я зустрічався кілька разів, тому у мене немає даних про вибірку. Запуск лінійної регресійної моделі в R: a.lm = lm(Y ~ x1 + x2) x1є суцільною змінною. x2категоричний і має три значення, наприклад "Низький", "Середній" та "Високий". Однак вихід, отриманий R, був би на кшталт: …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
Доведення послідовності зменшується (підтримується побудовою великої кількості точок)
Багато питань, які я опублікував у минулому місяці щодо SE, мали на меті допомогти мені вирішити цю конкретну проблему. На всі питання відповіли, але я все ще не можу знайти рішення. Отже, я подумав, що треба просто задати проблему, яку я намагаюся вирішити безпосередньо. Дозволяє Хн∼ЖнХн∼ЖнX_n \sim F_n, де Жн= …

2
Який найпотужніший результат щодо максимуму гайдаків? Найбільше використовується на практиці?
З огляду на , розглянути випадкові величиниX1,…,Xn,…∼N(0,1)X1,…,Xn,…∼N(0,1)X_1, \ldots, X_n, \ldots \sim \mathscr{N}(0,1) Zn:=max1≤i≤nXi.Zn:=max1≤i≤nXi. Z_n := \max_{1 \le i \le n} X_i\,. Питання: Який найважливіший результат щодо цих випадкових величин? Для уточнення "важливості", який результат має найбільше інших таких результатів як логічний наслідок? Який із результатів використовується найчастіше на практиці? Більш …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.