Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

9
Чому люди використовують p-значення замість обчислення ймовірності моделі даних?
Грубо кажучи, р-значення дає ймовірність спостережуваного результату експерименту з урахуванням гіпотези (моделі). Маючи цю ймовірність (p-значення), ми хочемо судити про нашу гіпотезу (наскільки це ймовірно). Але хіба не було б природніше обчислити ймовірність гіпотези з огляду на спостережуваний результат? Більш детально. У нас є монета. Ми перевертаємо це 20 разів …

3
Розуміння ролі коефіцієнта знижок у зміцненні навчання
Я вчу себе про навчання підкріпленням і намагаюся зрозуміти поняття винагороди зі знижкою. Отже, нагорода необхідна, щоб сказати системі, які пари "держава-дія" є хорошими, а які - поганими. Але я не розумію, чому необхідна винагорода зі знижкою. Чому має значення, чи буде досягнутий хороший стан швидше, ніж пізніше? Я розумію, …

3
Узагальнення Закону ітераційних очікувань
Нещодавно я натрапив на цю особу: Е[ Є( Y| Х, Z) | Х] = Е[ Y| Х]E[E(Y|X,Z)|X]=E[Y|X]E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right] Я, звичайно, знайомий з більш простою версією цього правила, а саме з тим, що Е[ Є( Y| Х) ] =Е( Y)E[E(Y|X)]=E(Y)E \left[ …

2
Чому моделі часових рядів MA (q) називають «ковзаючими середніми»?
Коли я читаю "ковзну середню" по відношенню до часового ряду, думаю, що-то на зразок , або, можливо, зважений в середньому, як . (Я розумію, що це насправді моделі AR (3), але це те, до чого мій мозок стрибає.) Чому МА (q) формули моделей формул помилок, або "нововведень"? Що стосується з …

3
Чи можливо інтерпретувати завантажувальний інструмент з байєсівської точки зору?
Гаразд, це питання, яке підтримує мене вночі. Чи можна інтерпретувати процедуру завантаження як наближення деякої байєсівської процедури (за винятком байєсівської завантажувальної програми)? Мені дуже подобається байєсівське «тлумачення» статистики, яке мені здається добре узгодженим і зрозумілим. Однак у мене також є слабкість щодо завантажувальної процедури, яка є такою простою, але дає …

4
Навчання дерева рішень проти незбалансованих даних
Я новачок у видобутку даних і намагаюся навчити дерево рішень щодо набору даних, який є вкрай незбалансованим. Однак у мене проблеми із поганою точністю прогнозування. Дані складаються з студентів, які вивчають курси, а змінна класу - це статус курсу, який має два значення - Відкликаний або Поточний. Вік Етнічність Стать …

3
Методи регуляризації логістичної регресії
Регуляризація за допомогою таких методів, як Ridge, Lasso, ElasticNet, досить поширена для лінійної регресії. Мені хотілося знати наступне: чи застосовуються ці методи для логістичної регресії? Якщо так, чи є якісь відмінності в способі їх використання для логістичної регресії? Якщо ці методи не застосовуються, як можна регулювати логістичну регресію?

2
Метод максимальної ймовірності проти методу найменших квадратів
Яка основна відмінність між максимальною оцінкою ймовірності (MLE) та оцінкою найменших квадратів (LSE)? Чому ми не можемо використовувати MLE для прогнозування значень у лінійній регресії та навпаки?yyy Будь-яка допомога з цієї теми буде дуже вдячна.

2
Що таке максимум в нейронній мережі?
Хтось може пояснити, що роблять одиниці максимуму в нейронній мережі? Як вони виконують і чим вони відрізняються від звичайних одиниць? Я намагався прочитати документ "Максимальна мережа" 2013 року Goodfellow et al. (від групи професора Йошуа Бенджо), але я не дуже розумію.

9
Викладаючи статистику, використовуйте "нормальну" чи "гауссову"?
У своїй книзі я в основному використовую "гауссовий розподіл", але хтось просто запропонував перейти на "нормальний розподіл". Якийсь консенсус щодо того, який термін використовувати для початківців? Звичайно, два терміни є синонімами , тому це не питання щодо сутності, а суто питання про те, який термін вживається частіше. І звичайно я …


5
Чому в середньому кожен зразок завантажувача містить приблизно дві третини спостережень?
Я зіткнувся з твердженням, що кожен зразок завантажувального завантажувача (або мішковане дерево) буде містити в середньому приблизно спостережень.2/32/32/3 Я розумію, що шанс не бути відібраним у жодному з креслень із вибірок із заміною є , що спрацьовує приблизно до шансу не бути вибраним.nnnnnn(1−1/n)n(1−1/n)n(1- 1/n)^n1/31/31/3 Що таке математичне пояснення, чому ця …
42 bootstrap 

3
Як візуалізувати встановлену модель множинної регресії?
На даний момент я пишу статтю з кількома множинними регресійними аналізами. Хоча візуалізація одновимірної лінійної регресії легко за допомогою розсіяних ділянок, мені було цікаво, чи існує якийсь хороший спосіб візуалізації декількох лінійних регресій? В даний час я просто будую схеми розкидання, такі як залежна змінна проти 1-ї незалежної змінної, потім …

4
Чим відрізняється GARCH від ARMA?
Я збентежений. Я не розумію різницю ARMA та GARCH-процесу .. для мене є однакові ні? Ось процес (G) ARCH (p, q) σ2t=α0+∑i=1qαir2t−iARCH+∑i=1pβiσ2t−iGARCHσt2=α0+∑i=1qαirt−i2⏟ARCH+∑i=1pβiσt−i2⏟GARCH\sigma_t^2 = \underbrace{ \underbrace{ \alpha_0 + \sum_{i=1}^q \alpha_ir_{t-i}^2} _{ARCH} + \sum_{i=1}^p\beta_i\sigma_{t-i}^2} _{GARCH} А ось ARMA ( ):p,qp,qp, q Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i.Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i. X_t = c + \varepsilon_t + \sum_{i=1}^p \varphi_i X_{t-i} + …
42 arima  garch  finance 

4
Прийом очікувань серії Тейлора (особливо решти)
Моє запитання стосується спроби обгрунтувати широко використовуваний метод, а саме прийняття очікуваного значення серії Тейлора. Припустимо, у нас є випадкова величина з додатним середнім та дисперсією . Крім того, у нас є функція, скажімо, .XXXμμ\muσ2σ2\sigma^2log(x)log⁡(x)\log(x) Роблячи розширення Тейлора навколо середнього значення, отримуємо де, як завжди, - st.logXlog⁡X\log XlogX=logμ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξ3X,log⁡X=log⁡μ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξX3, \log X …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.