Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

2
Чи існує зразковий варіант однобічної нерівності Чебишева?
Мене цікавить наступна однобічна версія Кантеллі про нерівність Чебишева : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. В основному, якщо ви знаєте середню сукупність та дисперсію, ви можете обчислити верхню межу щодо ймовірності спостереження певного значення. (Це було принаймні моє розуміння.) Однак я …

1
Чому R повертає NA як коефіцієнт lm ()?
Я вписую lm()модель до набору даних, що включає показники за фінансовий квартал (Q1, Q2, Q3, що робить Q4 за замовчуванням). Використовуючи lm(Y~., data = data) Я отримую NAяк коефіцієнт для Q3, і попередження про те, що одна змінна була виключена через особливості. Чи потрібно додати стовпчик Q4?
32 r  regression 

6
Як розпочати роботу з нейронними мережами
Я абсолютно новачок у нейронних мережах, але дуже зацікавлений у їх розумінні. Однак починати зовсім непросто. Хто-небудь може порекомендувати гарну книгу чи будь-який інший ресурс? Чи потрібно читати? Я вдячний за будь-яку пораду.

3
Як обчислити об'єднану дисперсію двох або більше груп із заданими відомими груповими дисперсіями, засобами та розмірами вибірки?
Скажімо, є елементів, розділених на дві групи (m+nm+nm+nmmm іnnn ). Дисперсія першої групиσ2mσm2\sigma_m^2 а дисперсія другої групи -σ2nσn2\sigma^2_n . Вважається, що самі елементи невідомі, але я знаю засобиμmμm\mu_m іμnμn\mu_n . Чи є спосіб обчислити комбіновану дисперсію σ2(m+n)σ(m+n)2\sigma^2_{(m+n)} ? Дисперсія не повинна бути об'єктивною, тому знаменник (m+n)(m+n)(m+n) а не (m+n−1)(m+n−1)(m+n-1) .
32 variance  pooling 

1
Варіантність суми передбачуваних значень із моделі змішаного ефекту на часових серіях
У мене є змішана модель ефекту (насправді узагальнена добавна змішана модель), яка дає мені прогнози на час. Для протидії автокореляції я використовую модель corCAR1, враховуючи той факт, що у мене відсутні дані. Дані, як передбачається, дають мені загальне навантаження, тому мені потрібно підсумовувати весь інтервал прогнозування. Але я також повинен …

2
Як знайти інтервали довіри для оцінок?
Еван Міллер " Як не сортувати за середньою оцінкою " пропонує використовувати нижню межу довірчого інтервалу, щоб отримати розумний сукупний "бал" за рейтингові позиції. Однак це працює з моделлю Бернуллі: рейтинги є великими пальцями вгору або великими пальцями вниз. Який розумний інтервал довіри використовувати для рейтингової моделі, яка призначає дискретний …

3
Як намалювати акуратні багатокутники навколо областей розсіювання в ggplot2 [закрито]
Як додати акуратний багатокутник навколо групи точок на розсипці? Я використовую ggplot2, але розчарований результатами geom_polygon. Набір даних там , як текстовий файл з обмеженими вкладками. На графіку нижче показано два заходи щодо ставлення до здоров'я та безробіття у низці країн: Я хотів би перейти geom_density2dдо менш вигадливих, але емпірично …

7
Чи існують алгоритми для обчислення параметрів лінійної або логістичної регресії “працює”?
Документ "Точне обчислення дисперсії бігу" на веб- сайті http://www.johndcook.com/standard_deviation.html показує, як обчислити середнє, дисперсійне та стандартне відхилення. Чи існують алгоритми, де параметри лінійної або логістичної регресійної моделі можуть аналогічно "динамічно" оновлюватися, коли надається кожен новий запис навчання?

4
ANOVA на біноміальних даних
Я аналізую експериментальний набір даних. Дані складаються з парного вектора типу лікування та біноміального результату: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... У стовпці результатів 1 позначає успіх, а 0 позначає невдачу. Я хотів би з’ясувати, чи суттєво варіює лікування результат. Існує 4 різних …



5
Як змінити дані між широкими та довгими форматами в R? [зачинено]
Ви можете мати дані у широкому або довгому форматі. Це досить важлива річ, оскільки корисні методи різні, залежно від формату. Я знаю, що вам потрібно працювати melt()і зcast() з пакетом переформатування, але, здається, деякі речі я не розумію. Чи може хтось дати мені короткий огляд, як ви це робите?

12
Яку найважчу статистичну концепцію зрозуміти?
Це питання схоже на те, що тут , але досить інше, я думаю, що варто його задати. Я думав, що буду стартовим, що я вважаю одним із найскладніших для розуміння. Шахта - це різниця між ймовірністю та частотою . Один знаходиться на рівні "знання про реальність" (ймовірність), а інший - …
32 teaching 

2
Розподіли, відмінні від звичайних, де середнє значення та дисперсія не залежать
Мені було цікаво, чи існують якісь розподіли, крім нормальних, де середнє значення та дисперсія не залежать один від одного (або іншими словами, коли дисперсія не є функцією середнього).

6
Статистична класифікація тексту
Я програміст, що не має статистичної інформації, і зараз я розглядаю різні методи класифікації для великої кількості різних документів, які я хочу класифікувати за заздалегідь визначеними категоріями. Я читав про kNN, SVM та NN. Однак у мене є проблеми з початком роботи. Які ресурси ви рекомендуєте? Я дуже добре знаю …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.