Статистика та великі дані

5

Стратегія боротьби з логістичною регресією рідкісних подій

Я хотів би вивчити рідкісні події у обмеженій популяції. Оскільки я не впевнений, яка стратегія найкраще підходить, я вдячний порадам та посиланням, пов’язаним із цим питанням, хоча, наскільки я усвідомлюю, вона в основному висвітлена. Я просто не знаю, з чого почати. Моя проблема - це політологія, і я маю обмежену …

27 logistic rare-events

7

У Наївних Бейсах, чому турбуватися згладжуванням Лапласа, коли в тестовому наборі є невідомі слова?

Я читав сьогодні класифікацію Naive Bayes. Я читав під заголовком Оцінка параметрів з додаванням 1 згладжування : Нехай посилається на клас (наприклад, позитивний чи негативний), а позначає маркер або слово.cccwww Максимальний показник ймовірності для -P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words …

27 machine-learning classification text-mining naive-bayes laplace-smoothing

4

Відмінність ядер у SVM?

Може хтось, будь ласка, скажіть мені різницю між ядрами в SVM: Лінійний Поліном Гаусс (RBF) Сигмоїдний Тому що, як ми знаємо, ядро використовується для відображення нашого вхідного простору у простір з великими розмірами. І в цьому просторі властивостей ми знаходимо межу, що розділяється лінійно. Коли вони використовуються (за яких умов) …

27 machine-learning svm pattern-recognition kernel-trick

4

Виявлення залишків за допомогою стандартних відхилень

Після мого запитання тут мені цікаво, чи існують чіткі погляди на або проти використання стандартного відхилення для виявлення людей, що втрачають похилого віку (наприклад, будь-яка точка даних, що перевищує 2 стандартних відхилення, - це більше). Я знаю, що це залежить від контексту дослідження, наприклад, точка даних, що становить 48 кг, …

27 outliers

1

Перетворення матриці подібності в матрицю відстані (евклідова)

У алгоритмі випадкових лісів Брейман (автор) будує матрицю подібності таким чином: Надсилайте всі приклади навчання вниз по кожному дереву в лісі Якщо два приклади приземляються в один приріст листя, відповідний елемент у матриці подібності на 1 Нормалізуйте матрицю з кількістю дерев Він каже: Близькість між випадками n і k утворює …

27 random-forest distance similarities euclidean

2

Оцінки варіацій у k-кратній перехресній валідації

Перехресна перевірка K-кратна може бути використана для оцінки можливостей узагальнення даного класифікатора. Чи можу я (або я повинен) також обчислити об'єднану дисперсію з усіх циклів перевірки, щоб отримати кращу оцінку її дисперсії? Якщо ні, то чому? Я знайшов документи, які використовують об'єднане стандартне відхилення через крос перехресної перевірки . Я …

27 machine-learning cross-validation

3

Розподіл скалярних добутків двох випадкових одиничних векторів у розмірах

Якщо і - два незалежні випадкові одиничні вектори в (рівномірно розподілені на одиничну сферу), який розподіл їх скалярного добутку (крапкового продукту) ?xx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y Я думаю, що при зростанні розподіл швидко (?) Стає нормальним з нульовою середньою величиною і зменшенням дисперсії у більших розмірах але чи є явна …

27 mathematical-statistics linear-algebra beta-distribution

3

Чи завжди відбілювання добре?

Поширений крок попередньої обробки алгоритмів машинного навчання - відбілювання даних. Здається, що завжди добре робити відбілювання, оскільки це де-корелює дані, спрощуючи моделювання. Коли відбілювання не рекомендується? Примітка: я маю на увазі декореляцію даних.

27 data-transformation

1

Яка різниця між узагальненими рівняннями оцінювання та ГЛММ?

Я запускаю GEE на 3-х рівневих незбалансованих даних, використовуючи посилання logit. Чим це відрізняється (з точки зору висновків, які я можу зробити і значення коефіцієнтів) від GLM зі змішаними ефектами (GLMM) та logit-посиланням? Більш детально: Спостереження - це поодинокі випробування на Бернуллі. Вони групуються, згруповані в класи та школи. Використання …

27 logistic mixed-model generalized-linear-model interpretation gee

2

Створіть список імен змінних у циклі for, а потім призначте їм значення

Цікаво, чи існує простий спосіб скласти список змінних, використовуючи цикл for, і надати його значення. for(i in 1:3) { noquote(paste("a",i,sep=""))=i } У наведеній вище коді, я намагаюся створити a1, a2, a3, що задають значення 1, 2, 3. Однак, R видає повідомлення про помилку. Спасибі за вашу допомогу.

27 r

3

Що слід перевірити на предмет нормальності: вихідні дані чи залишки?

Я дізнався, що я повинен перевірити нормальність не на вихідних даних, а на їх залишки. Чи слід обчислювати залишки, а потім робити W тест Шапіро – Вілка? Чи обчислюються залишки як: ?Хi- маю на увазіХi-маю на увазіX_i - \text{mean} Будь ласка, дивіться це попереднє питання щодо моїх даних та дизайну.

27 normality-assumption residuals assumptions

5

Чи є 99 перцентилів чи 100 перцентилів? А чи це групи чисел, або дільники, або вказівники на окремі числа?

Чи є 99 перцентилів чи 100 перцентилів? І чи це групи чисел, або лінії поділки, або вказівники на окремі числа? Я думаю, те саме питання стосуватиметься квартілів чи будь-яких квантилів. Я прочитав, що індекс числа в певному перцентилі (p), заданому n елементами, є i = (p / 100) * n …

27 quantiles

2

Яка різниця між дисперсією та середньою помилкою у квадраті?

Я здивований, що цього раніше не задавали, але я не можу знайти питання на stats.stackexchange. Це формула для обчислення дисперсії нормально розподіленої вибірки: ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} Це формула для обчислення середньої квадратичної помилки спостережень у простій лінійній регресії: ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i - \hat{y}_i) ^2}{n-2} Яка різниця між цими двома формулами? Єдина …

27 variance error

3

Як судити, чи керована модель машинного навчання є придатною чи ні?

Хто-небудь може сказати мені, як судити, чи керована модель машинного навчання є придатною чи ні? Якщо у мене немає зовнішнього набору даних перевірки, я хочу знати, чи можу я використовувати ROC в 10-кратну перехресну валідацію для пояснення перевиконання. Якщо у мене є зовнішній набір даних перевірки, що мені робити далі?

27 machine-learning

4

Яка різниця між стаціонарним тестом та одиничним кореневим тестом?

Яка різниця між тестом Квятковського-Філіпса – Шмідта-Шіна (KPSS) та розширеним тестом Діккі-Фуллера (АПД)? Чи тестують те саме? Або нам потрібно використовувати їх у різних ситуаціях?

27 time-series stationarity unit-root augmented-dickey-fuller kpss-test