Статистика та великі дані

8

Які практичні заперечення щодо використання байєсівських статистичних методів у будь-якому контексті? Ні, я не маю на увазі звичайний догляд за вибором попереднього. Я буду радий, якщо на це не надійде відповідей.

44 bayesian

6

Як виконати тест за допомогою R, щоб побачити, чи слід за даними нормального розподілу

У мене є набір даних із такою структурою: a word | number of occurrence of a word in a document | a document id Як я можу виконати тест на нормальний розподіл у R? Можливо, це легке запитання, але я R новачок.

44 r distributions normality-assumption

8

Суворе визначення чужого?

Люди часто говорять про те, що мають справу зі старшими в статистиці. Що мене турбує з цього приводу, це те, що, наскільки я можу сказати, визначення спокійного обличчя є абсолютно суб'єктивним. Наприклад, якщо справжній розподіл якоїсь випадкової змінної є дуже важким або бімодальним, будь-яка стандартна візуалізація або зведена статистика для …

44 outliers definition

4

Статистичні моделі шпаргалки

Мені було цікаво, чи існує статистична модель "шпаргалки", яка містить будь-яку або більше інформації: коли використовувати модель коли не використовувати модель необхідні та необов'язкові входи очікувані результати чи була протестована модель у різних сферах (політика, біо, інженерія, виробництво тощо)? це прийнято на практиці чи дослідженнях? очікувана варіація / точність / …

44 references modeling

5

Чому багаторазове порівняння є проблемою?

Мені важко зрозуміти, що насправді є проблемою із численними порівняннями . З простою аналогією кажуть, що людина, яка прийме багато рішень, зробить багато помилок. Так застосовуються дуже консервативні заходи обережності, як корекція Бонферроні, щоб зробити ймовірність того, що ця людина зробить будь-яку помилку, якнайменше, наскільки це можливо. Але чому нас …

44 hypothesis-testing multiple-comparisons

6

Чому мультиколінеарність не перевіряється в сучасній статистиці / машинному навчанні

У традиційній статистиці, будуючи модель, ми перевіряємо наявність мультиколінеарності за допомогою таких методів, як оцінки коефіцієнта дисперсії дисперсії (VIF), але в машинному навчанні ми замість цього використовуємо регуляризацію для вибору особливостей і, здається, не перевіряємо, чи співвідносяться функції зовсім. Чому ми це робимо?

44 regression machine-learning multicollinearity regularization vif

4

Чи є тест, щоб визначити, чи є значною мірою перевиконання GLM?

Я створюю Poisson GLMs у Р. Щоб перевірити наявність наддисперсії, я розглядаю співвідношення залишкового відхилення до ступеня свободи, що надається summary(model.name). Чи є значення граничної межі або тест, щоб цей коефіцієнт вважався "значущим"? Я знаю, що якщо це> 1, то дані перерозподіляються, але якщо у мене відношення відносно близькі до …

44 statistical-significance overdispersion

2

Чи потрібні середня нормалізація та масштабування функцій для кластеризації k-засобів?

Які найкращі (рекомендовані) етапи попередньої обробки перед виконанням k-засобів?

44 clustering normalization k-means

6

Як уникнути перекриття міток у R-графіці? [зачинено]

Я намагаюся позначити досить простий розсіювач у Р. Це я використовую: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Результат посередній, як ви бачите (натисніть, щоб збільшити): Я намагався компенсувати це за допомогою textxyфункції, але це не краще . Збільшення зображення не працює для щільних кластерів. Чи є якась функція чи …

44 r data-visualization scatterplot

4

Яка функція активації для вихідного шару?

Хоча вибір функцій активації для прихованого шару досить чіткий (переважно сигмоподібний або тан), мені цікаво, як визначитися з функцією активації вихідного шару. Найпоширенішими варіантами є лінійні функції, сигмоїдні функції та функції softmax. Однак коли я повинен використовувати який?

44 neural-networks

3

Тестування рівності коефіцієнтів від двох різних регресій

Це здається основним питанням, але я просто зрозумів, що насправді не знаю, як перевірити рівність коефіцієнтів від двох різних регресій. Чи може хтось пролити на це світло? Більш формально, припустимо, я застосував наступні дві регресії: і де посилається на проектну матрицю регресії , а на вектор коефіцієнтів регресії . Зауважте, …

44 hypothesis-testing inference

5

Чи важливо масштабувати дані перед кластеризацією?

Я знайшов цей підручник , який говорить про те, що вам слід запустити функцію масштабування на функції перед кластеризацією (я вважаю, що вона перетворює дані в z-бали). Мені цікаво, чи потрібно це? Я запитую в основному тому, що є приємний момент ліктя, коли я не масштабую дані, але він зникає, …

44 clustering k-means

4

Стандартна помилка для середнього зразка біноміальних випадкових величин

Припустимо, я провожу експеримент, який може мати 2 результати, і я припускаю, що основним "справжнім" розподілом двох результатів є біноміальний розподіл з параметрами нnn і ppp : B i n o m i a l (n,p)Binomial(n,p){\rm Binomial}(n, p) . Я можу обчислити стандартну помилку, SЕХ= σХн√SEX=σXnSE_X = \frac{\sigma_X}{\sqrt{n}} , від …

44 binomial standard-error

5

Яка різниця між алгоритмами вперед-назад та Вітербі?

Хочу знати, чим відрізняються алгоритм вперед-назад і алгоритм Вітербі для висновку в прихованих марківських моделях (HMM).

44 algorithms hidden-markov-model viterbi-algorithm forward-backward

4

Чому так зміни природного журналу - це відсоткові зміни? Що з журналів, що робить це таким?

Чи може хтось пояснити, яким чином властивості журналів роблять це, щоб ви могли робити лінійні регресії журналу, де коефіцієнти інтерпретуються як відсоткові зміни?

43 regression logarithm mathematical-statistics