Статистика та великі дані

2

Навчальне навчання, непідконтрольне навчання та посилення навчання: основи робочого процесу

Контрольоване навчання 1) Людина будує класифікатор на основі вхідних та вихідних даних 2) Цей класифікатор навчається з навчальним набором даних 3) Цей класифікатор тестується за допомогою тестового набору даних 4) Розгортання, якщо вихід задовільний Для використання, коли: "Я знаю, як класифікувати ці дані, мені просто потрібно (класифікатор) для їх сортування". …

30 machine-learning unsupervised-learning supervised-learning reinforcement-learning

4

Чи означає = режим означає симетричний розподіл?

Я знаю, що це запитання було задано із випадком середня = медіана, але я не знайшов нічого, пов’язаного зі значенням = режим. Якщо режим дорівнює середньому, чи можу я завжди зробити висновок, що це симетричний розподіл? Чи змушений я знати також медіану для цієї манери?

30 distributions mean skewness mode symmetry

13

Яка інтуїція лежить за формулою умовної ймовірності?

Формула умовної ймовірності виникнення огляду на те, що стався , є:AA\text{A}BB\text{B}P(A | B)=P(A∩B)P(B).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. Мій підручник пояснює інтуїцію, що стоїть за цим, з точки зору діаграми Венна. Зважаючи на те, що стався, єдиний спосіб виникнення - це подія потрапити в перетин та .BB\text{B}AA\text{A}AA\text{A}BB\text{B} У цьому випадку, …

30 probability conditional-probability intuition

2

Чим відрізняється цензура від усічення?

У книзі Статистичні моделі та методи життєвих даних написано: Цензура: коли спостереження є неповним через якусь випадкову причину. Укорочення: Коли неповний характер спостереження пов'язаний із систематичним процесом відбору, властивим дизайну дослідження. Що розуміється під "систематичним процесом відбору, властивим дизайну дослідження" у визначенні усічення? Чим відрізняється цензура від усічення?

30 self-study censoring truncation

8

Чи є платоподібний розподіл?

Я шукаю розподіл, де щільність ймовірності швидко зменшується через деяку точку від середньої, або, власними словами, «платоподібний розподіл». Щось між Гауссом та мундиром.

30 distributions normal-distribution uniform

2

Чи існує надійний непараметричний інтервал довіри для середнього косого розподілу?

Дуже перекошені розподіли, такі як log-normal, не призводять до точних довірчих інтервалів завантаження. Ось приклад, який показує, що область лівого і правого хвостів далека від ідеальних 0,025, незалежно від того, який метод завантажувального пристрою ви намагаєтеся виконати в R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) …

30 confidence-interval nonparametric mean bootstrap median

3

Що є першопричиною проблеми дисбалансу класів?

Останнім часом я багато думав про "проблему дисбалансу класів" у машино-статистичному навчанні, і все глибше втягуюсь у відчуття, що просто не розумію, що відбувається. Спершу дозвольте мені визначити (або спробувати) визначити свої умови: Проблема дисбалансу класів у машинному / статистичному навчанні полягає в тому, що деякі алгоритми бінарної класифікації (*) …

30 classification predictive-models unbalanced-classes scoring-rules

3

Аналіз латентного класу проти кластерного аналізу - відмінності у умовиводах?

Які відмінності у висновках можна зробити за допомогою латентного аналізу класів (LCA) та кластерного аналізу? Чи правильно, що LCA бере на себе основну приховану змінну, що породжує класи, тоді як кластерний аналіз - це емпіричний опис корельованих атрибутів алгоритму кластеризації? Схоже, що в соціальних науках LCA набув популярності і вважається …

30 clustering latent-variable latent-class

2

Скільки наклейок мені потрібно, щоб виконати свій альбом FIFA Panini?

Я граю в Інтернет-альбомі наклейок FIFA Panini , який є Інтернет-адаптацією класичних альбомів Panini, які зазвичай публікуються для футбольного кубка світу, чемпіонату Європи та, можливо, інших турнірів. В альбомі розміщено 424 різних наклейки. Мета гри - зібрати всіх 424. Наліпки поставляються в 5 пачок, які можна отримати за кодами, знайденими …

30 probability coupon-collector-problem

2

Чому ми повинні використовувати t помилки замість звичайних помилок?

У цій публікації в блозі Ендрю Гелмана є такий пасаж: Моделі Байєса 50 років тому здаються безнадійно простими (за винятком, звичайно, простих проблем), і я думаю, що байєсівські моделі сьогодні будуть здаватися безнадійно простими, 50 років тому. (Просто для простого прикладу: ми, мабуть, повинні регулярно використовувати t, а не звичайні …

30 distributions bayesian normal-distribution model robust

2

Що таке квазібіноміальний розподіл (в контексті ГЛМ)?

Я сподіваюсь, що хтось може надати інтуїтивний огляд того, що таке квазібіномічний розподіл і що він робить. Мене особливо цікавлять такі моменти: Наскільки квазібіноміальне відрізняється від біноміального розподілу. Коли змінна відповіді є пропорцією (приклади значень включають 0,23, 0,11, 0,78, 0,98), квазібіноміальна модель буде працювати в R, але біноміальна модель не …

30 r generalized-linear-model binomial overdispersion quasi-likelihood

6

Якщо "кореляція не передбачає причинно-наслідкового зв'язку", то, якщо я знаходжу статистично значущу кореляцію, як я можу довести причинність?

Я розумію, що кореляція не є причиною . Припустимо, ми отримуємо високу кореляцію між двома змінними. Як ви можете перевірити, чи є ця кореляція насправді причиною? Або, за яких саме умов, ми можемо використовувати експериментальні дані для виведення причинно-наслідкового зв'язку між двома або більше змінними?

30 correlation mathematical-statistics causality

2

Конволюційні нейронні мережі: Чи не є центральні нейрони надмірно представлені у висновку?

[Це питання також було задано при переповненні стека] Питання коротше Я вивчаю конволюційні нейронні мережі, і вважаю, що ці мережі не розглядають кожен вхідний нейрон (піксель / параметр) рівномірно. Уявіть, у нас є глибока мережа (багато шарів), яка застосовує згортання на деяке вхідне зображення. Нейрони в "середині" зображення мають багато …

30 machine-learning neural-networks convolution

7

Висновок проти оцінки?

Які відмінності між "висновком" та "оцінкою" в контексті машинного навчання ? Як новачок, я відчуваю, що ми підводимо випадкові величини та оцінюємо параметри моделі. Чи правильно це моє розуміння? Якщо ні, то в чому полягають відмінності, і коли я повинен використовувати який? Також, який із них є синонімом «вчитися»?

30 machine-learning inference terminology

1

Коли функція біноміального розподілу вище / нижче її граничної функції розподілу Пуассона?

Нехай позначає функцію розподілу біномів (DF) з параметрами і оціненими за : \ початок {рівняння} B (n, p, r) = \ sum_ {i = 0} ^ r \ binom {n} {i} p ^ i (1-p) ^ {ni}, \ end {рівняння } і нехай F (\ nu, r) позначає DF Пуассона …

30 binomial poisson-distribution convergence probability-inequalities