Статистика та великі дані

5

Центральна гранична теорема для медіанів вибірки

Якщо я обчислюю медіану достатньо великої кількості спостережень, проведених з одного і того ж розподілу, чи вказує центральна гранична теорема про те, що розподіл медіанів буде наближатись до нормального розподілу? Я розумію, що це правда за допомогою великої кількості зразків, але чи так це і з медіанами? Якщо ні, то …

54 normal-distribution mathematical-statistics sampling median central-limit-theorem

8

Чи вибірка є актуальною в часи "великих даних"?

Або тим більше "буде"? Великі дані роблять статистику та відповідні знання ще важливішими, але, здається, недооцінюють теорію вибірки. Я бачив цей галас навколо "Великих даних" і не можу не задатися питанням, що "чому" я б хотів проаналізувати все ? Хіба не було причини, щоб "Теорія вибірки" була розроблена / впроваджена …

54 sampling data-mining large-data

10

Як визначитися з правильною кількістю кластерів?

Ми знаходимо центри кластерів і призначаємо точки k різним бункерам кластерів в кластеризації k-означає, що є дуже відомим алгоритмом і знаходиться майже в кожному пакеті машинного навчання в мережі. Але відсутнім і найважливішим на мою думку є вибір правильного k. Яке найкраще значення для цього? І що мається на увазі …

54 clustering k-means

9

Довідник для лінійної алгебри, застосований до статистики?

Я трохи працював у R, і зіткнувся з такими речами, як PCA, SVD, QR-розкладу та багато таких лінійних результатів алгебри (при перевірці оцінки зважених регресій та подібних), тому я хотів знати, чи є у когось рекомендація щодо хорошого всебічна книга лінійної алгебри, яка не надто теоретична, але є математично суворою …

54 references matrix linear-algebra weighted-regression

2

Чи потрібен нам глобальний тест перед тимчасовими тестами?

Я часто чую, що післяпрограмні тести після ANOVA можна використовувати лише в тому випадку, якщо сама ANOVA була значною. Однак після спеціальні тести коригують значення щоб утримувати глобальний рівень помилок типу I на рівні 5%, чи не так?ppp Тож для чого нам спочатку потрібен глобальний тест? Якщо нам не потрібен …

54 anova statistical-significance post-hoc

3

Стандартне відхилення стандартного відхилення

Що таке оцінка стандартного відхилення стандартного відхилення, якщо можна припустити нормальність даних?

54 estimation standard-deviation normality-assumption

5

Чи коригування р-значень у множинній регресії для кількох порівнянь є гарною ідеєю?

Припустимо, ви дослідник соціологічних наук / економетрист, який намагається знайти відповідних прогнозів попиту на послугу. У вас є 2 змінних, що залежать від результату / описують попит (використовуючи послугу "Так / ні" та кількість випадків). У вас є 10 змінних прогнозів / незалежних, які теоретично можуть пояснити попит (наприклад, вік, …

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

7

Кращий алгоритм PCA для величезної кількості функцій (> 10 К)?

Раніше я запитував це в StackOverflow, але, здається, це може бути більш доречним, враховуючи, що він не отримав відповідей на SO. Це свого роду на перетині між статистикою та програмуванням. Мені потрібно написати якийсь код, щоб зробити PCA (аналіз основних компонентів). Я переглянув відомі алгоритми і реалізував цей , який, …

54 pca algorithms model-evaluation high-dimensional

6

Вступ до статистики для математиків

Що є хорошим вступом до статистики для математика, який уже добре розбирається у ймовірності? У мене є дві різні мотивації до запитання, які можуть призвести до різних пропозицій: Я хотів би краще зрозуміти мотивацію статистики, що стоїть за багатьма проблемами, розглянутими ймовірнісниками. Мені хотілося б знати, як краще інтерпретувати результати …

54 references

19

Відео з математичної статистики

Питання, що раніше шукало рекомендації до підручників з математичної статистики Хтось знає про якісь хороші онлайн- лекції з математичної статистики ? Найближчі я знайшов: Машинне навчання Економетрика ОНОВЛЕННЯ: Ряд пропозицій, згаданих нижче, - це хороша статистика - відео типу 101. Однак мені спеціально цікаво, чи є відеоролики, які забезпечують суворий …

54 mathematical-statistics references

3

Багатоваріантна лінійна регресія проти нейронної мережі?

Здається, що можна отримати подібні результати до нейронної мережі з багатоваріантною лінійною регресією в деяких випадках, а багатоваріантна лінійна регресія - дуже швидка і проста. За яких обставин нейронні мережі можуть дати кращі результати, ніж багатоваріантна лінійна регресія?

54 regression multiple-regression neural-networks

5

Що таке інтуїтивне пояснення того, як PCA перетворюється з геометричної задачі (з відстанями) в задачу лінійної алгебри (з власними векторами)?

Я багато читав про PCA, включаючи різні підручники та запитання (такі як цей , цей , цей і цей ). Геометрична проблема, яку PCA намагається оптимізувати, для мене зрозуміла: PCA намагається знайти перший головний компонент, зводячи до мінімуму помилку реконструкції (проекції), що одночасно максимізує дисперсію прогнозованих даних. Коли я вперше …

54 pca optimization linear-algebra intuition

10

Перевірка витримки проти перехресної перевірки

Мені здається, що перевірка на витримку марна. Тобто, розділяти початковий набір даних на дві частини (навчання та тестування) та використовувати бал тестування як міру узагальнення, є дещо марним. Перехресна перевірка K-кратна, здається, дає кращі наближення до узагальнення (оскільки вона проводить тренування та тестує кожну точку). Отже, чому б ми використовували …

54 machine-learning cross-validation validation

4

Коваріація та незалежність?

Я читаю з мого підручника, що не гарантує, що X і Y незалежні. Але якщо вони незалежні, їх коваріація повинна бути 0. Я ще не міг придумати жодного належного прикладу; хтось міг би її надати?cov(X,Y)=0cov(X,Y)=0\text{cov}(X,Y)=0

54 independence covariance

5

Про важливість припущення iid у статистичному навчанні

При статистичному навчанні неявно або явно завжди передбачається, що навчальний набір складається з кортежів введення / відповіді , які незалежно виводяться з того ж спільного розподілу зD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) і відносини, які ми намагаємося зафіксувати за допомогою …

54 machine-learning cross-validation non-independent iid