Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

5
Центральна гранична теорема для медіанів вибірки
Якщо я обчислюю медіану достатньо великої кількості спостережень, проведених з одного і того ж розподілу, чи вказує центральна гранична теорема про те, що розподіл медіанів буде наближатись до нормального розподілу? Я розумію, що це правда за допомогою великої кількості зразків, але чи так це і з медіанами? Якщо ні, то …

8
Чи вибірка є актуальною в часи "великих даних"?
Або тим більше "буде"? Великі дані роблять статистику та відповідні знання ще важливішими, але, здається, недооцінюють теорію вибірки. Я бачив цей галас навколо "Великих даних" і не можу не задатися питанням, що "чому" я б хотів проаналізувати все ? Хіба не було причини, щоб "Теорія вибірки" була розроблена / впроваджена …

10
Як визначитися з правильною кількістю кластерів?
Ми знаходимо центри кластерів і призначаємо точки k різним бункерам кластерів в кластеризації k-означає, що є дуже відомим алгоритмом і знаходиться майже в кожному пакеті машинного навчання в мережі. Але відсутнім і найважливішим на мою думку є вибір правильного k. Яке найкраще значення для цього? І що мається на увазі …

9
Довідник для лінійної алгебри, застосований до статистики?
Я трохи працював у R, і зіткнувся з такими речами, як PCA, SVD, QR-розкладу та багато таких лінійних результатів алгебри (при перевірці оцінки зважених регресій та подібних), тому я хотів знати, чи є у когось рекомендація щодо хорошого всебічна книга лінійної алгебри, яка не надто теоретична, але є математично суворою …

2
Чи потрібен нам глобальний тест перед тимчасовими тестами?
Я часто чую, що післяпрограмні тести після ANOVA можна використовувати лише в тому випадку, якщо сама ANOVA була значною. Однак після спеціальні тести коригують значення щоб утримувати глобальний рівень помилок типу I на рівні 5%, чи не так?ppp Тож для чого нам спочатку потрібен глобальний тест? Якщо нам не потрібен …


5
Чи коригування р-значень у множинній регресії для кількох порівнянь є гарною ідеєю?
Припустимо, ви дослідник соціологічних наук / економетрист, який намагається знайти відповідних прогнозів попиту на послугу. У вас є 2 змінних, що залежать від результату / описують попит (використовуючи послугу "Так / ні" та кількість випадків). У вас є 10 змінних прогнозів / незалежних, які теоретично можуть пояснити попит (наприклад, вік, …

7
Кращий алгоритм PCA для величезної кількості функцій (> 10 К)?
Раніше я запитував це в StackOverflow, але, здається, це може бути більш доречним, враховуючи, що він не отримав відповідей на SO. Це свого роду на перетині між статистикою та програмуванням. Мені потрібно написати якийсь код, щоб зробити PCA (аналіз основних компонентів). Я переглянув відомі алгоритми і реалізував цей , який, …

6
Вступ до статистики для математиків
Що є хорошим вступом до статистики для математика, який уже добре розбирається у ймовірності? У мене є дві різні мотивації до запитання, які можуть призвести до різних пропозицій: Я хотів би краще зрозуміти мотивацію статистики, що стоїть за багатьма проблемами, розглянутими ймовірнісниками. Мені хотілося б знати, як краще інтерпретувати результати …
54 references 

19
Відео з математичної статистики
Питання, що раніше шукало рекомендації до підручників з математичної статистики Хтось знає про якісь хороші онлайн- лекції з математичної статистики ? Найближчі я знайшов: Машинне навчання Економетрика ОНОВЛЕННЯ: Ряд пропозицій, згаданих нижче, - це хороша статистика - відео типу 101. Однак мені спеціально цікаво, чи є відеоролики, які забезпечують суворий …

3
Багатоваріантна лінійна регресія проти нейронної мережі?
Здається, що можна отримати подібні результати до нейронної мережі з багатоваріантною лінійною регресією в деяких випадках, а багатоваріантна лінійна регресія - дуже швидка і проста. За яких обставин нейронні мережі можуть дати кращі результати, ніж багатоваріантна лінійна регресія?

5
Що таке інтуїтивне пояснення того, як PCA перетворюється з геометричної задачі (з відстанями) в задачу лінійної алгебри (з власними векторами)?
Я багато читав про PCA, включаючи різні підручники та запитання (такі як цей , цей , цей і цей ). Геометрична проблема, яку PCA намагається оптимізувати, для мене зрозуміла: PCA намагається знайти перший головний компонент, зводячи до мінімуму помилку реконструкції (проекції), що одночасно максимізує дисперсію прогнозованих даних. Коли я вперше …

10
Перевірка витримки проти перехресної перевірки
Мені здається, що перевірка на витримку марна. Тобто, розділяти початковий набір даних на дві частини (навчання та тестування) та використовувати бал тестування як міру узагальнення, є дещо марним. Перехресна перевірка K-кратна, здається, дає кращі наближення до узагальнення (оскільки вона проводить тренування та тестує кожну точку). Отже, чому б ми використовували …

4
Коваріація та незалежність?
Я читаю з мого підручника, що не гарантує, що X і Y незалежні. Але якщо вони незалежні, їх коваріація повинна бути 0. Я ще не міг придумати жодного належного прикладу; хтось міг би її надати?cov(X,Y)=0cov(X,Y)=0\text{cov}(X,Y)=0

5
Про важливість припущення iid у статистичному навчанні
При статистичному навчанні неявно або явно завжди передбачається, що навчальний набір складається з кортежів введення / відповіді , які незалежно виводяться з того ж спільного розподілу зD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) і відносини, які ми намагаємося зафіксувати за допомогою …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.