Статистика та великі дані

5

Як я можу вручну генерувати випадкове число із заданого розподілу, як, наприклад, 10 реалізацій від стандартного нормального розподілу?

30 normal-distribution simulation monte-carlo random-generation randomness

2

lme та lmer порівняння

Мені було цікаво, чи може хтось просвітити мене про нинішні відмінності між цими двома функціями. Я знайшов наступне питання: Як вибрати бібліотеку nlme або lme4 R для моделей зі змішаними ефектами? , але це датується пару років тому. Це життя в колах програмного забезпечення. Мої конкретні запитання: Чи є (досі) …

30 r mixed-model lme4-nlme

1

Що робить команда anova () з об'єктом моделі lmer?

Сподіваюсь, це питання, на який хтось тут може відповісти за мене про характер розкладання сум квадратів у моделі змішаних ефектів, що відповідає lmer(з пакету lme4 R). По-перше, я повинен сказати, що мені відомо про суперечки з використанням цього підходу, і на практиці я з більшою ймовірністю використовую завантажений LRT для …

30 r anova mixed-model lme4-nlme

8

Які математичні предмети ви б запропонували підготувати до видобутку даних та машинного навчання?

Я намагаюся скласти самостійну навчальну програму з математики для підготовки до вивчення даних та машинного навчання. Це мотивовано початком уроку машинного навчання Ендрю Нг на Coursera і відчуттям, що перед тим, як продовжувати, мені потрібно вдосконалити свої навички математики. Нещодавно я закінчив коледж, тому моя алгебра та статистика (конкретно на …

30 machine-learning references data-mining

2

Тест на бімодальний розподіл

Цікаво, чи є якийсь статистичний тест, щоб "перевірити" значущість бімодального розподілу. Я маю на увазі, наскільки мої дані відповідають бімодальному розподілу чи ні? Якщо так, чи є тест в програмі R?

30 r hypothesis-testing distributions bimodal

4

Як виконати зменшення розмірності за допомогою PCA в R

У мене великий набір даних, і я хочу виконати зменшення розмірності. Зараз скрізь я читаю, що для цього можу використовувати PCA. Однак я все ще не можу отримати, що робити після розрахунку / виконання ПКС. У R це легко зробити за допомогою команди princomp. Але що робити після розрахунку PCA? …

30 r pca

2

Які припущення щодо негативної біноміальної регресії?

Я працюю з великим набором даних (конфіденційним, тому я не можу надто багато поділитися), і прийшов до висновку, що необхідна негативна біноміальна регресія. Я ніколи раніше не робив регрес glm, і не можу знайти чіткої інформації про те, що таке припущення. Вони однакові для MLR? Чи можу я перетворити змінні …

30 regression generalized-linear-model data-transformation assumptions negative-binomial

9

Навіщо використовувати векторну модель виправлення помилок?

Мене бентежить модель вектора виправлення помилок ( VECM) ). Технічна інформація: VECM пропонує можливість застосувати векторну авторегресивну модель ( VAR ) до інтегрованого багатовимірного часового ряду. У підручниках вони називають деякі проблеми із застосуванням VAR до інтегрованих часових рядів, найважливішою з яких є так звана хибна регресія (t-статистика є дуже …

30 time-series forecasting var cointegration vecm

5

Дані “розвідка” порівняно з даними “сноупінг” / “катування”?

Я багато разів наштовхувався на неофіційні застереження щодо "прослідковування даних" (ось один кумедний приклад ), і я думаю, що маю інтуїтивне уявлення приблизно про те, що це означає, і чому це може бути проблемою. З іншого боку, "аналіз дослідницьких даних" видається цілком поважною процедурою в статистиці, принаймні, судячи з того, …

30 multiple-comparisons interpretation eda

4

Техніка машинного навчання для розбору рядків?

У мене дуже багато адресних рядків: 1600 Pennsylvania Ave, Washington, DC 20500 USA Я хочу їх розібрати на компоненти: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Але, звичайно, дані брудні: вони надходять з багатьох країн багатьма мовами, написані різними способами, містять неправильні написання, відсутні шматки, …

30 machine-learning text-mining

3

У мене є рукопис методу завантаження для тестування гіпотез одного засобу, і я хотів би надіслати його для публікації, але у мене є моральна дилема. Я підписався на протест проти Ельзев'є за їх неетичну ділову практику, і читання усього питання справді змусило мене поставити під сумнів етику інших комерційних академічних …

30 hypothesis-testing bootstrap journals

1

Інтуїція за взаємодією тензорних продуктів у GAM (пакет MGCV в R)

Узагальнені моделі добавок - це такі, де наприклад. функції плавні, і їх слід оцінити. Зазвичай пенальними шліцами. MGCV - це пакет в R, який робить це, і автор (Simon Wood) пише книгу про свій пакет із прикладами R. Ruppert та ін. (2003) написати набагато доступнішу книгу про простіші версії того …

30 r nonparametric interaction splines intuition

5

Стратегії навчання розподілу вибірки

Версія tl; dr. Які успішні стратегії ви використовуєте, щоб навчити розподілу вибірки (наприклад, вибірки) на вступному рівні студентів? Фон У вересні я буду викладати вступну статистику курсу для другого року суспільствознавства ( в основному політологія і соціології) студентів з використанням Основному практики статистики Девіда Муром. Я буду в п'ятий раз …

30 distributions sampling teaching

3

Як визначити якість багатокласового класифікатора

Дано набір даних з екземплярами разом з класами, де кожен екземпляр належить саме одному класу N x i y ixixix_iNNNxixix_iyiyiy_i багатокласовий класифікатор Після навчання та тестування я в основному маю таблицю з справжнім класом yiyiy_i та передбачуваним класом aiaia_i для кожного екземпляра xixix_i в тестовому наборі. Отже, для кожного екземпляра …

30 machine-learning classification multi-class

9

Чим відрізняється оцінювач від статистики?

Я дізнався, що статистика - це атрибут, який ви можете отримати з зразків. Взявши багато зразків однакового розміру, обчисливши цей атрибут для всіх них та побудувавши pdf, ми отримаємо розподіл відповідного атрибута або розподіл відповідної статистики. Я також чув, що статистика робиться оцінкою, чим ці дві концепції відрізняються?

30 terminology estimators definition