Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних


2
lme та lmer порівняння
Мені було цікаво, чи може хтось просвітити мене про нинішні відмінності між цими двома функціями. Я знайшов наступне питання: Як вибрати бібліотеку nlme або lme4 R для моделей зі змішаними ефектами? , але це датується пару років тому. Це життя в колах програмного забезпечення. Мої конкретні запитання: Чи є (досі) …

1
Що робить команда anova () з об'єктом моделі lmer?
Сподіваюсь, це питання, на який хтось тут може відповісти за мене про характер розкладання сум квадратів у моделі змішаних ефектів, що відповідає lmer(з пакету lme4 R). По-перше, я повинен сказати, що мені відомо про суперечки з використанням цього підходу, і на практиці я з більшою ймовірністю використовую завантажений LRT для …

8
Які математичні предмети ви б запропонували підготувати до видобутку даних та машинного навчання?
Я намагаюся скласти самостійну навчальну програму з математики для підготовки до вивчення даних та машинного навчання. Це мотивовано початком уроку машинного навчання Ендрю Нг на Coursera і відчуттям, що перед тим, як продовжувати, мені потрібно вдосконалити свої навички математики. Нещодавно я закінчив коледж, тому моя алгебра та статистика (конкретно на …

2
Тест на бімодальний розподіл
Цікаво, чи є якийсь статистичний тест, щоб "перевірити" значущість бімодального розподілу. Я маю на увазі, наскільки мої дані відповідають бімодальному розподілу чи ні? Якщо так, чи є тест в програмі R?

4
Як виконати зменшення розмірності за допомогою PCA в R
У мене великий набір даних, і я хочу виконати зменшення розмірності. Зараз скрізь я читаю, що для цього можу використовувати PCA. Однак я все ще не можу отримати, що робити після розрахунку / виконання ПКС. У R це легко зробити за допомогою команди princomp. Але що робити після розрахунку PCA? …
30 r  pca 

2
Які припущення щодо негативної біноміальної регресії?
Я працюю з великим набором даних (конфіденційним, тому я не можу надто багато поділитися), і прийшов до висновку, що необхідна негативна біноміальна регресія. Я ніколи раніше не робив регрес glm, і не можу знайти чіткої інформації про те, що таке припущення. Вони однакові для MLR? Чи можу я перетворити змінні …

9
Навіщо використовувати векторну модель виправлення помилок?
Мене бентежить модель вектора виправлення помилок ( VECM) ). Технічна інформація: VECM пропонує можливість застосувати векторну авторегресивну модель ( VAR ) до інтегрованого багатовимірного часового ряду. У підручниках вони називають деякі проблеми із застосуванням VAR до інтегрованих часових рядів, найважливішою з яких є так звана хибна регресія (t-статистика є дуже …

5
Дані “розвідка” порівняно з даними “сноупінг” / “катування”?
Я багато разів наштовхувався на неофіційні застереження щодо "прослідковування даних" (ось один кумедний приклад ), і я думаю, що маю інтуїтивне уявлення приблизно про те, що це означає, і чому це може бути проблемою. З іншого боку, "аналіз дослідницьких даних" видається цілком поважною процедурою в статистиці, принаймні, судячи з того, …

4
Техніка машинного навчання для розбору рядків?
У мене дуже багато адресних рядків: 1600 Pennsylvania Ave, Washington, DC 20500 USA Я хочу їх розібрати на компоненти: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Але, звичайно, дані брудні: вони надходять з багатьох країн багатьма мовами, написані різними способами, містять неправильні написання, відсутні шматки, …

3
Рекомендація для рецензованого журналу з відкритим кодом?
У мене є рукопис методу завантаження для тестування гіпотез одного засобу, і я хотів би надіслати його для публікації, але у мене є моральна дилема. Я підписався на протест проти Ельзев'є за їх неетичну ділову практику, і читання усього питання справді змусило мене поставити під сумнів етику інших комерційних академічних …

1
Інтуїція за взаємодією тензорних продуктів у GAM (пакет MGCV в R)
Узагальнені моделі добавок - це такі, де наприклад. функції плавні, і їх слід оцінити. Зазвичай пенальними шліцами. MGCV - це пакет в R, який робить це, і автор (Simon Wood) пише книгу про свій пакет із прикладами R. Ruppert та ін. (2003) написати набагато доступнішу книгу про простіші версії того …

5
Стратегії навчання розподілу вибірки
Версія tl; dr. Які успішні стратегії ви використовуєте, щоб навчити розподілу вибірки (наприклад, вибірки) на вступному рівні студентів? Фон У вересні я буду викладати вступну статистику курсу для другого року суспільствознавства ( в основному політологія і соціології) студентів з використанням Основному практики статистики Девіда Муром. Я буду в п'ятий раз …

3
Як визначити якість багатокласового класифікатора
Дано набір даних з екземплярами разом з класами, де кожен екземпляр належить саме одному класу N x i y ixixix_iNNNxixix_iyiyiy_i багатокласовий класифікатор Після навчання та тестування я в основному маю таблицю з справжнім класом yiyiy_i та передбачуваним класом aiaia_i для кожного екземпляра xixix_i в тестовому наборі. Отже, для кожного екземпляра …

9
Чим відрізняється оцінювач від статистики?
Я дізнався, що статистика - це атрибут, який ви можете отримати з зразків. Взявши багато зразків однакового розміру, обчисливши цей атрибут для всіх них та побудувавши pdf, ми отримаємо розподіл відповідного атрибута або розподіл відповідної статистики. Я також чув, що статистика робиться оцінкою, чим ці дві концепції відрізняються?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.