Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

5
Як вирішити парадокс Сімпсона?
Парадокс Сімпсона - це класична головоломка, яку обговорюють на вступних курсах статистики по всьому світу. Однак мій курс був задоволений, щоб просто зазначити, що проблема існує і не дає рішення. Мені хотілося б знати, як вирішити парадокс. Тобто, стикаючись з парадоксом Сімпсона, де два різних варіанти, схоже, змагаються за те, …

5
Тестування на автокореляцію: Ljung-Box проти Breusch-Godfrey
Я звик бачити тест Ljung-Box досить часто, який використовується для тестування автокореляції в необроблених даних або в залишках моделі. Я ледь не забув, що існує ще один тест на автокореляцію, а саме тест Бройша-Годфрі. Запитання: в чому основні відмінності та схожість тестів Люнг-Бокса та Брейша-Годфрі, і коли слід віддавати перевагу …

1
Квантильна регресія: Які стандартні помилки?
summary.rqФункція від quantreg віньєтки надає безліч варіантів для стандартних оцінок похибки квантилів коефіцієнтів регресії. Які спеціальні сценарії, коли кожен із них стає оптимальним / бажаним? "ранг", який виробляє довірчі інтервали для оцінюваних параметрів шляхом інвертування тесту на ранги, як описано в Koenker (1994). Параметр за замовчуванням передбачає, що помилки є …

6
Орієнтовний за допомогою моделювання Монте-Карло
Я недавно переглядав моделювання Монте-Карло і використовую його для наближення констант, таких як (коло всередині прямокутника, пропорційна площа).ππ\pi Однак я не можу придумати відповідний метод наближення значення [число Ейлера] за допомогою інтеграції Монте-Карло.eee Чи є у вас покажчики, як це можна зробити?

3
Як інтерпретувати OOB та матрицю плутанини для випадкових лісів?
Я отримав сценарій R від когось, щоб запустити випадкову лісову модель. Я змінив і запустив його з деякими даними про співробітників. Ми намагаємось передбачити добровільні розлуки. Ось додаткова інформація: це класифікаційна модель: 0 = перебування працівника, 1 = працівник припинено, зараз ми дивимося лише на десяток змінних прогнозів, дані "незбалансовані", …

2
Що таке складна симетрія у звичайній англійській мові?
Нещодавно я зрозумів, що змішана модель із лише предметом як випадковим фактором та іншими чинниками як фіксованими факторами еквівалентна ANOVA при встановленні кореляційної структури змішаної моделі на симетричну сполуку. Тому я хотів би знати, що означає складна симетрія в контексті змішаної (тобто розділеної ділянки) ANOVA, в кращому випадку пояснюваної простою …

4
Обґрунтування односхилого тестування гіпотез
Я розумію тестування гіпотез з двома хвостами. У вас є (проти ). Значення значення - це ймовірність того, що генерує дані принаймні такі ж крайні, як і те, що спостерігалося.H 1 = ¬ H 0 : θ ≠ θ 0 p θН0: θ = θ0H0:θ=θ0H_0 : \theta = \theta_0Н1= ¬ …

5
Які найкращі практики виявлення ефектів взаємодії?
Окрім буквального тестування кожної можливої ​​комбінації змінних (змінних) у моделі ( x1:x2або x1*x2 ... xn-1 * xn). Як визначити, чи існує взаємодія ДОЛЖНА чи ЗНАЧАЄМО між вашими незалежними (сподіваємось) змінними? Які найкращі практики виявити взаємодію? Чи є графічна техніка, яку ви могли б або могли використати?

7
Вибір змінних для включення в модель множинної лінійної регресії
В даний час я працюю над створенням моделі з використанням множинної лінійної регресії. Після познайомлення зі своєю моделлю я не знаю, як найкраще визначити, які змінні зберігати, а які видалити. Моя модель розпочалася з 10 прогнозів для DV. При використанні всіх 10 предикторів чотири вважалися значущими. Якщо я видалю лише …

3
Як взяти похідне багатоваріантної нормальної щільності?
Скажімо, у мене багатофакторна нормальна щільність N(μ,Σ)N(μ,Σ)N(\mu, \Sigma) . Я хочу отримати другу (часткову) похідну wrt . Не знаєте, як взяти похідне від матриці.μμ\mu Wiki каже, що приймайте похідний елемент за елементом всередині матриці. Я працюю з наближенням Лапласа Режим - .Θ = μlogPN(θ)=logPN−12(θ−θ^)TΣ−1(θ−θ^).log⁡PN(θ)=log⁡PN−12(θ−θ^)TΣ−1(θ−θ^).\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>.θ^=μθ^=μ\hat\theta=\mu Мені дали як це …

5
Чим корисно використовувати функцію «коментар» в R?
Я щойно відкрив commentфункцію в Р. Приклад: x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) Я вперше зайшов за цією функцією і цікавився, що є загальним / корисним для цього. Оскільки досить важко шукати "коментар" R в Google …
35 r 


3
Чи додаються шари об'єднання до або після шарів, що випадають?
Я створюю конволюційну нейронну мережу (CNN), де у мене є згортковий шар, за яким слідує шар об'єднання, і я хочу застосувати випадання для зменшення перевитрати. У мене таке відчуття, що шар, що випадає, слід наносити після об'єднання шару, але я насправді не маю нічого, що би це створити. Де є …

5
Чому збільшення розміру вибірки зменшує (вибірку) дисперсію?
Велика картинка: Я намагаюся зрозуміти, як збільшення розміру вибірки збільшує силу експерименту. Слайди мого викладача пояснюють це малюнком 2 нормальних розподілів, одного для нульової гіпотези та одного для альтернативної гіпотези та порогу рішення c між ними. Вони стверджують, що збільшення розміру вибірки зменшить дисперсію і тим самим спричинить більш високий …

4
Які відмінності між розрідженим кодуванням та автокодером?
Рідке кодування визначається як вивчення надмірно повного набору базових векторів для представлення вхідних векторів (<- чому ми цього хочемо). Які відмінності між розрідженим кодуванням та автокодером? Коли ми будемо використовувати розріджене кодування та автокодер?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.