Статистика та великі дані

1

Чи змінюється відбір вибірки коефіцієнтами логістичної регресії?

Якщо у мене є набір даних із дуже рідкісним позитивним класом, і я знижую вибірку негативного класу, то виконую логістичну регресію, чи потрібно мені коригувати коефіцієнти регресії, щоб відобразити той факт, що я змінив поширеність позитивного класу? Наприклад, скажімо, у мене є набір даних із 4 змінними: Y, A, B …

34 logistic unbalanced-classes case-control-study

2

Інтерпретація графіку залишків проти встановлених значень для перевірки припущень лінійної моделі

Розглянемо наступний малюнок з лінійних моделей Faraway з R (2005, стор. 59). Перший сюжет, схоже, вказує на те, що залишкові та пристосовані значення є некорельованими, оскільки вони повинні бути в гомосептичній лінійній моделі з нормально розподіленими помилками. Тому другий та третій графіки, які, схоже, вказують на залежність між залишками та …

34 regression residuals assumptions graphical-model

3

R - Плутанина з Залишковою термінологією

Коренева середньоквадратична помилка залишкова сума квадратів залишкова стандартна помилка середня квадратична помилка помилка тесту Я думав, що я розумів ці терміни, але чим більше я роблю статистичні проблеми, тим більше я плутаюся, де я вдруге здогадуюсь про себе. Мені хотілося б переконливості та конкретного прикладу Я можу легко знайти рівняння …

34 r regression residuals

3

Відповідність балів схильності після багаторазової імпутації

Я посилаюся на цей документ: Hayes JR, Groner JI. "Використання декількох оцінок імпутації та схильності для тестування впливу автомобільних сидінь та ременів безпеки на ступінь тяжкості травми, отриманої за даними реєстру травм." J Педіатр Сурґ. 2008 р., 43 (5): 924–7. У цьому дослідженні було проведено багаторазову імпутацію для отримання 15 …

34 missing-data propensity-scores

2

Вибір моделі та перехресне підтвердження: правильний шлях

У CrossValided є численні теми на тему вибору моделі та перехресної перевірки. Ось декілька: Внутрішня та зовнішня перехресна перевірка та вибір моделі @ Найвища відповідь DikranMarsupial на вибір функції та перехресну перевірку Однак відповіді на ці теми є досить загальними і здебільшого висвітлюють питання з особливими підходами до перехресної валідації …

34 cross-validation model-selection

2

Які практичні відмінності між процедурами фальшивих виявлень Benjamini & Hochberg (1995) та Benjamini & Yekutieli (2001)?

У моїй статистичній програмі застосовуються процедури Benjamini & Hochberg (1995) та Benjamini & Yekutieli (2001). Я зробив усе можливе, щоб прочитати наступний документ, але він досить математичний і я не впевнений, що розумію різницю між процедурами. З основного коду в моїй статистичній програмі я бачу, що вони дійсно різні, і …

34 post-hoc false-discovery-rate

3

Нормальність залежної змінної = нормальність залишків?

Це питання, здається, весь час отакує свою некрасиву голову, і я намагаюся обезголовити це для мого власного розуміння статистики (і розуму!). Припущення загальних лінійних моделей (t-тест, ANOVA, регресія тощо) включають "припущення про нормальність", але я вважаю, що це рідко описано чітко. Я часто натрапляю на підручники / посібники зі статистики …

34 normal-distribution residuals normality-assumption

5

Зворотне розповсюдження проти генетичного алгоритму для тренувань нейронної мережі

Я прочитав кілька робіт, де обговорювалися плюси і мінуси кожного методу, дехто стверджував, що GA не покращує пошук оптимального рішення, а інші показують, що він є більш ефективним. Здається, GA, як правило, є кращим у літературі (хоча в основному люди модифікують його якимось чином, щоб досягти необхідних результатів), то чому, …

34 neural-networks genetic-algorithms backpropagation

3

Як я можу перевірити, чи є випадковий ефект вагомим?

Я намагаюся зрозуміти, коли використовувати випадковий ефект і коли це зайве. Мені сказали, як правило, якщо у вас є 4 або більше груп / осіб, які я роблю (15 окремих лосів). Деякі з цих лосів експериментували 2 або 3 рази протягом загальної кількості 29 випробувань. Я хочу знати, чи поводяться …

34 mixed-model lme4-nlme random-effects-model glmm

3

Чому кореляційна матриця повинна бути позитивною напіввизначеною і що це означає бути чи не бути позитивною напіввизначеною?

Я досліджував значення позитивної напіввизначеної властивості кореляційних або коваріаційних матриць. Я шукаю будь-яку інформацію про Визначення позитивної напіввизначеності; Його важливі властивості, практичні наслідки; Наслідок негативного детермінанта, впливу на результати багатоваріантного аналізу чи моделювання тощо.

34 covariance-matrix eigenvalues determinant correlation-matrix

3

Різниця між узагальненими лінійними моделями та узагальненими лінійними змішаними моделями

Мені цікаво, чим відрізняються змішані та не змішані GLM. Наприклад, у SPSS випадаюче меню дозволяє користувачам підходити або до: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear Чи по-різному вони мають справу з відсутніми значеннями? Моя залежна змінна є двійковою, і у мене є кілька …

34 mixed-model generalized-linear-model glmm gee

2

Ієрархічна кластеризація даних змішаного типу - яку відстань / схожість використовувати?

У моєму наборі даних є як безперервні, так і природно дискретні змінні. Я хочу знати, чи можемо ми робити ієрархічну кластеризацію, використовуючи обидва типи змінних. І якщо так, то яка міра відстані підходить?

34 clustering similarities distance-functions mixed-type-data

5

Чи має бета-розподіл попередньо кон'югат?

Я знаю, що бета-розподіл пов'язаний з двочленним. Але що таке кон'югат перед бета-версією? Дякую.

34 beta-distribution conjugate-prior

3

Яким чином перехресне підтвердження подолало проблему надмірності?

Чому процедура перехресної перевірки долає проблему перевиконання моделі?

34 regression model-selection cross-validation

3

Яке відношення між ієрархічними моделями, нейронними мережами, графічними моделями, байєсовими мережами?

Вони, схоже, представляють випадкові змінні вузлами та (в) залежності через (можливо, спрямовані) ребра. Мене особливо цікавить байєсівська точка зору.

34 causality neural-networks multilevel-analysis graphical-model