Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

1
Чи змінюється відбір вибірки коефіцієнтами логістичної регресії?
Якщо у мене є набір даних із дуже рідкісним позитивним класом, і я знижую вибірку негативного класу, то виконую логістичну регресію, чи потрібно мені коригувати коефіцієнти регресії, щоб відобразити той факт, що я змінив поширеність позитивного класу? Наприклад, скажімо, у мене є набір даних із 4 змінними: Y, A, B …

2
Інтерпретація графіку залишків проти встановлених значень для перевірки припущень лінійної моделі
Розглянемо наступний малюнок з лінійних моделей Faraway з R (2005, стор. 59). Перший сюжет, схоже, вказує на те, що залишкові та пристосовані значення є некорельованими, оскільки вони повинні бути в гомосептичній лінійній моделі з нормально розподіленими помилками. Тому другий та третій графіки, які, схоже, вказують на залежність між залишками та …

3
R - Плутанина з Залишковою термінологією
Коренева середньоквадратична помилка залишкова сума квадратів залишкова стандартна помилка середня квадратична помилка помилка тесту Я думав, що я розумів ці терміни, але чим більше я роблю статистичні проблеми, тим більше я плутаюся, де я вдруге здогадуюсь про себе. Мені хотілося б переконливості та конкретного прикладу Я можу легко знайти рівняння …

3
Відповідність балів схильності після багаторазової імпутації
Я посилаюся на цей документ: Hayes JR, Groner JI. "Використання декількох оцінок імпутації та схильності для тестування впливу автомобільних сидінь та ременів безпеки на ступінь тяжкості травми, отриманої за даними реєстру травм." J Педіатр Сурґ. 2008 р., 43 (5): 924–7. У цьому дослідженні було проведено багаторазову імпутацію для отримання 15 …

2
Вибір моделі та перехресне підтвердження: правильний шлях
У CrossValided є численні теми на тему вибору моделі та перехресної перевірки. Ось декілька: Внутрішня та зовнішня перехресна перевірка та вибір моделі @ Найвища відповідь DikranMarsupial на вибір функції та перехресну перевірку Однак відповіді на ці теми є досить загальними і здебільшого висвітлюють питання з особливими підходами до перехресної валідації …

2
Які практичні відмінності між процедурами фальшивих виявлень Benjamini & Hochberg (1995) та Benjamini & Yekutieli (2001)?
У моїй статистичній програмі застосовуються процедури Benjamini & Hochberg (1995) та Benjamini & Yekutieli (2001). Я зробив усе можливе, щоб прочитати наступний документ, але він досить математичний і я не впевнений, що розумію різницю між процедурами. З основного коду в моїй статистичній програмі я бачу, що вони дійсно різні, і …

3
Нормальність залежної змінної = нормальність залишків?
Це питання, здається, весь час отакує свою некрасиву голову, і я намагаюся обезголовити це для мого власного розуміння статистики (і розуму!). Припущення загальних лінійних моделей (t-тест, ANOVA, регресія тощо) включають "припущення про нормальність", але я вважаю, що це рідко описано чітко. Я часто натрапляю на підручники / посібники зі статистики …

5
Зворотне розповсюдження проти генетичного алгоритму для тренувань нейронної мережі
Я прочитав кілька робіт, де обговорювалися плюси і мінуси кожного методу, дехто стверджував, що GA не покращує пошук оптимального рішення, а інші показують, що він є більш ефективним. Здається, GA, як правило, є кращим у літературі (хоча в основному люди модифікують його якимось чином, щоб досягти необхідних результатів), то чому, …

3
Як я можу перевірити, чи є випадковий ефект вагомим?
Я намагаюся зрозуміти, коли використовувати випадковий ефект і коли це зайве. Мені сказали, як правило, якщо у вас є 4 або більше груп / осіб, які я роблю (15 окремих лосів). Деякі з цих лосів експериментували 2 або 3 рази протягом загальної кількості 29 випробувань. Я хочу знати, чи поводяться …

3
Чому кореляційна матриця повинна бути позитивною напіввизначеною і що це означає бути чи не бути позитивною напіввизначеною?
Я досліджував значення позитивної напіввизначеної властивості кореляційних або коваріаційних матриць. Я шукаю будь-яку інформацію про Визначення позитивної напіввизначеності; Його важливі властивості, практичні наслідки; Наслідок негативного детермінанта, впливу на результати багатоваріантного аналізу чи моделювання тощо.

3
Різниця між узагальненими лінійними моделями та узагальненими лінійними змішаними моделями
Мені цікаво, чим відрізняються змішані та не змішані GLM. Наприклад, у SPSS випадаюче меню дозволяє користувачам підходити або до: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear Чи по-різному вони мають справу з відсутніми значеннями? Моя залежна змінна є двійковою, і у мене є кілька …

2
Ієрархічна кластеризація даних змішаного типу - яку відстань / схожість використовувати?
У моєму наборі даних є як безперервні, так і природно дискретні змінні. Я хочу знати, чи можемо ми робити ієрархічну кластеризацію, використовуючи обидва типи змінних. І якщо так, то яка міра відстані підходить?



3
Яке відношення між ієрархічними моделями, нейронними мережами, графічними моделями, байєсовими мережами?
Вони, схоже, представляють випадкові змінні вузлами та (в) залежності через (можливо, спрямовані) ребра. Мене особливо цікавить байєсівська точка зору.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.