Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

3
Співвідношення між довірчим інтервалом і тестуванням статистичної гіпотези для t-тесту
Добре відомо, що інтервали довіри та перевірка статистичної гіпотези сильно пов'язані. Мої запитання зосереджені на порівнянні засобів для двох груп на основі числової змінної. Припустимо, що така гіпотеза перевірена за допомогою t-тесту. З іншого боку, можна обчислити довірчі інтервали для засобів обох груп. Чи існує якийсь зв’язок між перекриттям довірчих …

5
Яка різниця між "середньою величиною" та "середньою"?
Вікіпедія пояснює: Для набору даних середнє значення - це сума значень, поділена на кількість значень. Однак це визначення відповідає тому, що я називаю "середнім" (принаймні, це те, що я пам'ятаю, як вчився). І все ж Вікіпедія ще раз цитує: Існують і інші статистичні заходи, які використовують зразки, які деякі люди …

4
Аналіз зі складними даними, що-небудь інше?
Скажімо, наприклад, ви робите лінійну модель, але дані є складними.yуy y=xβ+ϵу=хβ+ϵ y = x \beta + \epsilon Мій набір даних є складним, оскільки всі числа у мають вигляд . Чи є щось процедурно інше при роботі з такими даними?( a + b i )yуy(a+bi)(а+бi)(a + bi) Я прошу, бо ви …

6
Чи може хтось запропонувати приклад унімодального розподілу, який має косий нуль, але який не є симетричним?
У травні 2010 року користувач Вікіпедії Mcorazao додав речення до статті про косості, що "нульове значення вказує на те, що значення відносно рівномірно розподілені по обидві сторони середнього, як правило, але не обов'язково мають на увазі симетричний розподіл". Однак на сторінці wiki немає фактичних прикладів розповсюджень, які порушують це правило. …

3
Візуалізуючи мільйон, видання PCA
Чи можливо візуалізувати результати аналізу основних компонентів способами, які дають більше розуміння, ніж просто зведені таблиці? Чи можна це зробити, коли кількість спостережень велика, скажімо ~ 1e4? І чи можна це робити в R [інші середовища]?

3
Як порівнюють гаму Гудмана-Крускаля та кореляції тау Кендалла чи Спірмена?
У моїй роботі ми порівнюємо прогнозований рейтинг та справжній рейтинг для деяких наборів даних. До недавнього часу ми використовували лише Кендалл-Тау. Група, яка працює над подібним проектом, запропонувала спробувати використати гамму Гудман-Крускал , і щоб вони віддали перевагу. Мені було цікаво, в чому полягають відмінності між різними алгоритмами кореляції рангів. …

1
Для яких розподілів параметризації в BUGS та R різні?
Я знайшов деякі дистрибутиви, для яких BUGS та R мають різні параметризації: Normal, log-Normal та Weibull. Для кожного з них я вважаю, що другий параметр, який використовується R, повинен бути перетворений в обернене (1 / параметр) перед тим, як використовувати його в BUGS (або в моєму випадку JAGS). Хтось знає …

1
Багаторазове порівняння на моделі змішаних ефектів
Я намагаюся проаналізувати деякі дані, використовуючи модель змішаного ефекту. Дані, які я зібрав, представляють вагу деяких молодих тварин різного генотипу в часі. Я використовую запропонований тут підхід: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ Зокрема, я використовую рішення №2 Тож у мене щось подібне require(nlme) model <- lme(weight ~ time * Genotype, random = ~1|Animal/time, data=weights) …

6
Як збільшити довгострокову відтворюваність досліджень (особливо з використанням R та Sweave)
Контекст: У відповідь на попереднє запитання про відтворювані дослідження Джейк писав Однією з проблем, які ми виявили під час створення нашого архіву JASA, було те, що змінилися версії та типові параметри CRAN-пакетів. Отже, в цей архів ми також включаємо версії пакетів, які ми використовували. Система, що базується на віньєтці, ймовірно, …

3
Коефіцієнти регресії, які перевертають знак, включаючи інші прогноктори
Уявіть собі Ви запускаєте лінійну регресію з чотирма числовими предикторами (IV1, ..., IV4) Коли в якості предиктора включено лише IV1, стандартизованою бета-версією є +.20 Якщо ви також включаєте IV2 до IV4, знак стандартизованого коефіцієнта регресії IV1 перевертається до -.25(тобто він стає негативним). Звідси виникає кілька питань: Що стосується термінології, ви …

3
Вміст закріплених уявлень p-значень
Іноді у звітах я включаю застереження щодо р-значень та іншої статистичної статистики, яку я надав. Я кажу, що оскільки вибірка не була випадковою, то така статистика не застосовуватиметься строго. Моє конкретне формулювання, як правило, наводиться у виносці: "Хоча, строго кажучи, інфекційна статистика застосовна лише в контексті випадкових вибірок, ми дотримуємось …

2
Варіантність продукту залежних змінних
Яка формула дисперсії продукту залежних змінних? У випадку незалежних змінних формула проста: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 Але яка формула для корельованих змінних? До речі, як я можу знайти кореляцію на основі статистичних даних?

8
Інструменти з відкритим кодом для візуалізації багатовимірних даних?
Крім gnuplot і ggobi , які інструменти з відкритим кодом використовують люди для візуалізації багатовимірних даних? Gnuplot - це більш-менш базовий графічний пакет. Ггобі може зробити ряд чудових речей, таких як: анімувати дані в межах виміру або серед дискретних колекцій анімувати лінійні комбінації, що змінюють коефіцієнти обчислити основні компоненти та …

2
Коли логістична регресія вирішується в закритому вигляді?
Візьмемо і та припустимо, що ми змоделюємо завдання передбачити y задане x за допомогою логістичної регресії. Коли коефіцієнти логістичної регресії можна записати у закритому вигляді?x∈{0,1}dx∈{0,1}dx \in \{0,1\}^dy∈{0,1}y∈{0,1}y \in \{0,1\} Одним із прикладів є використання насиченої моделі. Тобто визначте , де індексує набори в наборі потужностей , а повертає 1, якщо …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.