Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

2
Мультиноміальна логістична регресія проти бінарної логістичної регресії один проти одного
Скажімо, у нас є залежна змінна з кількома категоріями та набором незалежних змінних. YYY Які переваги мультиноміальної логістичної регресії перед сукупністю бінарних логістичних регресій (тобто схема «один проти відпочинку» )? Під набором двійкової логістичної регресії я маю на увазі, що для кожної категорії ми будуємо окрему модель бінарної логістичної регресії …

6
Чому "пояснення подалі" має інтуїтивний сенс?
Нещодавно я дізнався про принцип імовірнісного міркування під назвою " пояснення подалі ", і намагаюся зрозуміти його інтуїцію. Дозвольте мені створити сценарій. Нехай - це подія, що відбувається землетрус. Нехай подія стане подією, коли веселий зелений гігант гуляє містом. Нехай - це випадок, коли земля трясеться. Нехай . Як ви …

3
Інтерпретація р-значення при тестуванні гіпотез
Нещодавно я натрапив на статтю "Незначність тестування значущості гіпотези", Джефф Гілл (1999) . Автор підняв кілька поширених помилок щодо тестування гіпотез та p-значень, щодо яких у мене є два конкретні питання: Значення р - технічно , яке, як вказує папір, взагалі нічого не говорить нам про P ( H 0 …

4
Хороші методи для графіків щільності негативних змінних в R?
plot(density(rexp(100)) Очевидно, вся щільність зліва від нуля являє собою зміщення. Я хочу узагальнити деякі дані для нестатистів, і хочу уникати запитань про те, чому невід’ємні дані мають щільність зліва від нуля. Ділянки призначені для перевірки рандомізації; Я хочу показати розподіл змінних за групами лікування та контролю. Розподіл часто є експоненціальними. …

3
Як оцінити параметр усадки в регресії Лассо або хребта за допомогою змінних> 50K?
Я хочу використовувати регресію Лассо або хребта для моделі з більш ніж 50 000 змінних. Я хочу зробити це за допомогою програмного пакету в Р. Як я можу оцінити параметр усадки ( )?λλ\lambda Зміни: Ось цей момент я вирішив: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, …

3
Що слід врахувати щодо магістерських програм зі статистики
Настає сезон прийому для аспірантів. Я (і багато студентів, як я) зараз намагаюся вирішити, яку програму статистики вибрати. Які речі ви пропонуєте нам розглянути щодо магістерських програм зі статистики? Чи є загальні підводні камені або помилки, які допускають учні (можливо, що стосується репутації школи)? Щодо зайнятості, чи варто орієнтуватися на …

4
Платформи хмарних обчислень для машинного навчання [закрито]
У мене є невеликий список компаній, які надають платформу для запуску сценаріїв R, python або octave на кластерах, побудованих на вершині amazon EC2. Чи є інші імена, які я повинен додати? Хмарні числа Опані crdata

2
Який розподіл суми неіідних гауссових змінних?
Якщо XXX розподілено N(μX,σ2X)N(μX,σX2)N(\mu_X, \sigma^2_X) , YYY розподілено N(μY,σ2Y)N(μY,σY2)N(\mu_Y, \sigma^2_Y) і Z=X+YZ=X+YZ = X + Y , я знаю, що ZZZ розподілено N(μX+μY,σ2X+σ2Y)N(μX+μY,σX2+σY2)N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) якщо X і Y незалежні. Але що буде, якби X і Y не були незалежними, тобто (X,Y)≈N((μXμY),(σ2XσX,YσX,Yσ2Y))(X,Y)≈N((μXμY),(σX2σX,YσX,YσY2))(X, Y) \approx N\big( (\begin{smallmatrix} \mu_X\\\mu_Y …

4
Звідки береться в центральній граничній теоремі (CLT)?
Дуже проста версія центральної обмеженої теореми нижче що є Ліндебергом – Леві CLT. Я не розумію, чому на лівій стороні є . І Ляпунов CLT каже але чому не ? Хто-небудь сказав би мені, що це за фактори, такі \ sqrt {n} та \ frac {1} {s_n} ? як ми …

5
Захист міри в обробці даних
Я шукав багато веб-сайтів, щоб знати, що саме буде робити? Результати, які я знайшов, стосувалися використання його в самих додатках. Я знаю про функцію підтримки та довіри. З Вікіпедії, при обробці даних, ліфтинг - це міра ефективності моделі при прогнозуванні або класифікації випадків, вимірюючи по відношенню до моделі випадкового вибору. …

3
Створення «оцінки визначеності» з голосів у випадкових лісах?
Я хочу підготувати класифікатора, який буде розмежовувати об'єкти Type Aта Type Bоб'єкти з досить великим навчальним набором з приблизно 10000 об'єктів, приблизно половина з яких є, Type Aа половина - Type B. Набір даних складається з 100 безперервних функцій, що деталізують фізичні властивості комірок (розмір, середній радіус тощо). Візуалізація даних …

6
Як я можу аналітично довести, що випадкове ділення суми призводить до експоненціального розподілу (наприклад, доходу та багатства)?
У цій нинішній статті в НАУКІ пропонується наступне: Припустимо, ви випадковим чином розділите 500 мільйонів доходу серед 10000 людей. Є лише один спосіб надати кожному рівну, 50 000 частку. Тож якщо ви долі заробляєте випадковим чином, рівність навряд чи є. Але є незліченна кількість способів дати кілька людей багато грошей, …

5
Функції синхронізації в R [закрито]
Я хотів би виміряти час, який потрібно для повторення виконання функції. Чи replicate()еквівалентні та використання for-циклів? Наприклад: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); Який є кращим методом. Чи system.time()є sys+userфактичний час процесора для запуску програми? Чи elapsedє хорошим показником часу виконання програми?
36 r 

4
Як мені помістити обмежену регресію в R, щоб коефіцієнти були загальні = 1?
Я бачу подібну стриману регресію тут: Обмежена лінійна регресія через задану точку але моя вимога дещо інша. Мені потрібні коефіцієнти, щоб додати до 1. Зокрема, я регресую дохідність 1 валютної серії порівняно з 3 іншими валютними серіями, щоб інвестори могли замінити свою експозицію до цієї серії комбінацією з іншими 3, …
36 r  regression 

8
За яких умов слід використовувати багаторівневий / ієрархічний аналіз?
За яких умов хтось повинен розглянути можливість використання багаторівневого / ієрархічного аналізу на відміну від більш базових / традиційних аналізів (наприклад, ANOVA, регресія OLS тощо)? Чи існують ситуації, в яких це можна вважати обов'язковим? Чи існують ситуації, коли використання багаторівневого / ієрархічного аналізу недоцільно? Нарешті, які хороші ресурси для початківців …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.