Статистика та великі дані computational-statistics

1

Рішення закритої форми задачі Лассо, коли матриця даних є діагональною

\newcommand{\diag}{\operatorname{diag}} ім'я У нас проблема: minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), з припущенням, що: ∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Чи є в цьому випадку рішення закритої форми? Я маю це: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), і тому я думаю, що відповідь: : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\}, для yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2} , але я не впевнений.

13 mathematical-statistics lasso computational-statistics regularization

7

Здійснення сенсу із теорії та застосувань статистики

Нещодавно я закінчила ступінь магістра з медичного та біологічного моделювання, супроводжуючи інженерну математику як основу. Навіть незважаючи на те, що моя навчальна програма включала значну кількість курсів з математичної статистики (див. Список нижче), які я вів із досить високими оцінками, я часто закінчуюсь повністю втраченою, дивлячись як на теорію, так …

13 mathematical-statistics bioinformatics computational-statistics

1

Як можна оптимізувати обчислювальну ефективність при підгонці складної моделі до великого набору даних неодноразово?

У мене виникають проблеми з ефективністю використання MCMCglmmпакету в R для запуску моделі зі змішаними ефектами. Код виглядає так: MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) За даними є близько 20 000 спостережень, вони об'єднані приблизно в 200 шкіл. Перед запуском я видалив усі невикористані змінні з …

12 r mixed-model mcmc computational-statistics

4

Виявлення поза часом у часовій серії: Як зменшити помилкові позитиви?

Я намагаюся автоматизувати зовнішнє виявлення у часових рядах, і я використав модифікацію рішення, запропонованого тут Роб Хайндманом . Скажімо, я вимірюю щоденні відвідування веб-сайту з різних країн. Для деяких країн, де щоденних відвідувань є кілька тисяч або тисячі, мій метод, здається, працює розумно. Однак у тих випадках, коли країна веде …

11 time-series outliers computational-statistics

3

Використання комп’ютерного моделювання для кращого розуміння статистичних понять на рівні випускників

Привіт, я беру аспірантуру зі статистики, і ми охоплювали тестові статистики та інші концепції. Однак мені часто вдається застосувати формули та розвинути своєрідну інтуїцію щодо того, як працюють речі, але я часто залишаюсь з відчуттям, що, можливо, якщо я підкріплюю своє дослідження симульованими експериментами, я розвину кращу інтуїцію в проблемних …

11 r hypothesis-testing sas simulation computational-statistics

1

Що це за "максимальний коефіцієнт кореляції"?

Типовою статистикою обробки зображень є використання функцій текстури Haralick , яких 14. Мене цікавить 14-та з цих особливостей: З огляду на карту суміжності (яку ми можемо просто переглянути емпіричним розподілом двох цілих чисел i , j < 256 ), вона визначається як: квадратний корінь другого власного значення Q , де …

11 probability computational-statistics

1

Пошук порівнянної групи контролю для групи лікування?

У мене є група лікування розміром 30 (30 шкіл у Каліфорнії), яка використовувала додаткові програми з математики. У простому аналізі я хотів би порівняти середній приріст математики студентів між нашою групою лікування та порівнянною контрольною групою. У CA є багато шкіл, які не використовували програмне забезпечення. Мені б хотілося, щоб …

11 mathematical-statistics descriptive-statistics computational-statistics

2

Матриця зворотної коваріації проти матриці коваріації в PCA

Чи має значення PCA, якщо ми вибираємо основні компоненти матриці зворотної коваріації АБО, якщо ми відкидаємо власні вектори матриці коваріації, що відповідають великим власним значенням? Це пов’язано з обговоренням у цій публікації .

10 machine-learning pca computational-statistics

3

Чи можна в R (або взагалі) змусити коефіцієнти регресії бути певною ознакою?

Я працюю з деякими реальними даними, і регресійні моделі дають певні протиінтуїтивні результати. Зазвичай я довіряю статистиці, але насправді деякі з цих речей не можуть бути правдивими. Основна проблема, яку я бачу, полягає в тому, що збільшення однієї змінної викликає посилення реакції, коли насправді вони мають негативно співвідноситись. Чи є …

10 r regression regression-coefficients computational-statistics

1

Швидке обчислення / оцінка лінійної системи низького рангу

Лінійні системи рівнянь поширені в обчислювальній статистиці. Одна зі спеціальних систем, з якими я стикався (наприклад, при факторному аналізі), - це система Ax=bAx=bAx=b де Тут - діагональна матриця із строго позитивною діагоналлю, - (з ) симетрична позитивна напіввизначена матриця, і є довільною матрицею . Нас пропонують розв’язати діагональну лінійну систему …

10 factor-analysis matrix computational-statistics matrix-decomposition matrix-inverse

4

Тестування статистичного програмного забезпечення

Які методи / підходи корисні при тестуванні статистичного програмного забезпечення? Мене особливо цікавлять програми, які параметрично оцінюють з максимальною ймовірністю. Порівнювати результати з результатами інших програм або опублікованих джерел не завжди можливо, оскільки більшість часу, коли я пишу власну програму, це тому, що потрібні мені обчислення ще не реалізовані в …

10 software computing computational-statistics

4

Чому потрібен спуск градієнта?

Коли ми можемо диференціювати функцію витрат і знайти параметри, розв’язавши рівняння, отримані шляхом часткової диференціації стосовно кожного параметра, і з'ясувати, де функція витрат мінімальна. Крім того, я думаю, що можливо знайти декілька місць, де похідні дорівнюють нулю, таким чином ми можемо перевірити всі такі місця і можемо знайти глобальні мінімуми …

10 machine-learning computational-statistics

2

Як взяти вибірку з дискретного розподілу на невід’ємні цілі числа?

У мене є такий дискретний розподіл, де відомі постійні:α,βα,β\alpha,\beta p ( x ; α , β) =Бета ( α + 1 , β+ х )Бета ( α , β)для x = 0 , 1 , 2 , …p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots Які існують …

10 sampling mcmc computational-statistics importance-sampling rejection-sampling

3

Виявлення аномалії часового ряду з Python

Мені потрібно реалізувати виявлення аномалії на кількох наборах даних часових рядів. Я ніколи цього не робив і сподівався на поради. Мені дуже зручно з python, тому я вважаю за краще, щоб рішення було втілено в ньому (більшість мого коду - це python для інших частин моєї роботи). Опис даних: дані …

10 machine-learning time-series python computational-statistics anomaly-detection

1

вартість вибірки

Я зіткнувся з такою проблемою моделювання: заданий набір {ω1,…,ωd}{ω1,…,ωг}\{\omega_1,\ldots,\omega_d\} відомих реальних чисел, розподіл на {−1,1}d{-1,1}г\{-1,1\}^d визначається через P(X=(x1,…,xd))∝(x1ω1+…+xdωd)+П(Х=(х1,…,хг))∝(х1ω1+…+хгωг)+\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+ де (z)+(z)+(z)_+ позначає позитивну частину zzz. Хоча я можу подумати про пробірник Metropolis-Hastings, націлений на цей розподіл, мені цікаво, чи існує ефективний прямий пробовідбірник, скориставшись великою кількістю нульових ймовірностей для зменшення …

9 simulation algorithms random-generation computational-statistics metropolis-hastings

Запитання з тегом «computational-statistics»