Статистика та великі дані

2

Чи передбачає кореляція стаціонарність даних?

Міжоринковий аналіз - це метод моделювання ринкової поведінки за допомогою пошуку зв’язків між різними ринками. Часто співвідношення обчислюється між двома ринками, скажімо, S&P 500 та 30-річними казначействами США. Ці обчислення частіше за все базуються на даних про ціни, що для всіх очевидно, що воно не відповідає визначенню стаціонарних часових рядів. …

27 correlation stationarity

5

Чи може зі статистичної точки зору можна зробити висновок про причинність, використовуючи показники схильності за допомогою спостережного дослідження?

Питання: Чи можна з точки зору статистиків (або практикуючих) зробити висновок про причинність, використовуючи показники схильності за допомогою спостережного дослідження (а не експерименту )? Будь ласка, не хочете розпочати полум’яну війну чи фанатичну дискусію. Передумови: В рамках нашої програми доктора філософії ми торкалися причинного висновку лише через робочі групи та …

27 causality propensity-scores

4

Як виміряти / класифікувати "змінну важливість" при використанні CART? (зокрема, використовуючи {rpart} з R)

Створюючи модель CART (конкретно дерево класифікації) за допомогою rpart (в R), часто цікаво знати, яке значення мають різні змінні, що вводяться в модель. Отже, моє запитання таке: які спільні заходи існують для ранжирування / вимірювання значущості важливості змінних, що беруть участь у моделі CART? І як це можна обчислити за …

27 r classification model-selection cart rpart

9

Програмні засоби для статистики та обміну даними для роботи з великими наборами даних

В даний час мені доведеться проаналізувати приблизно 20 млн записів та побудувати моделі прогнозування. Поки я спробував Statistica, SPSS, RapidMiner та R. Серед цих даних Statistica, здається, є найбільш підходящим для роботи з обміном даними, і користувальницький інтерфейс RapidMiner також дуже зручний, але здається, що Statistica, RapidMiner і SPSS підходять …

27 large-data software data-mining

3

Навчання без нагляду, нагляду та напівконтролю

У контексті машинного навчання, в чому різниця між непідконтрольне навчання контрольоване навчання та напівконтрольне навчання? І які основні алгоритмічні підходи слід переглянути?

27 machine-learning unsupervised-learning supervised-learning semi-supervised

6

Взаємозв'язок між біноміальними та бета-розподілами

Я більше програміст, ніж статистик, тому сподіваюся, що це питання не надто наївне. Це трапляється при вибірковому виконанні програм у випадкові часи. Якщо я беру N = 10 вибірки випадкового часу стану програми, я можу побачити, як функція Foo виконується, наприклад, I = 3 з цих вибірок. Мене цікавить, що …

27 binomial beta-binomial beta-distribution

4

Ймовірність того, що не намалював слово з мішка з літерами в Scrabble

Припустимо, у вас був мішок з ятьма плитками, на кожному на якому буква. Є плитки з літерою 'A', з 'B' і так далі, і 'wildcard' плитками (у нас ). Припустимо, у вас був словник із обмеженою кількістю слів. Ви вибираєте плитки з сумки без заміни. Як би ви обчислили (або …

27 sampling games probability

6

Чому слід вивчати опуклу оптимізацію для теоретичного машинного навчання?

Я працюю над теоретичним машинним навчанням - над трансферним навчанням, щоб бути конкретним - для моєї доктора наук. Чому з цікавості я повинен пройти курс опуклої оптимізації? Які переваги від опуклої оптимізації я можу використовувати у своїх дослідженнях теоретичного машинного навчання?

27 machine-learning optimization convex transfer-learning

2

Площа під кривою точності відкликання (AUC PR-кривої) та середньої точності (AP)

Чи середня точність (AP) - область під кривою точності нагадування (AUC PR-кривої)? Редагувати: ось декілька коментарів про різницю в PR AUC та AP. AUC отримують трапеційною інтерполяцією точності. Альтернативною і, як правило, майже еквівалентною метрикою є Середня точність (AP), повернена як інформація. Це середнє значення точності, що отримується щоразу, коли …

27 scikit-learn precision-recall auc average-precision

2

Чому покарання за Лассо еквівалентно подвійній експоненції (Лапласу)?

Я читав у ряді посилань, що оцінка Лассо для вектора параметра регресії ББB еквівалентна задньому режиму ББB в якому попередній розподіл для кожного БiБiB_i є подвійним експоненціальним розподілом (також відомим як розподіл Лапласа). Я намагався це довести, чи може хтось деталізувати деталі?

27 regression bayesian lasso prior regularization

4

Ансамбль різних видів регресорів, що використовують scikit-learn (або будь-який інший фреймворк пітона)

Я намагаюся вирішити регресійну задачу. Я з’ясував, що 3 моделі чудово працюють для різних підмножини даних: LassoLARS, SVR та Gradient Tree Boosting. Я помітив, що коли я роблю прогнози, використовуючи всі ці 3 моделі, а потім складаю таблицю «справжнього виходу» та результатів 3 моїх моделей, я бачу, що щоразу принаймні …

27 regression scikit-learn ensemble

2

Як використовувати як бінарні, так і безперервні змінні разом у кластеризації?

Мені потрібно використовувати бінарні змінні (значення 0 і 1) у k-значенні. Але k-означає працює лише з безперервними змінними. Я знаю, що деякі люди до цих пір використовують ці бінарні змінні в k-значенні, ігноруючи той факт, що k-засоби призначені лише для суцільних змінних. Це для мене неприйнятно. Запитання: То який статистично …

27 r clustering binary-data k-means mixed-type-data

6

Чому менші ваги призводять до спрощення моделей при регуляризації?

Я закінчив курс машинного навчання Ендрю Нґ близько року тому, і зараз пишу моє дослідження середньої математики про роботу логістичної регресії та методи оптимізації ефективності. Однією з таких методик є, звичайно, регуляризація. Метою регуляризації є запобігання надмірного пристосування шляхом розширення функції витрат на включення мети простоти моделі. Ми можемо досягти …

27 regression machine-learning optimization regularization overfitting

1

передбачити () функцію для lmer моделей змішаних ефектів

Проблема: Я читав в інших публікаціях, які predictнедоступні для lmerмоделей зі змішаними ефектами {lme4} в [R]. Я спробував вивчити цю тему за допомогою набору даних про іграшки ... Фон: Набір даних адаптується з цього джерела і доступний як ... require(gsheet) data <- read.csv(text = gsheet2text('https://docs.google.com/spreadsheets/d/1QgtDcGJebyfW7TJsB8n6rAmsyAnlz1xkT3RuPFICTdk/edit?usp=sharing', format ='csv')) Це перші рядки …

27 r mixed-model lme4-nlme

2

Чи слід звертатися до кількох коригувань порівнянь під час використання довірчих інтервалів?

Припустимо, у нас є декілька сценаріїв порівнянь, таких як пост-хоч висновок по парній статистиці, або як множинна регресія, де ми робимо загальну кількість порівнянь. Припустимо також, що ми хотіли б підтримати умовивід у цих кратних, використовуючи довірчі інтервали.mmm 1. Чи застосовуємо кілька коригувань порівняння до КІ? Тобто, так само, як …

27 confidence-interval multiple-comparisons inference