Статистика та великі дані machine-learning

1

Я розглядав теоретичні рамки вибору методу (зауважте: не вибір моделі) і знайшов дуже мало систематизованих, математично мотивованих робіт. Під «вибором методу» я маю на увазі основу для виокремлення відповідного (або кращого, оптимального) методу щодо проблеми чи типу проблеми. Я знайшов, що це суттєва робота, що стосується конкретних методів та їх …

11 machine-learning methodology theory

4

Чи відрізняється Пророк від Facebook від лінійної регресії?

Тож, що я читав про пророка Facebook, це те, що він в основному розбиває часові ряди на тренди та сезонність. Наприклад, модель добавки буде записана у вигляді: у( t ) = g( t ) + s ( t ) + h ( t ) + eту(т)=г(т)+с(т)+год(т)+ет y(t) = g(t) + …

11 regression machine-learning time-series prophet

1

Чому неправильно трактувати SVM як ймовірність класифікації?

Я розумію, що SVM полягає в тому, що він дуже схожий на логістичну регресію (LR), тобто зважена сума ознак передається сигмоїдної функції, щоб отримати ймовірність приналежності до класу, але замість перехресної ентропії (логістичної) втрати функція, тренування виконується за допомогою втрати шарніра. Перевага використання втрати шарніру полягає в тому, що можна …

11 machine-learning logistic svm

1

R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?

У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Техніка машинного навчання для вивчення строкових моделей

У мене є список слів, що належать до різних самовизначених категорій. Кожна категорія має свій рисунок (наприклад, одна має фіксовану довжину зі спеціальними символами, інша існує символами, які зустрічаються лише в цій категорії "слово", ...). Наприклад: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 …

11 machine-learning classification similarities supervised-learning

2

Що розуміється під дисперсією * функцій * в * Вступ до статистичного навчання *?

На пг. 34 Введення в статистичне навчання : \newcommand{\Var}{{\rm Var}} Хоча математичне доказ виходить за рамки даної книги, можна показати , що очікуваний тест MSE для заданого значення , завжди можна розкласти на суму три основних величин: дисперсія в , квадрат зміщення з і дисперсія членів помилки . Це є,х0x0x_0f^( …

11 machine-learning variance

1

Навчання ансамблю: Чому ефективна укладання моделей?

Останнім часом мене зацікавило складання моделей як форми ансамблевого навчання. Зокрема, я трохи експериментував з деякими наборами даних про іграшки для проблем з регресією. Я в основному реалізував індивідуальні регресори "рівня 0", зберігав прогнози виходу кожного регресора як нову функцію для "метарегресора", який можна взяти за свій внесок, і прилаштував …

11 machine-learning ensemble stacking

2

Як пов’язані фільтри та карти активації в конволюційних нейронних мережах?

Як карти активації на даному шарі підключені до фільтрів для цього шару? Я не запитую про те, як зробити згорнуту операцію між фільтром і картою активації, я запитую про тип підключення цих двох. Наприклад, скажіть, що ви хотіли зробити повний зв’язок. У вас є f кількість фільтрів і n кількість …

11 machine-learning deep-learning conv-neural-network

2

Як тренувати SVM за допомогою зворотного розповсюдження?

Мені було цікаво, чи можна тренувати SVM (скажімо, лінійний, щоб полегшити справи) за допомогою зворотного розповсюдження? Наразі я перебуваю на дорозі, тому що можу думати лише про те, як записати вихід класифікатора як f( x ; θ , b ) = sgn ( θ ⋅ x - ( b + …

11 machine-learning neural-networks svm gradient-descent backpropagation

1

Функція втрати біноміального відхилення Scikit

Це функція втрати біноміального відхилення від scikit GradientBoosting, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() …

11 machine-learning scikit-learn boosting loss-functions

3

Чи може нейронна мережа засвоїти функціонал та його функціональну похідну?

Я розумію, що нейронні мережі (NN) можна вважати універсальними наближеннями як до функцій, так і до їх похідних, за певних припущень (як для мережі, так і для функції наближення). Насправді я зробив ряд тестів на простих, але нетривіальних функціях (наприклад, поліномах), і, схоже, я можу дійсно добре наблизити їх та …

11 machine-learning neural-networks function derivative

1

Чи можна використовувати ReLU в автоенкодері як функцію активації?

Під час реалізації автокодера з нейронною мережею більшість людей використовуватиме сигмоїд як функцію активації. Чи можемо ми використовувати замість ReLU? (Оскільки ReLU не має обмежень на верхній межі, в основному означає, що вхідне зображення може мати піксель більше 1, на відміну від обмежених критеріїв для автокодера, коли використовується сигмоїд).

11 machine-learning neural-networks deep-learning autoencoders

2

Питання про суцільну сумку слів

У мене виникають проблеми з розумінням цього речення: Перша запропонована архітектура схожа на подачу NNLM, де нелінійний прихований шар видаляється і проекційний шар ділиться на всі слова (не тільки проекційну матрицю); таким чином, усі слова проектуються в одне і те ж положення (їхні вектори усереднюються). Що таке шар проекції проти …

11 machine-learning neural-networks natural-language word-embeddings language-models

2

Чому Adaboost з деревами рішень?

Я читав трохи про алгоритми підсилення для класифікаційних завдань і зокрема Adaboost. Я розумію, що метою Adaboost є прийняття декількох "слабких учнів" і через набір ітерацій щодо даних про навчання підштовхують класифікаторів навчитися прогнозувати класи, на яких модель (и) неодноразово помиляються. Однак мені було цікаво, чому так багато прочитаних нами …

11 machine-learning classification algorithms boosting

2

Що таке розподіл коефіцієнтів журналу?

Я читаю підручник з машинного навчання (Data Mining від Witten, et al., 2011) і натрапив на цей уривок: ... Більше того, можна використовувати різні дистрибутиви. Хоча звичайний розподіл зазвичай є хорошим вибором для числових атрибутів, він не підходить для атрибутів, які мають заздалегідь визначений мінімум, але не мають верхньої межі; …

11 machine-learning distributions

Запитання з тегом «machine-learning»