Статистика та великі дані machine-learning

1

Класифікатор проти моделі проти оцінювача

Чим відрізняється класифікатор, модель та оцінювач? З чого я можу сказати: Оцінювач - це предиктор, знайдений з алгоритму регресії класифікатор - це предиктор, знайдений з алгоритму класифікації модель може бути як оцінювачем, так і класифікатором Але з погляду в Інтернеті, здається, що у мене можуть бути змішані ці визначення. Отже, …

15 machine-learning

1

Чи сума двох дерев рішень рівнозначна одному дереву рішень?

Припустимо , що ми маємо два регресійних дерев (Дерево і дерево B) , що відображення вхідних для виведення у ∈ R . Нехай у = е А ( х ) для дерева A і F B ( х ) для дерева B. Кожного дерева використовує двійковий шпагат, з гіперплоскостямі як …

15 regression machine-learning cart

3

Чи можу я використовувати крихітний набір перевірки?

Я розумію міркування щодо розділення даних на тестовий набір і набір перевірки. Я також розумію, що розмір розбиття буде залежати від ситуації, але, як правило, коливатиметься від 50/50 до 90/10. Я побудував RNN, щоб виправити написання і почати з набору даних ~ 5м речень. Я голю 500k речень, а потім …

15 machine-learning neural-networks validation

2

Який хороший метод кластеризації короткого тексту?

Я працюю над проблемою кластеризації тексту. Дані містять кілька пропозицій. Чи є хороший алгоритм, який досягає високої точності на короткому тексті? Чи можете ви надати хороші довідки? Такі алгоритми, як KMeans, спектральна кластеризація не дуже добре справляються з цією проблемою.

15 machine-learning clustering text-mining

2

Чому Максимізація очікування важлива для моделей сумішей?

Існує багато літератури, що підкреслюють метод максимізації очікування на моделях сумішей (суміш Гауссова, модель прихованого Маркова тощо). Чому ЕМ важлива? ЕМ - це лише спосіб оптимізації і не використовується широко як градієнтний метод (метод градієнта пристойний або метод ньютона / квазі-ньютона) або інший метод без градієнтів, обговорений ТУТ . Крім …

15 machine-learning optimization expectation-maximization gaussian-mixture

5

Чи це обман для того, щоб скинути авангардистів на основі осередкової середньої абсолютної помилки для вдосконалення регресійної моделі

У мене є модель прогнозування, протестована чотирма методами, як ви бачите на малюнку boxplot нижче. Атрибут, який передбачає модель, знаходиться в межах 0-8. Ви можете помітити, що існує одна верхня межа та три нижньої межі, що вказана усіма методами. Цікаво, чи доцільно видалити ці дані з даних? Або це свого …

15 regression machine-learning multiple-regression predictive-models outliers

4

Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій

Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

Які хороші запитання щодо інтерв'ю для кандидатів у розробники статистичних алгоритмів?

Я опитую людей на посаді розробника / дослідника алгоритмів у контексті статистики / машинного навчання / обміну даними. Я шукаю запитання, щоб визначити, зокрема, ознайомлення кандидата та розуміння його плинності з базовою теорією, наприклад, основними властивостями очікування та відмінності, деякими загальними розподілами тощо. Моє сьогоднішнє запитання: "Існує невідома величина яку …

15 machine-learning probability distributions

2

Що означає теорія навчання PAC?

Я новачок у машинному навчанні. Я вивчаю курс машинного навчання (Стенфордський університет) і не зрозумів, що означає ця теорія і в чому її корисність. Мені цікаво, чи міг би хтось детально розказати цю теорію для мене. Ця теорія заснована на цьому рівнянні.

15 machine-learning probability pac-learning

3

Як згладжується Кнайсер-Ней, як обробляються невидимі слова?

З того, що я бачив, формула згладжування (другого порядку) Кнайзера-Нея так чи інакше подається як P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} з нормуючим коефіцієнтом λ(wn−1)λ(wn−1)\lambda(w_{n-1}) заданим як λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} і …

15 machine-learning natural-language naive-bayes smoothing language-models

3

Пропозиції щодо чутливого до навчання часу в умовах сильно незбалансованого середовища

У мене є набір даних з кількома мільйонами рядків і ~ 100 стовпців. Я хотів би виявити близько 1% прикладів у наборі даних, які належать до загального класу. У мене мінімальне обмеження точності, але через дуже асиметричну вартість я не надто захоплююсь будь-яким особливим відкликанням (до тих пір, поки мені …

15 machine-learning classification unbalanced-classes precision-recall

1

Тезаурус для статистики та термінів машинного навчання

Чи існує довідковий тезаурус для статистики та термінів машинного навчання? Я знаю, що статті Вікіпедії часто містять синоніми, але я хотів би мати простий тезаурус, який я міг би легко пройти (проти повної енциклопедії), щоб переконатися, що знаю всі жаргони.

15 machine-learning terminology

1

Яка інтуїція за обмінними зразками під нульовою гіпотезою?

Перестановочні тести (також називаються тестом рандомизації, тестом на повторну рандомізацію або точним тестом) дуже корисні і корисні, коли припущення про нормальний розподіл, необхідне, наприклад, t-testне виконується, і при перетворенні значень за ранжуванням непараметричний тест, як-от Mann-Whitney-U-test, призведе до втрати більше інформації. Однак одне і єдине припущення не слід оминути увагою …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

Значення термінів виводу в пакеті gbm?

Я використовую пакет gbm для класифікації. Як і очікувалося, результати хороші. Але я намагаюся зрозуміти вихід класифікатора. У виході є п'ять термінів. `Iter TrainDeviance ValidDeviance StepSize Improve` Хто-небудь може пояснити значення кожного терміна, особливо значення вдосконалення .

15 r machine-learning

3

Що таке змішування даних?

Цей термін часто з’являється у потоках, пов’язаних із методом . Чи поєднуються конкретний метод у вивченні даних та статистичному навчанні? Я не можу отримати релевантний результат від google. Здається, суміш поєднує результати багатьох моделей і призводить до кращого результату. Чи є якийсь ресурс, який допомагає мені більше знати про це?

15 machine-learning data-mining unsupervised-learning statistical-learning

Запитання з тегом «machine-learning»