Статистика та великі дані classification

1

Зменшення кількості рівнів невпорядкованої категоричної змінної предиктора

Я хочу навчити класифікатор, скажімо, SVM, або випадковий ліс, або будь-який інший класифікатор. Однією з особливостей у наборі даних є категоріальна змінна з 1000 рівнями. Який найкращий спосіб зменшити кількість рівнів у цій змінній. У R є функція, що називається combine.levels()в пакеті Hmisc , яка поєднує в собі нечасті рівні, …

11 classification svm random-forest many-categories

2

Як зрозуміти згорнуту мережу глибоких переконань для аудіо класифікації?

У « Конволюційних мережах глибоких переконань для масштабованого без нагляду вивчення ієрархічних уявлень » Лі та ін. al. ( PDF ) Запропоновано згортки DBN. Також метод оцінюється для класифікації зображень. Це звучить логічно, оскільки існують природні локальні особливості зображення, такі як невеликі кути та краї тощо. У статті " Непідконтрольне …

11 classification unsupervised-learning intuition deep-belief-networks

3

Чому нам потрібно встановити k-найближчий класифікатор сусідів?

Як я зрозумів, k-NN - алгоритм ледачого учня, і йому не потрібен етап навчання. То чому нам потрібно використовувати .fit()склеарн і що відбувається, коли ми його використовуємо?

11 classification scikit-learn k-nearest-neighbour

1

R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?

У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Техніка машинного навчання для вивчення строкових моделей

У мене є список слів, що належать до різних самовизначених категорій. Кожна категорія має свій рисунок (наприклад, одна має фіксовану довжину зі спеціальними символами, інша існує символами, які зустрічаються лише в цій категорії "слово", ...). Наприклад: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 …

11 machine-learning classification similarities supervised-learning

3

Класифікатор з регульованою точністю та відкликанням

Я працюю над проблемою бінарної класифікації, де набагато важливіше не мати помилкових позитивів; досить багато помилкових негативів - це нормально. Наприклад, я використовував купу класифікаторів у sklearn, але я думаю, що жоден з них не має можливості чітко регулювати компроміс з точністю нагадування (вони дають досить хороші результати, але не …

11 classification precision-recall

2

Чому Adaboost з деревами рішень?

Я читав трохи про алгоритми підсилення для класифікаційних завдань і зокрема Adaboost. Я розумію, що метою Adaboost є прийняття декількох "слабких учнів" і через набір ітерацій щодо даних про навчання підштовхують класифікаторів навчитися прогнозувати класи, на яких модель (и) неодноразово помиляються. Однак мені було цікаво, чому так багато прочитаних нами …

11 machine-learning classification algorithms boosting

3

Що таке хороший AUC для кривої точності відкликання?

Оскільки у мене дуже незбалансований набір даних (9% позитивних результатів), я вирішив, що крива точності відкликання була більш підходящою, ніж крива ROC. Я отримав аналогічну підсумкову оцінку площі під кривою PR (.49, якщо вас цікавить), але не знаю, як її інтерпретувати. Я чув, що .8 або вище - це хороший …

11 classification precision-recall auc

1

Плюси дистанції Джефріса Матусіта

Згідно з деякою книгою, яку я читаю, зазвичай використовується дистанція Джефріса та Матусіти. Але я не зміг знайти багато інформації про нього, окрім наведеної нижче формули JMD (x, y) = ∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Він схожий на евклідову відстань за винятком квадратного кореня E (x, y) = ∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} Вважається, що відстань JM є …

11 classification k-nearest-neighbour euclidean

1

Як ми прогнозуємо рідкісні події?

Я працюю над розробкою моделі прогнозування страхового ризику. Ці моделі є "рідкісними подіями", такими як прогнозування несанкціонованого обслуговування авіакомпанії, виявлення несправностей в апараті тощо. Під час підготовки набору даних я намагався застосувати класифікацію, але не зміг отримати корисні класифікатори через велику частку негативних випадків . Я не маю багато досвіду …

11 classification predictive-models scikit-learn poisson-process

1

Як вибрати ймовірність відсічення для рідкісної події Логістична регресія

У мене 100 000 спостережень (9 фіктивних змінних показників) з 1000 позитивних. Логістична регресія повинна спрацьовувати нормально в цьому випадку, але ймовірність відсічення мене спантеличує. У загальній літературі ми обираємо 50% відсікання для прогнозування 1 і 0. Я не можу цього зробити, оскільки моя модель дає максимальне значення ~ 1%. …

11 regression logistic classification generalized-linear-model roc

3

Перший головний компонент не розділяє класи, але це роблять інші ПК; як це можливо?

Я запустив PCA на 17 кількісних змінних, щоб отримати менший набір змінних, що є основними компонентами, які будуть використовуватися в контрольованому машинному навчанні для класифікації примірників на два класи. Після PCA на PC1 припадає 31% дисперсії даних, PC2 - 17%, PC3 - 10%, PC4 - 8%, PC5 - 7%, а …

11 machine-learning classification pca dimensionality-reduction

4

Класифікатор для міток невизначених класів

Скажімо, у мене набір примірників із пов’язаними мітками класів. Не важливо, як ці екземпляри були позначені, а наскільки певна їхня класність. Кожен екземпляр належить рівно одному класу. Скажімо, я можу кількісно оцінити визначеність кожного членства у класі за номінальним атрибутом, який переходить від 1 до 3 (дуже певний до невизначеного …

11 classification weka uncertainty

1

Мотивація за кроками випадкових лісових алгоритмів

Метод, який я знайомий для побудови випадкового лісу, полягає в наступному: (від http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Щоб побудувати дерево в лісі: Завантажте зразок розміру N, де N - розмір нашого навчального набору. Використовуйте цей зразок завантаження як навчальний набір для цього дерева. На кожному вузлі дерева випадковим чином виберіть m наших M …

11 machine-learning classification random-forest

1

Оцінка класифікаторів: криві навчання та криві ROC

Я хотів би порівняти два різних класифікатори для проблеми класифікації багатокласового тексту, які використовують великі набори навчальних даних. Я сумніваюся, чи варто використовувати криві ROC або криві навчання для порівняння двох класифікаторів. З одного боку, криві навчання корисні для визначення розміру навчального набору даних, оскільки ви можете знайти розмір набору …

11 machine-learning classification roc accuracy

Запитання з тегом «classification»