Запитання з тегом «classification»

Статистична класифікація - це проблема ідентифікації підгрупи, до якої належать нові спостереження, де ідентичність підгрупи невідома, на основі навчального набору даних, що містять спостереження, субпопуляція яких відома. Тому ці класифікації показуватимуть змінну поведінку, яку можна вивчити статистикою.

1
Зменшення кількості рівнів невпорядкованої категоричної змінної предиктора
Я хочу навчити класифікатор, скажімо, SVM, або випадковий ліс, або будь-який інший класифікатор. Однією з особливостей у наборі даних є категоріальна змінна з 1000 рівнями. Який найкращий спосіб зменшити кількість рівнів у цій змінній. У R є функція, що називається combine.levels()в пакеті Hmisc , яка поєднує в собі нечасті рівні, …

2
Як зрозуміти згорнуту мережу глибоких переконань для аудіо класифікації?
У « Конволюційних мережах глибоких переконань для масштабованого без нагляду вивчення ієрархічних уявлень » Лі та ін. al. ( PDF ) Запропоновано згортки DBN. Також метод оцінюється для класифікації зображень. Це звучить логічно, оскільки існують природні локальні особливості зображення, такі як невеликі кути та краї тощо. У статті " Непідконтрольне …


1
R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?
У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
Техніка машинного навчання для вивчення строкових моделей
У мене є список слів, що належать до різних самовизначених категорій. Кожна категорія має свій рисунок (наприклад, одна має фіксовану довжину зі спеціальними символами, інша існує символами, які зустрічаються лише в цій категорії "слово", ...). Наприклад: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 …

3
Класифікатор з регульованою точністю та відкликанням
Я працюю над проблемою бінарної класифікації, де набагато важливіше не мати помилкових позитивів; досить багато помилкових негативів - це нормально. Наприклад, я використовував купу класифікаторів у sklearn, але я думаю, що жоден з них не має можливості чітко регулювати компроміс з точністю нагадування (вони дають досить хороші результати, але не …

2
Чому Adaboost з деревами рішень?
Я читав трохи про алгоритми підсилення для класифікаційних завдань і зокрема Adaboost. Я розумію, що метою Adaboost є прийняття декількох "слабких учнів" і через набір ітерацій щодо даних про навчання підштовхують класифікаторів навчитися прогнозувати класи, на яких модель (и) неодноразово помиляються. Однак мені було цікаво, чому так багато прочитаних нами …

3
Що таке хороший AUC для кривої точності відкликання?
Оскільки у мене дуже незбалансований набір даних (9% позитивних результатів), я вирішив, що крива точності відкликання була більш підходящою, ніж крива ROC. Я отримав аналогічну підсумкову оцінку площі під кривою PR (.49, якщо вас цікавить), але не знаю, як її інтерпретувати. Я чув, що .8 або вище - це хороший …

1
Плюси дистанції Джефріса Матусіта
Згідно з деякою книгою, яку я читаю, зазвичай використовується дистанція Джефріса та Матусіти. Але я не зміг знайти багато інформації про нього, окрім наведеної нижче формули JMD (x, y) = ∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Він схожий на евклідову відстань за винятком квадратного кореня E (x, y) = ∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} Вважається, що відстань JM є …

1
Як ми прогнозуємо рідкісні події?
Я працюю над розробкою моделі прогнозування страхового ризику. Ці моделі є "рідкісними подіями", такими як прогнозування несанкціонованого обслуговування авіакомпанії, виявлення несправностей в апараті тощо. Під час підготовки набору даних я намагався застосувати класифікацію, але не зміг отримати корисні класифікатори через велику частку негативних випадків . Я не маю багато досвіду …

1
Як вибрати ймовірність відсічення для рідкісної події Логістична регресія
У мене 100 000 спостережень (9 фіктивних змінних показників) з 1000 позитивних. Логістична регресія повинна спрацьовувати нормально в цьому випадку, але ймовірність відсічення мене спантеличує. У загальній літературі ми обираємо 50% відсікання для прогнозування 1 і 0. Я не можу цього зробити, оскільки моя модель дає максимальне значення ~ 1%. …

3
Перший головний компонент не розділяє класи, але це роблять інші ПК; як це можливо?
Я запустив PCA на 17 кількісних змінних, щоб отримати менший набір змінних, що є основними компонентами, які будуть використовуватися в контрольованому машинному навчанні для класифікації примірників на два класи. Після PCA на PC1 припадає 31% дисперсії даних, PC2 - 17%, PC3 - 10%, PC4 - 8%, PC5 - 7%, а …

4
Класифікатор для міток невизначених класів
Скажімо, у мене набір примірників із пов’язаними мітками класів. Не важливо, як ці екземпляри були позначені, а наскільки певна їхня класність. Кожен екземпляр належить рівно одному класу. Скажімо, я можу кількісно оцінити визначеність кожного членства у класі за номінальним атрибутом, який переходить від 1 до 3 (дуже певний до невизначеного …

1
Мотивація за кроками випадкових лісових алгоритмів
Метод, який я знайомий для побудови випадкового лісу, полягає в наступному: (від http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Щоб побудувати дерево в лісі: Завантажте зразок розміру N, де N - розмір нашого навчального набору. Використовуйте цей зразок завантаження як навчальний набір для цього дерева. На кожному вузлі дерева випадковим чином виберіть m наших M …

1
Оцінка класифікаторів: криві навчання та криві ROC
Я хотів би порівняти два різних класифікатори для проблеми класифікації багатокласового тексту, які використовують великі набори навчальних даних. Я сумніваюся, чи варто використовувати криві ROC або криві навчання для порівняння двох класифікаторів. З одного боку, криві навчання корисні для визначення розміру навчального набору даних, оскільки ви можете знайти розмір набору …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.