Запитання з тегом «classification»

Статистична класифікація - це проблема ідентифікації підгрупи, до якої належать нові спостереження, де ідентичність підгрупи невідома, на основі навчального набору даних, що містять спостереження, субпопуляція яких відома. Тому ці класифікації показуватимуть змінну поведінку, яку можна вивчити статистикою.

4
Чи є AUC вірогідною коректною класифікацією випадково вибраного екземпляра від кожного класу?
Я читав цей підпис у папері і ніколи більше не бачив AUC, описаного таким чином. Це правда? Чи є доказ чи простий спосіб це побачити? На рис. 2 показана точність прогнозування дихотомічних змінних, виражена у частині площі під кривою функціонування приймача (AUC), що еквівалентно ймовірності правильного класифікації двох випадково вибраних …

2
Чи f-міра є синонімом точності?
Я розумію, що f-міра (заснована на точності та відкликання) - це оцінка того, наскільки точним є класифікатор. Крім того, f-міра віддається перевазі точності, коли у нас є неврівноважений набір даних. У мене просте запитання (яке стосується скоріше використання правильної термінології, ніж щодо технології). У мене незбалансований набір даних і я …

5
Чому варто уникати binning за будь-яку ціну?
Тому я прочитав кілька дописів про те, чому слід уникати binning завжди . Популярна посилання на цю заяву - це посилання . Головне, що точки поповнення (або точки відрізку) є досить довільними, а також втрата інформації, що виникає, і що слід віддати перевагу сплайнам. Однак зараз я працюю з API …

3
Коли ви використовуєте PCA, а не LDA в класифікації?
Я читаю цю статтю про різницю між принциповим аналізом компонентів та множинним дискримінантним аналізом (лінійний дискримінантний аналіз), і я намагаюся зрозуміти, чому ви коли-небудь використовуватимете PCA, а не MDA / LDA. Пояснення узагальнено наступним чином: грубо кажучи, в PCA ми намагаємося знайти осі з максимальними відхиленнями, де дані найбільш розповсюджені …

1
Чи нейронні мережі зазвичай потребують певного часу, щоб "піднятися" під час тренувань?
Я намагаюся навчити глибоку нейронну мережу для класифікації, використовуючи зворотне поширення. Зокрема, я використовую звивисту нейронну мережу для класифікації зображень, використовуючи бібліотеку потоків тензорів. Під час тренувань я відчуваю якусь дивну поведінку, і мені просто цікаво, чи це типово, чи я можу робити щось не так. Отже, моя конволюційна нейронна …

3
Випадки використання RBF SVM (проти логістичної регресії та випадкового лісу)
Підтримка векторних машин з радіально-базовим функціональним ядром є класифікатором, що контролюється загальним призначенням. Хоча я знаю теоретичні основи цих СВМ та їхніх сильних моментів, я не знаю випадків, коли вони є кращим методом. Отже, чи існує клас проблем, за допомогою яких RBF SVM перевершує інші методи ML? (Або з точки …

4
Переобладнання лінійних класифікаторів
Сьогодні наш професор на уроці заявив, що "переобладнати лінійними класифікаторами неможливо". Я вважаю, що це неправильно, оскільки навіть лінійні класифікатори можуть бути чутливими до людей, що перебувають у навчальному наборі - візьмімо, наприклад, жорсткий запас підтримки Vector Machine: Один єдиний шумний точок даних може змінити, який гіперплан буде використовуватися для …

2
Застосування PCA для тестування даних для цілей класифікації
Нещодавно я дізнався про чудовий PCA і зробив приклад, викладений у документації scikit-learn . Мені цікаво знати, як я можу застосувати PCA до нових точок даних для цілей класифікації. Після візуалізації PCA у двовимірній площині (вісь x, y) я бачу, що, ймовірно, можу провести лінію для розділення точок даних, щоб …

1
Криві ROC для незбалансованих наборів даних
Розглянемо вхідну матрицю та двійковий вихід .XXXyyy Поширений спосіб вимірювання продуктивності класифікатора - використання кривих ROC. У діаграмі ROC діагональ - це результат, який був би отриманий від випадкового класифікатора. У разі незбалансованого виводу продуктивність випадкового класифікатора можна покращити, вибравши або з різними ймовірностями.yyy000111 Як можна представити продуктивність такого класифікатора …

2
Як змінити поріг класифікації у R randomForests?
Вся література з моделювання розподілу видів передбачає, що при прогнозуванні присутності / відсутності виду за допомогою моделі, яка видає ймовірності (наприклад, RandomForests), важливим є вибір порогової ймовірності, за якою фактично класифікувати вид як наявність чи відсутність, і слід не завжди покладаються на дефолт 0,5. Мені потрібна допомога з цим! Ось …

3
Як візуалізувати байєсовську користь пристосованості для логістичної регресії
Для проблеми байєсівської логістичної регресії я створив задній прогнозний розподіл. Я беру вибірку з прогнозного розподілу і отримую тисячі зразків (0,1) за кожне маю спостереження. Візуалізація корисності придатності є менш ніж цікавою, наприклад: Цей сюжет показує 10 000 зразків + спостережна точка даної точки (шлях зліва може виділити червону лінію: …

1
Чому Anova () та drop1 () надали різні відповіді для GLMM?
У мене є GLMM форми: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Під час використання drop1(model, test="Chi")я отримую інші результати, ніж якщо я використовую Anova(model, type="III")з автомобільного пакета або summary(model). Ці два останні дають однакові відповіді. Використовуючи купу сфабрикованих даних, я виявив, що …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
Звідки взявся термін «вивчити модель»
Часто я чув, як шахтарі даних тут використовують цей термін. Як статистик, який працював над проблемами класифікації, я знайомий з терміном "навчити класифікатора", і я припускаю, що "вивчити модель" означає те саме. Я не проти терміна "тренуйте класифікатора". Це, здається, відображає ідею підгонки моделі, оскільки навчальні дані використовуються для отримання …

1
Про кофенетичну кореляцію кластеризації дендрограм
Розглянемо контекст кластеризації дендрограм. Назвемо оригінальні відмінності відстаней між особинами. Після побудови дендрограми ми визначаємо кофенетичну різницю між двома особинами як відстань між кластерами, до яких ці особи належать. Деякі люди вважають, що кореляція між вихідними відмінностями та кофенетичними відмінностями (звана кофенетичною кореляцією ) є "показником придатності" класифікації. Це звучить …

3
Як порівняти точність двох різних моделей, використовуючи статистичну значимість
Я працюю над прогнозуванням часових рядів. У мене є два набори даних і . У мене є три моделі прогнозування: . Усі ці моделі навчаються за допомогою зразків у наборі даних , а їх продуктивність вимірюється за допомогою зразків у наборі даних . Скажімо, показники ефективності - MSE (або що-небудь …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.