Запитання з тегом «classification»

Статистична класифікація - це проблема ідентифікації підгрупи, до якої належать нові спостереження, де ідентичність підгрупи невідома, на основі навчального набору даних, що містять спостереження, субпопуляція яких відома. Тому ці класифікації показуватимуть змінну поведінку, яку можна вивчити статистикою.


1
Стандартизація функцій при використанні LDA як етапу попередньої обробки
Якщо багатокласний лінійний дискримінантний аналіз (або я також іноді читаю множинний дискримінантний аналіз) використовується для зменшення розмірності (або перетворення після зменшення розмірності за допомогою PCA), я розумію, що в цілому "нормалізація Z-балів" (або стандартизація) функції не будуть потрібні, навіть якщо вони вимірюються на абсолютно різних масштабах, правда? Оскільки LDA містить …

1
Поріг класифікації у RandomForest-sklearn
1) Як я можу змінити поріг класифікації (я думаю, це 0,5 за замовчуванням) у RandomForest у sklearn? 2) як я можу зробити недостатню вибірку в sklearn? 3) У мене є такий результат класифікатора RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 …

3
Логістична регресія: максимізація справжніх позитивних результатів - помилкових позитивних результатів
У мене є логістична регресійна модель (підходить через glmnet в R з регулюванням пружної сітки), і я хотів би максимально розрізнити між справжніми позитивними та помилковими позитивами. Для цього було придумано наступну процедуру: Підходить стандартна модель логістичної регресії Використовуючи поріг прогнозування як 0,5, визначте всі позитивні прогнози Призначте вагу 1 …

2
Міра продуктивності класифікатора, що поєднує чутливість та специфічність?
У мене є дані з 2-класовим маркуванням, за якими я здійснюю класифікацію, використовуючи кілька класифікаторів. А набори даних добре збалансовані. Оцінюючи ефективність класифікаторів, я повинен враховувати, наскільки точний класифікатор у визначенні не тільки справжніх позитивних, але й справжніх негативів. Тому, якщо я буду використовувати точність, і якщо класифікатор схильний до …

5
Як виміряти ефективність класифікатора, коли близько 100% міток класу належать одному класу?
У моїх даних, у мене є змінна класу, позначена як . Значення змінної цього класу становлять (двійкові). Практично всі спостереження мають 0 (близько 100%, точніше, 97%). Мені б хотілося "тестування" продуктивності на різних моделях класифікації (це може бути точність). Мені страшно траплятися, що якщо у мене є класифікаційна модель, яка …

3
LDA проти персептрон
Я намагаюся зрозуміти, як ЛДА «вписується» в інші контрольовані методи навчання. Я вже читав тут деякі з LDA-есків про LDA. Я вже знайомий з перцептроном, але зараз лише вивчаю LDA. Як LDA «вписується» в сімейство алгоритмів навчання під контролем? Які можуть бути його недоліки в порівнянні з іншими методами, і …

2
Яке ядро ​​SVM використовувати для проблеми бінарної класифікації?
Я початківець, коли мова йде про підтримку векторних машин. Чи є якісь вказівки, які говорять, яке ядро ​​(наприклад, лінійне, поліноміальне) найкраще підходить для конкретної проблеми? У моєму випадку я повинен класифікувати веб-сторінки відповідно до того, містять вони якусь конкретну інформацію чи ні, тобто у мене є проблема бінарної класифікації. Чи …


2
Навчання за реляційними даними
Налаштування Багато алгоритмів працюють на одному відношенні або таблиці, в той час як багато реальних баз даних зберігають інформацію в декількох таблицях (Domingos, 2003). Запитання Які види алгоритмів добре навчаються з декількох (реляційних) таблиць. Зокрема, мене цікавлять алгоритми, застосовні до задач регресії та класифікації (не орієнтовані на мережевий аналіз, наприклад, …

1
Як порівняти спостережувані та очікувані події?
Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
Класифікація з одним домінуючим предиктором
Я маю (ккk-класова) класифікаційна проблема з набором 100 реальних оцінок прогнозів, один з яких, здається, має набагато більше пояснювальної сили, ніж будь-який з інших. Я хотів би детальніше познайомитися з ефектами інших змінних. Однак, стандартні методи машинного навчання (випадкові ліси, SVM та ін.), Схоже, переповнюються одним сильним передбачувачем і не …

2
Видаліть дублікати з навчального набору для класифікації
Скажімо, у мене є ряд рядків для проблеми класифікації: Х1, . . .ХN, YХ1,...ХN,YX_1, ... X_N, Y Де Х1, . . . ,ХNХ1,...,ХNX_1, ..., X_N є ознаками / провісниками та YYY - клас, до якого належить поєднання функцій рядка. Багато комбінацій функцій та їх класи повторюються в наборі даних, який …

2
Найсучасніший метод (и) для пошуку нульових середніх частин часового ряду
У мене є шумні часові ряди, які мені потрібно сегментувати на ті ділянки з нульовою середньою, а ті ділянки без нульового середнього. Важливо знайти межі якомога точніше (чітко, де межа точно лежить, трохи суб'єктивно). Я думаю, що варіант кузуму може бути пристосований для цього, але оскільки в основному йдеться про …

4
Як здійснити декілька пост-хо-хі-квадратних тестів на таблиці 2 X 3?
Мій набір даних складається із загальної смертності чи виживання організму на трьох типах ділянок, прибережних, середніх каналів та офшорних. Цифри в таблиці нижче представляють кількість сайтів. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Мені хотілося б дізнатися, чи кількість сайтів, де 100% смертність сталася, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.