Запитання з тегом «classification»

Статистична класифікація - це проблема ідентифікації підгрупи, до якої належать нові спостереження, де ідентичність підгрупи невідома, на основі навчального набору даних, що містять спостереження, субпопуляція яких відома. Тому ці класифікації показуватимуть змінну поведінку, яку можна вивчити статистикою.

3
Чому наївні байєсівські класифікатори так добре працюють?
Класифікатори Naive Bayes - популярний вибір для класифікаційних проблем. Є багато причин для цього, зокрема: "Zeitgeist" - широке усвідомлення після успіху спам-фільтрів близько десяти років тому Легко писати Модель класифікатора швидко будується Модель можна модифікувати новими навчальними даними без необхідності її перебудови Однак вони "наївні" - тобто вони вважають, що …

2
ImageNet: що таке коефіцієнт помилок топ-1 та топ-5?
У класифікаційних роботах ImageNet коефіцієнт помилок топ-1 та топ-5 є важливими одиницями для вимірювання успішності деяких рішень, але які показники помилок? У класифікації ImageNet з глибокими згортковими нейронними мережами Крижевського та ін. кожне рішення, засноване на одній єдиній CNN (стор. 7), не має кращих 5 помилок, тоді як у тих, …

3
Застосовуйте вбудовування слів до всього документа, щоб отримати вектор функції
Як я можу використовувати вбудовуване слово для зіставлення документа на функціональний вектор, придатний для використання під контролем навчання? Слово вкладення відображає кожне слово до вектору , де деякі не дуже велика кількість (наприклад, 500). Популярні вбудовані слова включають word2vec та Glove .шшwv ∈ Rгv∈Rгv \in \mathbb{R}^dггd Я хочу застосувати контрольоване …

6
Удосконалити класифікацію за допомогою багатьох категоричних змінних
Я працюю над набором даних з 200 000+ зразків і приблизно 50 особливостей на вибірку: 10 безперервних змінних, а інші ~ 40 - категоричні змінні (країни, мови, наукові галузі тощо). Для цих категоричних змінних у вас є, наприклад, 150 різних країн, 50 мов, 50 наукових галузей тощо ... Поки мій …

3
SVM, Overfitting, прокляття розмірності
Мій набір даних невеликий (120 зразків), проте кількість функцій велика варіюється від (1000-200 000). Хоча я роблю підбір функцій, щоб вибрати підмножину функцій, це все одно може бути надмірним. Перше моє запитання - як SVM справляється із переозброєнням, якщо взагалі. По-друге, коли я детальніше вивчаю питання про перевиконання у випадку …

2
Логістична регресія проти LDA як двокласні класифікатори
Я намагаюся обернути голову навколо статистичної різниці між лінійним дискримінантним аналізом та логістичною регресією . Чи правильно я розумію, що для задачі класифікації двох класів LDA прогнозує дві функції нормальної щільності (по одній для кожного класу), яка створює лінійну межу, де вони перетинаються, тоді як логістична регресія лише передбачає функцію …

3
PCA і поїзд / тест розділилися
У мене є набір даних, для якого у мене є кілька наборів двійкових міток. Для кожного набору міток я готую класифікатор, оцінюючи його за допомогою перехресної перевірки. Я хочу зменшити розмірність за допомогою аналізу основних компонентів (PCA). Моє запитання: Чи можливо зробити PCA один раз для всього набору даних, а …

3
Як інтерпретувати OOB та матрицю плутанини для випадкових лісів?
Я отримав сценарій R від когось, щоб запустити випадкову лісову модель. Я змінив і запустив його з деякими даними про співробітників. Ми намагаємось передбачити добровільні розлуки. Ось додаткова інформація: це класифікаційна модель: 0 = перебування працівника, 1 = працівник припинено, зараз ми дивимося лише на десяток змінних прогнозів, дані "незбалансовані", …

5
Безкоштовний набір даних для дуже високої розмірної класифікації [закрито]
Що таке вільно доступний набір даних для класифікації з більш ніж 1000 ознаками (або зразкові точки, якщо вони містять криві)? Вже існує спільнота вікі про безкоштовні набори даних: Розміщення вільно доступних зразків даних Але тут було б непогано мати більш цілеспрямований список, який можна зручніше використовувати , також я пропоную …

3
Чому t-SNE не використовується як метод зменшення розмірності для кластеризації чи класифікації?
У недавньому призначенні нам сказали використовувати PCA на цифрах MNIST, щоб зменшити розміри з 64 (8 x 8 зображень) до 2. Потім нам довелося кластеризувати цифри за допомогою Гауссової моделі суміші. PCA, що використовує лише 2 основних компоненти, не дає чітких кластерів, і в результаті модель не в змозі створити …

3
Як інтерпретувати середнє зниження точності та середнє зниження GINI у моделях випадкових лісів
У мене виникають труднощі з розумінням того, як інтерпретувати вихідний показник важливості з пакету Random Forest. Середнє зниження точності зазвичай характеризується як "зниження точності моделі від перестановки значень у кожній функції". Це твердження про функцію в цілому або про конкретні значення в межах функції? В будь-якому випадку, чи означає середнє …

3
Чому існує різниця між ручним обчисленням логістичної регресії 95% довірчого інтервалу та використанням функції conint () в R?
Дорогі всі - я помітив щось дивне, чого я не можу пояснити, чи не так? Підсумовуючи: ручний підхід до обчислення довірчого інтервалу в моделі логістичної регресії та функції R confint()дають різні результати. Я пережив прикладну логістичну регресію Hosmer & Lemeshow (2-е видання). У 3-й главі є приклад обчислення коефіцієнта шансів …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
Що означає "слабкий учень"?
Хтось може сказати мені, що розуміється під фразою «слабкий учень»? Це має бути слабкою гіпотезою? Мене плутає зв’язок між слабким учнем та слабким класифікатором. Обидва однакові чи є якась різниця? У AdaBoost алгоритму T=10. Що мається на увазі під цим? Чому ми обираємо T=10?


6
Статистична класифікація тексту
Я програміст, що не має статистичної інформації, і зараз я розглядаю різні методи класифікації для великої кількості різних документів, які я хочу класифікувати за заздалегідь визначеними категоріями. Я читав про kNN, SVM та NN. Однак у мене є проблеми з початком роботи. Які ресурси ви рекомендуєте? Я дуже добре знаю …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.