Запитання з тегом «classification»

Статистична класифікація - це проблема ідентифікації підгрупи, до якої належать нові спостереження, де ідентичність підгрупи невідома, на основі навчального набору даних, що містять спостереження, субпопуляція яких відома. Тому ці класифікації показуватимуть змінну поведінку, яку можна вивчити статистикою.

1
Пакет GBM проти Caret з використанням GBM
Я налаштовував модель за допомогою caret, але потім повторно запустив модель за допомогою gbmпакета. Наскільки я розумію, що caretпакет використовує gbmі вихід повинен бути однаковим. Однак, лише швидкий тестовий пробіг із застосуванням data(iris)показує невідповідність моделі приблизно 5%, використовуючи RMSE і R ^ 2 в якості метрики оцінювання. Я хочу знайти …

3
Машини Больцмана з обмеженою регресією?
Я продовжую відповідати на запитання, яке я задавав раніше щодо УЗМ . Я бачу багато літератури, що описує їх, але жодна, яка насправді говорить про регресію (навіть не класифікація з міченими даними). У мене виникає відчуття, що він використовується лише для не маркованих даних. Чи є ресурси для лікування регресії? …

2
Коли підходить логістична регресія?
В даний час я навчаю себе, як робити класифікацію, і конкретно розглядаю три методи: підтримку векторних машин, нейронні мережі та логістичну регресію. Я намагаюся зрозуміти, чому логістична регресія коли-небудь буде краще, ніж інші дві. З мого розуміння логістичної регресії, ідея полягає у пристосуванні логістичної функції до всіх даних. Отже, якщо …

2
Чому в ідентифікації мови тексту замість слів використовується n-грам?
У двох популярних мовних ідентифікаційних бібліотеках, компактному детекторі мови 2 для C ++ та мовному детекторі для Java, обидві вони використовували (на основі символів) n-грамів для отримання тексту. Чому мішок слів (одне слово / словник) не використовується, і яка перевага та недолік мішок слів і n-грам? Крім того, які ще …

2
Як обчислити вагу критерію Фішера?
Я вивчаю розпізнавання образів і машинне навчання, і я натрапив на таке питання. Розглянемо двокласну задачу класифікації з рівною ймовірністю попереднього класуP(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} і розподіл примірників у кожному класі, заданий p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), p(x|D2)=N([44],[1001]).p(x|D2)=N([44],[1001]). …

5
Як виконати імпутацію значень у дуже великій кількості точок даних?
У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Як я треную HMM для класифікації?
Тож я розумію, що коли ви тренуєте HMM для класифікації, стандартним підходом є: Розділіть ваші набори даних на набори даних для кожного класу Тренуйте один HMM за клас На тестовому наборі порівняйте вірогідність кожної моделі класифікувати кожне вікно Але як я треную HMM на кожному занятті? Чи просто я об'єдную …

3
У Naive Bayes характерні ймовірності: чи слід подвоїти кількість слів?
Я прототипував свою власну модель Naive Bayes o 'слова слів, і у мене виникло питання щодо обчислення ймовірностей функції. Скажімо, у мене два класи, я буду просто використовувати спам та не-спам, оскільки саме цим користуються всі. І візьмемо для прикладу слово "віагра". У мене в навчальному наборі 10 електронних листів, …

2
Чому збільшення кількості функцій знижує продуктивність?
Я намагаюся зрозуміти, чому збільшення кількості функцій може знизити продуктивність. Наразі я використовую класифікатор LDA, який працює краще двозначно серед певних функцій, але гірше, коли дивлюся більше функцій. Моя точність класифікації виконується за допомогою стратифікованого 10-кратного xval. Чи є простий випадок, коли класифікатор працював би краще одноразово, ніж двоваріантно, щоб …

1
Залежність між кількістю векторів підтримки та кількістю функцій
Я запустив SVM проти заданого набору даних і зробив наступне спостереження: Якщо я зміню кількість функцій для побудови класифікатора, то кількість векторів підтримки в результаті також буде змінена. Мені хотілося б знати, як пояснити такий сценарій.

2
PCA та випадкові ліси
Для нещодавнього змагання Kaggle я (вручну) визначив 10 додаткових функцій для мого навчального набору, які потім будуть використовуватися для тренування випадкового класифікатора лісів. Я вирішив запустити PCA на набір даних з новими функціями, щоб побачити, як вони порівнюють один одного. Я виявив, що ~ 98% дисперсії несе перший компонент (перший …

2
Лінійний дискримінантний аналіз та правило Байєса: класифікація
Яке відношення між лінійним дискримінантним аналізом та правилом Байєса? Я розумію, що LDA використовується в класифікації, намагаючись мінімізувати співвідношення між груповою дисперсією та між дисперсією групи, але я не знаю, як в ній використовується правило Байєса.

1
Чи несприятливий набір тренувань негативно впливає на SVM?
Я намагаюся класифікувати повідомлення на різні категорії за допомогою SVM. Я склав список бажаних слів / символів із навчального набору. Для кожного вектора, який представляє повідомлення, я встановлюю відповідний рядок, 1якщо слово є таким: "корпус" є: [Мері, маленький, баранина, зірка, мерехтіння] перше повідомлення: "у Мері було трохи ягняти" -> [1 …

2
Застосування машинного навчання для фільтрації DDoS
У курсі машинного навчання Стенфорда Ендрю Нг згадав про застосування ML в ІТ. Через деякий час, коли я отримав DDoS середнього розміру (близько 20k ботів) на нашому сайті, я вирішив боротися з ним, використовуючи простий класифікатор Neural Network. Я написав цей сценарій python приблизно за 30 хвилин: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos Він використовує …

2
Прогнозування декількох цілей або класів?
Припустимо, я будую модель прогнозування, де я намагаюся передбачити кілька подій (наприклад, як перекидання штампів, так і метання монети). Більшість алгоритмів, які мені знайомі з роботою лише з однією ціллю, тому мені цікаво, чи існує стандартний підхід до подібного роду речей. Я бачу два можливі варіанти. Мабуть, найбільш наївним підходом …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.