Статистика та великі дані data-mining

2

Я мало знаю про статистику, тож ведіть мене. Скажімо, у мене набір 1000 робітників. Я хочу розібратися, хто найважчий працівник, але я можу виміряти лише кількість роботи, яку виконують у групах по 1-100 за години роботи. Якщо припустити, що кожен працівник завжди виконує приблизно однакову кількість роботи, під час великої …

9 r regression data-mining

2

Використання параметра Gamma з підтримуючими векторними машинами

При використанні libsvmпараметр є параметром для функції ядра. Його за замовчуванням встановлено якγγ\gammaγ=1number of features.γ=1number of features.\gamma = \frac{1}{\text{number of features.}} Чи є якісь теоретичні вказівки щодо встановлення цього параметра, крім існуючих методів, наприклад, пошук в сітці?

9 machine-learning svm data-mining libsvm kernel-trick

2

Розуміння та застосування аналізу настроїв

Мені щойно призначили проект проведення аналізу настроїв для деяких колекцій документів. За допомогою Googling з'явилося багато досліджень, пов'язаних з настроями. Мої запитання: Які основні методи / алгоритми аналізу настроїв у галузі машинного навчання та статистичного аналізу? Чи є чітко встановлені результати? Чи існує якесь програмне забезпечення з відкритим кодом, яке …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

2

Видаліть дублікати з навчального набору для класифікації

Скажімо, у мене є ряд рядків для проблеми класифікації: Х1, . . .ХN, YХ1,...ХN,YX_1, ... X_N, Y Де Х1, . . . ,ХNХ1,...,ХNX_1, ..., X_N є ознаками / провісниками та YYY - клас, до якого належить поєднання функцій рядка. Багато комбінацій функцій та їх класи повторюються в наборі даних, який …

9 machine-learning classification data-mining logistic stratification

5

Що я можу зробити поза кореляцією Пірсона?

Перевіряючи, чи співвідносяться дві змінні, я помітив, що застосування кореляції Пірсона дало цифри аж до 0,1, що вказує на відсутність кореляції. Чи можна щось зробити, щоб посилити цю претензію? Набір даних (підмножина через обмеження розміщення), на яку я дивлюсь, це: 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 …

9 correlation data-mining pearson-r

3

Алгоритм Апріорі простою англійською?

Я читав статті Вікі про Апріорі. У мене проблеми з розумінням чорносливу та кроку приєднання. Чи може хто-небудь пояснити мені, як алгоритм Apriori працює простими словами (такий, що новачок, як я, може зрозуміти легко)? Буде добре, якщо хтось пояснить покроковий процес, що бере участь у ньому.

9 data-mining algorithms frequentist

3

Як швидко вибрати важливі змінні з дуже великого набору даних?

У мене є набір даних з близько 2000 бінарних змінних / 200 000 рядків, і я намагаюся передбачити одну бінарну залежну змінну. Моя головна мета на цьому етапі - не отримання точності прогнозування, а скоріше визначити, яка з цих змінних є важливими провісниками. Я хотів би знизити кількість змінних у …

9 machine-learning data-mining large-data

2

Початок роботи з бікстерстеру

Я робив якісь випадкові інтернет-дослідження щодо бікластерів. (Я прочитав статтю Вікі кілька разів.) Поки здається, ніби мало визначень чи стандартної термінології. Мені було цікаво, чи є якісь стандартні папери чи книги, які кожен, хто цікавиться алгоритмами пошуку бікластерів, повинен прочитати. Чи можна сказати, що таке сучасний стан у цій галузі? …

9 clustering data-mining

2

Обчисліть криву ROC для даних

Отже, у мене є 16 випробувань, в яких я намагаюся ідентифікувати людину з біометричної ознаки за допомогою дистанції Hamming. Мій поріг встановлено на 3,5. Мої дані нижче, і лише пробна версія 1 - справжнє Позитивне: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Запитання з тегом «data-mining»