Статистика та великі дані machine-learning

2

Налаштування Багато алгоритмів працюють на одному відношенні або таблиці, в той час як багато реальних баз даних зберігають інформацію в декількох таблицях (Domingos, 2003). Запитання Які види алгоритмів добре навчаються з декількох (реляційних) таблиць. Зокрема, мене цікавлять алгоритми, застосовні до задач регресії та класифікації (не орієнтовані на мережевий аналіз, наприклад, …

9 regression machine-learning classification dataset

1

Парель між LSA та pLSA

В оригінальній статті pLSA автор Томас Гофман провів паралель між структурами даних pLSA та LSA, яку я хотів би обговорити з вами. Фон: Здійснюючи натхнення для отримання інформації, припустимо, у нас є колекція документів та словниковий запас термінівNNND={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ...., d_N \rbraceMMMΩ={ω1,ω2,...,ωM}Ω={ω1,ω2,...,ωM}\Omega = \lbrace \omega_1, \omega_2, ..., …

9 machine-learning conditional-probability svd information-retrieval lsa

5

Чи допомагає попереднє кластерування побудувати кращу модель прогнозування?

Для завдання моделювання збивання я розглядав: Обчисліть k кластери для даних Побудуйте k моделі для кожного кластеру окремо. Обґрунтуванням цього є те, що немає чого доводити, що популяція субрибелів є однорідною, тому розумно вважати, що процес генерації даних може бути різним для різних "груп" Моє запитання, чи це відповідний метод? …

9 machine-learning clustering data-mining predictive-models

2

Використання параметра Gamma з підтримуючими векторними машинами

При використанні libsvmпараметр є параметром для функції ядра. Його за замовчуванням встановлено якγγ\gammaγ=1number of features.γ=1number of features.\gamma = \frac{1}{\text{number of features.}} Чи є якісь теоретичні вказівки щодо встановлення цього параметра, крім існуючих методів, наприклад, пошук в сітці?

9 machine-learning svm data-mining libsvm kernel-trick

1

Як порівняти спостережувані та очікувані події?

Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Динамічно коригування архітектури NN: винайдіть непотрібне?

Я починаю свою докторську подорож, і кінцевою метою, яку я поставив перед собою, є розробка АНН, яка б моніторила середовище, в якому вони працюють, і динамічно підлаштовувала б свою архітектуру до існуючої проблеми. Очевидним наслідком є тимчасовість даних: якщо набір даних не є безперервним і не змінюється з часом, навіщо …

9 machine-learning neural-networks

2

Параметричне, напівпараметричне та непараметричне завантаження для змішаних моделей

Наступні трансплантати взяті з цієї статті . Я новачок у завантажувальній програмі та намагаюся реалізувати параметричне, напівпараметричне та непараметричне завантажувальне завантаження для лінійної змішаної моделі з R bootпакетом. R код Ось мій Rкод: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

3

Очікувана найкраща ефективність на наборі даних

Скажіть, у мене є така проста проблема машинного навчання, як класифікація. Маючи деякі орієнтири у баченні чи розпізнаванні звуку, я, як людина, дуже хороший класифікатор. Тому я маю інтуїцію щодо того, наскільки хороший класифікатор може отримати. Але з великою кількістю даних один момент полягає в тому, що я не знаю, …

9 machine-learning

2

Розуміння та застосування аналізу настроїв

Мені щойно призначили проект проведення аналізу настроїв для деяких колекцій документів. За допомогою Googling з'явилося багато досліджень, пов'язаних з настроями. Мої запитання: Які основні методи / алгоритми аналізу настроїв у галузі машинного навчання та статистичного аналізу? Чи є чітко встановлені результати? Чи існує якесь програмне забезпечення з відкритим кодом, яке …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

1

Класифікація з одним домінуючим предиктором

Я маю (ккk-класова) класифікаційна проблема з набором 100 реальних оцінок прогнозів, один з яких, здається, має набагато більше пояснювальної сили, ніж будь-який з інших. Я хотів би детальніше познайомитися з ефектами інших змінних. Однак, стандартні методи машинного навчання (випадкові ліси, SVM та ін.), Схоже, переповнюються одним сильним передбачувачем і не …

9 machine-learning classification

2

Як виконати вибір змінної генетичного алгоритму в R для вхідних змінних SVM?

Я використовую пакет kernlab в R, щоб створити SVM для класифікації деяких даних. SVM добре працює в тому, що забезпечує «передбачення» пристойної точності, проте мій список змінних вхідних даних більший, ніж я хотів би, і я не впевнений у відносній важливості різних змінних. Я хотів би реалізувати генетичний алгоритм для …

9 r machine-learning svm genetic-algorithms

2

Видаліть дублікати з навчального набору для класифікації

Скажімо, у мене є ряд рядків для проблеми класифікації: Х1, . . .ХN, YХ1,...ХN,YX_1, ... X_N, Y Де Х1, . . . ,ХNХ1,...,ХNX_1, ..., X_N є ознаками / провісниками та YYY - клас, до якого належить поєднання функцій рядка. Багато комбінацій функцій та їх класи повторюються в наборі даних, який …

9 machine-learning classification data-mining logistic stratification

1

Створення максимальної ентропійської моделі Маркова з існуючого багатовхідного класифікатора максимальної ентропії

Мене заінтригує концепція моделі максимальної ентропії Маркова (MEMM), і я думаю про те, щоб використати її для тегера частини мови (POS). На даний момент я використовую звичайний класифікатор максимальної ентропії (ME) для позначення кожного окремого слова. Для цього використовується ряд функцій, включаючи попередні два теги. МЕМ використовують алгоритм Вітербі для …

9 machine-learning mcmc maximum-entropy memm

1

Коли вибрати PCA проти LSA / LSI

Питання: Чи є якісь загальні вказівки щодо характеристик вхідних даних, які можна використовувати для вирішення між застосуванням PCA та LSA / LSI? Короткий підсумок PCA проти LSA / LSI: Принциповий компонентний аналіз (PCA) та латентний семантичний аналіз (LSA) або латентна семантична індексація (LSI) подібні в тому сенсі, що всі вони …

9 machine-learning pca lsa

1

Найкращий спосіб обробляти незбалансований набір даних багаторівневих класів за допомогою SVM

Я намагаюся побудувати модель прогнозування з SVM на досить незбалансованих даних. Мій етикетки / вихід мають три класи: позитивний, нейтральний та негативний. Я б сказав, що позитивний приклад становить приблизно 10 - 20% моїх даних, нейтральний - 50 - 60%, а негативний - 30 - 40%. Я намагаюся збалансувати класи, …

9 machine-learning predictive-models svm unbalanced-classes

Запитання з тегом «machine-learning»