Запитання з тегом «data-mining»

Для обміну даними використовуються методи штучного інтелекту в контексті бази даних для виявлення раніше невідомих закономірностей. Як такі, методи, як правило, не контролюються. Це тісно пов'язане, але не тотожне машинному навчанню. Основними завданнями вибору даних є кластерний аналіз, зовнішнє виявлення та розробка правил асоціації.

2
Як можна групувати рядки за загальними темами?
Я намагаюся згрупувати, наприклад, рядки про програмування з іншими рядками про програмування, рядки про фізику з іншими рядками про фізику тощо, для широкого кола тем. Незважаючи на яскравий теоретичний лінгвістичний аспект проблеми, я хочу реально зробити це за допомогою програмування / програмного забезпечення. Епізод: Зважаючи на велику кількість рядків, як …

3
Перший швидкий погляд на набір даних
Пробачте про моє незнання, але ... Я постійно опиняюся в ситуації, коли мені стикається з купою нових даних, які мені вдалося знайти. Ці дані зазвичай виглядають приблизно так: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) Зазвичай …

1
Як я можу знайти кореляції між збоями та системними середовищами?
У вільний час я працюю над невеликою веб-системою, яка збирає звіти про збої (але не інші звіти про помилки, що не збиваються), що надсилаються з програм Delphi Windows. Для усунення несправностей користувачі хочуть мати функцію обміну даними для пошуку зв’язків між апаратними версіями або версіями операційної системи та конкретною помилкою …

1
Задокументовані / відтворювані приклади успішних реальних застосувань економетричних методів?
Це питання може звучати дуже широко, але ось що я шукаю. Я знаю, що існує багато чудових книг про економетричні методи, і багато чудових статей про економетричні методи. Існують навіть відмінні відтворювані приклади економетрики, як описано в цьому перекладеному питанні . Насправді приклади в цьому питанні дуже близькі до того, …

2
Чим відрізняється функціональний аналіз даних від високомірного аналізу даних
У статистичній літературі є багато посилань на " функціональні дані " (тобто дані, які є кривими), і паралельно на " дані високих розмірів " (тобто, коли дані є великомірними векторами). Моє запитання - про різницю між двома типами даних. Коли ми говоримо про застосовані статистичні методології, які застосовуються у випадку …

6
Сумнівне використання принципів обробки сигналів для виявлення тенденції
Я пропоную спробувати знайти тенденцію в деяких дуже галасливих довгострокових даних. Дані - це, в основному, щотижневі вимірювання чогось, що рухалося приблизно на 5 мм протягом приблизно 8 місяців. Дані складаються з точності 1 мм і дуже шумно регулярно змінюються +/- 1 або 2 мм на тиждень. Ми маємо дані …

1
К-означає: Скільки ітерацій у практичних ситуаціях?
Я не маю досвіду в галузі видобутку даних або великих даних, тому хотілося б почути, як ви поділилися певним досвідом. Чи реально люди керують k-засобами, PAM, CLARA тощо на дійсно великому наборі даних? Або вони просто випадковим чином вибирають з нього зразок? Якщо вони просто беруть вибірку набору даних, чи …


1
R лінійна регресія, категоріальна змінна значення «приховане»
Це лише приклад, на який я зустрічався кілька разів, тому у мене немає даних про вибірку. Запуск лінійної регресійної моделі в R: a.lm = lm(Y ~ x1 + x2) x1є суцільною змінною. x2категоричний і має три значення, наприклад "Низький", "Середній" та "Високий". Однак вихід, отриманий R, був би на кшталт: …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
Оцінка помилки, що не входить у сумку, для підвищення?
У випадковому лісі кожне дерево вирощується паралельно на унікальній вибірці даних для завантаження. Оскільки, як очікується, кожен зразок завантаження може містити близько 63% унікальних спостережень, це залишає приблизно 37% спостережень, які можна використовувати для тестування дерева. Тепер, здається, що в Stohastic Gradient також існує аналогічна оцінці в РФ:О ОБe r …

2
Чи фіксують дерева CART взаємодії між передбачувачами?
У цьому документі стверджується, що в CART, оскільки бінарний розкол виконується по одному коваріату на кожному кроці, всі розщеплення є ортогональними, тому взаємодії між коваріатами не враховуються. Однак багато дуже серйозних посилань стверджують, навпаки, що ієрархічна структура дерева гарантує, що взаємодія між предикторами буде автоматично змодельована (наприклад, цей документ , …

1
Вибір k-значення для аналізу виявлення локального фактора (LOF)
У мене є набір тривимірних даних, і я намагаюся використовувати аналіз локального фактора Outlier, щоб визначити найбільш унікальні або дивні значення. Як можна вирішити k-значення, яке потрібно використовувати в аналізі LOF? Я розумію, що визначає значення k, і тому я не здивований, що я бачу дещо інші результати за допомогою …

1
Використання інструментів для видобутку тексту / природної мови для економетрики
Я не впевнений, чи повністю це питання тут підходить, якщо ні, видаліть. Я студент економіки. Для проекту, який досліджує проблеми соціального страхування, я маю доступ до великої кількості звітів про адміністративні справи (> 200 тис.), Які стосуються оцінки відповідності. Ці звіти, можливо, можуть бути пов'язані з окремою адміністративною інформацією. Я …

5
Чи допомагає попереднє кластерування побудувати кращу модель прогнозування?
Для завдання моделювання збивання я розглядав: Обчисліть k кластери для даних Побудуйте k моделі для кожного кластеру окремо. Обґрунтуванням цього є те, що немає чого доводити, що популяція субрибелів є однорідною, тому розумно вважати, що процес генерації даних може бути різним для різних "груп" Моє запитання, чи це відповідний метод? …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.