Запитання з тегом «data-mining»

Для обміну даними використовуються методи штучного інтелекту в контексті бази даних для виявлення раніше невідомих закономірностей. Як такі, методи, як правило, не контролюються. Це тісно пов'язане, але не тотожне машинному навчанню. Основними завданнями вибору даних є кластерний аналіз, зовнішнє виявлення та розробка правил асоціації.

4
Як почати читати про майнінг даних?
Я новачок, який збирається почати читати про пошук даних. Я маю основні знання про ІС та статистику. Оскільки багато хто каже, що машинне навчання також відіграє важливу роль у видобутку даних, чи варто читати про машинне навчання, перш ніж я міг би продовжувати процес видобутку даних?

3
Чи потрібно скидати змінні, які є кореляційними / колінеарними, перш ніж запускати kmeans?
Я запускаю kmeans, щоб визначити кластери клієнтів. У мене є приблизно 100 змінних для ідентифікації кластерів. Кожна з цих змінних становить відсоток витрат клієнта на категорію. Отже, якщо у мене є 100 категорій, у мене є ці 100 змінних, що сума цих змінних становить 100% для кожного клієнта. Тепер ці …


2
Назвіть відомі існуючі практичні програми теорії хаосу у видобутку даних?
Недбало читаючи деякі твори масового ринку з теорії хаосу протягом останніх кількох років, я почав замислюватися, як різні аспекти його можуть бути застосовані до вибору даних та суміжних областях, як нейронні мережі, розпізнавання шаблонів, управління невизначеністю тощо. На сьогоднішній день я я одержав так мало прикладів таких застосувань у опублікованому …

3
Чи є випадкові лісові та підсилювальні параметричні чи непараметричні?
Читаючи чудове статистичне моделювання: Дві культури (Брейман 2001) , ми зможемо використати всю різницю між традиційними статистичними моделями (наприклад, лінійною регресією) та алгоритмами машинного навчання (наприклад, Baging, Random Forest, Boosted дерева ...). Брейман критикує моделі даних (параметричні), оскільки вони ґрунтуються на припущенні, що спостереження породжуються відомою формальною моделлю, призначеною статистиком, …

2
Наскільки далеко мені дістанеться самостійне навчання?
Я ніколи не брав участі в офіційному або структурованому аналізі даних або курсі машинного навчання (крім останніх пропозицій в Інтернеті), і я дізнався більшість того, що знаю, читаючи і випробовуючи речі. Я знаю, що я далеко не в змозі влаштуватися на роботу. Моє запитання - це не те, що краще …

2
Баггінг з надмірним набором для прогнозних моделей рідкісних подій
Хтось знає, чи описано наступне і (в будь-якому випадку), чи це звучить як правдоподібний метод вивчення прогнозної моделі з дуже незбалансованою цільовою змінною? Часто в CRM-програмах пошуку даних ми будемо шукати модель, коли позитивна подія (успіх) дуже рідкісна стосовно більшості (негативний клас). Наприклад, у мене може бути 500 000 випадків, …

2
Дослідницький аналіз просторово-часових помилок прогнозу
Дані: нещодавно я працював над аналізом стохастичних властивостей просторово-часового поля прогнозування помилок виробництва вітроенергетики. Формально можна сказати, що це процес індексуються двічі у часі (з і ) і один раз у пробілі ( ), причому - кількість разів перегляду вперед (дорівнює чомусь навколо , регулярно відбирається), - кількість "прогнозних періодів" …

4
Найкращі способи агрегації та аналізу даних
Нещодавно почавши навчати себе машинного навчання та аналізу даних, я потрапляю в цегляну стіну щодо необхідності створення та запиту великих наборів даних. Я хотів би взяти дані, які я зібрав у своєму професійному та особистому житті, та проаналізувати їх, але я не впевнений у найкращому способі зробити наступне: Як я …

3
Ідея складання даних має нульове значення
Я часто бачу, як люди, які роблять розмір / особливість набору даних, мають нульове значення, видаляючи середнє з усіх елементів. Але я ніколи не розумів, навіщо це робити? Який ефект робити це як крок попередньої обробки? Чи покращує це ефективність класифікації? Чи допомагає це відповісти щось про набір даних? Чи …

5
Термінова частота / обернена частота документа (TF / IDF): зважування
У мене є набір даних, який представляє 1000 документів і всі слова, які містяться в ньому. Отже, рядки представляють документи, а стовпці - слова. Так, наприклад, значення у комірці означає час, коли виникає в документі . Тепер я повинен знайти "вагу" слів, використовуючи метод tf / idf, але я фактично …

3
Математична база для алгоритмів видобутку даних та штучного інтелекту
Не могли б ви дати мені уточнення щодо алгоритмів видобутку даних та штучного інтелекту? Яку базу математики вони використовували? Не могли б ви дати мені вихідну точку з математики для розуміння цих типів алгоритмів?

1
Відмінності між PROC змішаними та lme / lmer у R - ступенями свободи
Примітка: це запитання є репостом, оскільки моє попереднє питання довелося видалити з юридичних причин. Порівнюючи PROC MIXED від SAS з функцією lmeз nlmeпакету в R, я натрапив на деякі досить заплутані відмінності. Більш конкретно, ступеня свободи в різних випробувань відрізняються між PROC MIXEDі lme, і я задавався питанням, чому. Почніть …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Як формувати криву точності нагадування, коли у мене є лише одне значення для PR?
У мене є завдання пошуку даних, де я створюю систему пошуку зображень на основі вмісту. У мене 20 зображень 5 тварин. Так загалом 100 зображень. Моя система повертає 10 найбільш релевантних зображень до вхідного зображення. Тепер мені потрібно оцінити працездатність моєї системи за допомогою кривої Precision-Recall. Однак я не розумію …

1
Взаємозв'язок матриці Гессіана та матриці коваріації
Поки я вивчаю оцінку максимальної ймовірності, щоб зробити висновок про максимальну оцінку ймовірності, нам потрібно знати дисперсію. Щоб дізнатись дисперсію, мені потрібно знати нижню межу Рао Крамера, яка на кривині виглядає як матриця Гессея з другою деривацією. Я наче змішаний, щоб визначити взаємозв'язок між матрицею коваріації та матрицею гессіана. Сподіваюся …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.