Запитання з тегом «clustering»

Аналіз кластеру або кластеризація - це завдання згрупувати набір об'єктів таким чином, що об'єкти в одній групі (званої кластером) більше схожі (у певному або іншому сенсі) один на одного, ніж на інші в інших групах (кластери) . Це основне завдання розвідувальних даних і загальна методика статистичного аналізу даних, що використовується в багатьох сферах, включаючи машинне навчання, розпізнавання образів, аналіз зображень, пошук інформації тощо.

2
Кластеризація унікальних відвідувачів за допомогою useragent, ip, session_id
З огляду на дані про доступ до веб-сайтів у формі session_id, ip, user_agentта, можливо, часову позначку, дотримуючись наведених нижче умов, як ви найкраще класифікувати сеанси в унікальних відвідувачів? session_id: - це ідентифікатор, який надається кожному новому відвідувачеві. Він не закінчується, проте якщо користувач не приймає файли cookie / очищення файлів …
15 clustering 

2
Швидкий k-означає алгоритм на 10 ^ 10 балів?
Я шукаю зробити k-означає кластеризацію на наборі 10-мірних точок. Улов: є 10 ^ 10 балів . Я шукаю лише центр та розмір найбільших кластерів (скажімо, від 10 до 100 кластерів); Мене не цікавить, в якому кластері закінчується кожна точка. Використання k-засобів конкретно не важливо; Я просто шукаю подібний ефект, будь-який …

2
Використання атрибутів для класифікації / кластеризації користувачів
У мене є набір даних користувачів, які купують продукти з веб-сайту. Атрибути, які я маю, - це ідентифікатор користувача, регіон (штат) користувача, ідентифікатор категорій продукту, ідентифікатор ключових слів продукту, ідентифікатор ключових слів веб-сайту та витрата товару на витрату. Метою є використання інформації про продукт та веб-сайт, щоб визначити, хто такі …

1
Розпізнайте граматику в послідовності нечітких лексем
У мене є текстові документи, які містять переважно списки предметів. Кожен елемент - це група з декількох маркерів різних типів: ім’я, прізвище, прізвище, день народження, номер телефону, місто, окупація тощо. Маркер - це група слів. Елементи можуть лежати на кількох рядках. Елементи з документа мають приблизно однаковий синтаксис лексеми, але …

1
MinHashing vs SimHashing
Припустимо, у мене є п'ять наборів, які я хотів би згрупувати. Я розумію, що описана тут техніка SimHashing: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ може дати три кластери ( {A}, {B,C,D}і {E}), наприклад, якщо його результати були: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Аналогічно, техніка MinHashing, …

1
Класифікуйте клієнтів на основі 2 особливостей та часової серії подій
Мені потрібна допомога щодо того, яким повинен бути наступний крок у алгоритмі, який я розробляю. Через NDAs я не можу розкрити багато, але я постараюся бути загальним і зрозумілим. В основному, після кількох кроків в алгоритмах, я маю це: Для кожного клієнта, який я маю, і події, які він проводить …

1
Скільки клітин LSTM я повинен використовувати?
Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
Рішення для постійної ідентифікації кластеру в Інтернеті?
Дозвольте показати вам приклад гіпотетичної онлайн-програми кластеризації: У момент часу n точок 1,2,3,4 виділяються синьому кластеру A, а точки b, 5,6,7 виділяються червоному кластеру B. Під час n + 1 вводиться нова точка a, яка присвоюється синьому кластеру A, але також призводить до того, що точка b також буде приписана …

4
Використання кластеризації в обробці тексту
Привіт, це моє перше питання в стеці Data Science. Я хочу створити алгоритм класифікації тексту. Припустимо, у мене є великий набір тексту та статей. Скажімо, близько 5000 простих текстів. Спочатку використовую просту функцію для визначення частоти всіх чотирьох і вище символьних слів. Потім я використовую це як особливість кожного навчального …

3
Кращі мови для наукових обчислень [закрито]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Конвергенція методу k-означає Hartigan-Wong та інших алгоритмів
Я намагаюся зрозуміти різні алгоритми кластеризації k-засобів, які в основному реалізовані в мовному statsпакеті R. Я розумію алгоритм Ллойда та онлайн-алгоритм MacQueen. Я розумію їх так: Алгоритм Ллойда: Спочатку вибираються випадкові спостереження 'k', які будуть служити центроїдами кластерів 'k'. Потім наступні кроки відбуваються в ітерації до сходження центроїдів. Розраховується евклідова …
10 r  clustering  k-means 

3
Аналіз файлів журналу: витяг інформаційної частини з частини значення
Я намагаюся створити набір даних на кількох файлах журналів одного з наших продуктів. Різні файли журналів мають власний макет і власний вміст; Я успішно згрупував їх разом, залишився лише один крок ... Дійсно, журнал "повідомлення" - найкраща інформація. У мене немає вичерпного списку всіх цих повідомлень, і це погана ідея …

1
Кластеризація даних клієнтів, що зберігаються в ElasticSearch
У мене є купа профілів клієнтів, які зберігаються в еластичний пошуккластер. Ці профілі зараз використовуються для створення цільових груп для нашої підписки на електронну пошту. Цільові групи тепер формуються вручну, використовуючи можливість пошуку гранічних пошуків (наприклад, залучити всіх клієнтів чоловіків віком до 23 років з одним автомобілем та 3 дітьми). …

2
Кластеризація документів із використанням тем, похідних від розподілу прихованого Діріхле
Я хочу використовувати Latent Dirichlet Allocation для проекту, і я використовую Python з бібліотекою gensim. Знайшовши теми, я хотів би згрупувати документи за допомогою такого алгоритму, як k-засоби (в ідеалі я хотів би використовувати хороший для перекриття кластерів, тому будь-яка рекомендація вітається). Мені вдалося отримати теми, але вони є у …

4
Запропонувати набори навчальних наборів текстів класифікатора
Які вільно доступні набори даних я можу використовувати для тренування класифікатора тексту? Ми намагаємось посилити залучення наших користувачів, рекомендуючи для нього найпов'язаніший вміст, тому ми подумали, що якщо ми класифікуємо наш вміст на основі заздалегідь визначеного пакету слів, ми можемо рекомендувати йому залучати вміст, отримуючи його відгуки про випадкову кількість …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.