Запитання з тегом «data-mining»

Діяльність, яка шукає шаблони у великих, складних наборах даних. Зазвичай це підкреслює алгоритмічні прийоми, але може також включати будь-який набір пов'язаних навичок, застосувань чи методологій з цією метою.

4
К-значить: Які хороші способи вибрати ефективний набір початкових центроїдів?
Коли використовується випадкова ініціалізація центроїдів, різні прогони K-засобів виробляють різні загальні SSE. І це має вирішальне значення у виконанні алгоритму. Які ефективні підходи до вирішення цієї проблеми? Останні підходи оцінюються.

5
збільшують теплову карту для новонароджених
Я створюю corr()df з оригінального df. corr()ДФ вийшов 70 X 70 і неможливо уявити собі Heatmap ... sns.heatmap(df). Якщо я спробую відобразити corr = df.corr()таблицю, таблиця не відповідає екрану, і я бачу всі кореляції. Це спосіб або надрукувати весь, dfнезалежно від його розміру, або контролювати розмір теплової карти?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
Однокласна дискримінаційна класифікація з незбалансованим, гетерогенним негативним фоном?
Я працюю над вдосконаленням існуючого контрольованого класифікатора, щоб класифікувати {протеїнові} послідовності як такі, що належать до певного класу (попередники нейропептидних гормонів), чи ні. Існує близько 1150 відомих "позитивних" на тлі близько 13 мільйонів послідовностей білків ("Невідомий / погано анотований фон") або близько 100 000 рецензованих відповідних білків, анотованих з різними …

2
Відмінність рекомендацій, що базуються на предметах та користувачах у Mahout
Мені хотілося б знати, чим саме рекомендації Mahout, що базуються на користувача та на основі предметів, відрізняються один від одного. Це визначає це На основі користувачів : рекомендуйте елементи, знайшовши подібних користувачів. Це часто важче масштабувати через динамічний характер користувачів. На основі предметів: обчисліть схожість між елементами та дайте рекомендації. …

4
Дерево рішень проти КНН
У яких випадках краще використовувати дерево рішень, а в інших випадках - KNN? Навіщо використовувати один з них у певних випадках? А інший у різних випадках? (Переглядаючи його функціональність, а не алгоритм) Хтось має якісь пояснення чи посилання на це?

3
Чому ансамблі такі нерозумно ефективні
Схоже, це стало аксіоматичним, що ансамбль учнів призводить до найкращих можливих модельних результатів - і це стає все рідше, наприклад, для одиночних моделей вигравати змагання, такі як Kaggle. Чи є теоретичне пояснення того, чому ансамблі настільки дивно ефективні?

2
Використання атрибутів для класифікації / кластеризації користувачів
У мене є набір даних користувачів, які купують продукти з веб-сайту. Атрибути, які я маю, - це ідентифікатор користувача, регіон (штат) користувача, ідентифікатор категорій продукту, ідентифікатор ключових слів продукту, ідентифікатор ключових слів веб-сайту та витрата товару на витрату. Метою є використання інформації про продукт та веб-сайт, щоб визначити, хто такі …

1
Розпізнайте граматику в послідовності нечітких лексем
У мене є текстові документи, які містять переважно списки предметів. Кожен елемент - це група з декількох маркерів різних типів: ім’я, прізвище, прізвище, день народження, номер телефону, місто, окупація тощо. Маркер - це група слів. Елементи можуть лежати на кількох рядках. Елементи з документа мають приблизно однаковий синтаксис лексеми, але …

1
Neo4j vs OrientDB проти Титану
Я працюю над проектом з науковими даними, пов’язаним із розробкою соціальних відносин і потребую зберігання даних у деяких базах даних графіків. Спочатку я вибрав Neo4j як базу даних. Але це здається, що Neo4j не дуже масштабується. Альтернатива, яку я дізнався, - «Титан» та «oriebtDB». Я пройшов це порівняння на цих …

4
Великий випадок даних чи приклад використання
Я читав багато блогів \ статті про те, як різні галузі використовують великі аналітичні дані. Але більшість із цих статей не згадується Які своєрідні дані використовували ці компанії. Який був розмір даних Які види інструментальних технологій вони використовували для обробки даних Яка була проблема, з якою вони стикалися, і як …

1
Чим відрізняється одне гаряче кодування від одного кодування?
Я читаю презентацію, і вона рекомендує не використовувати кодування не залишати, але це добре з одним гарячим кодуванням. Я думав, що вони обоє однакові. Чи може хтось описати, у чому полягають відмінності між ними?

2
Чи існують API для сканування конспекту паперу?
Якщо у мене дуже довгий список назв паперу, як я можу отримати конспекти цих паперів з Інтернету чи будь-якої бази даних? Назви паперу схожі на "Оцінка корисності веб-майнінгу для сфери охорони здоров'я". Хтось знає API, який може дати мені рішення? Я спробував сканувати вчений google, однак google заблокував мого сканера.

2
Вартість авіаперевезень - Який аналіз слід використовувати для виявлення конкурентної поведінки та цінових співвідношень?
Я хочу дослідити поведінку авіакомпаній щодо встановлення цін - зокрема, як авіакомпанії реагують на ціни конкурентів. Як я б сказав, мої знання про більш складний аналіз досить обмежені, я робив здебільшого всі основні методи, щоб зібрати загальний вигляд даних. Сюди входять прості графіки, які вже допомагають виявити подібні зразки. Я …

2
Чи все ще FPGrowth вважається "найсучаснішим" при частому видобутку шаблонів?
Наскільки я знаю, що розробляються алгоритми для вирішення проблеми частого видобутку шаблонів (FPM), шлях удосконалення має деякі основні контрольні точки. По-перше, алгоритм Апріорі був запропонований в 1993 році Agrawal et al. разом із формалізацією проблеми. Алгоритм зміг зняти деякі набори з 2^n - 1наборів (powerset), використовуючи решітку для підтримки даних. …

2
Як я можу відповідати категоричним типам даних для випадкової класифікації лісів?
Мені потрібно знайти точність набору даних, застосовуючи алгоритм Random Forest. Але мій тип мого набору даних є і категоричним, і числовим. Коли я намагався вкласти ці дані, я отримую помилку. 'Вхід містить NaN, нескінченність або занадто велике значення для dtype (' float32 ')'. Можливо, проблема полягає в об'єктних типах даних. …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.