Наука про дані data-mining

4

К-значить: Які хороші способи вибрати ефективний набір початкових центроїдів?

Коли використовується випадкова ініціалізація центроїдів, різні прогони K-засобів виробляють різні загальні SSE. І це має вирішальне значення у виконанні алгоритму. Які ефективні підходи до вирішення цієї проблеми? Останні підходи оцінюються.

17 data-mining clustering k-means

5

збільшують теплову карту для новонароджених

Я створюю corr()df з оригінального df. corr()ДФ вийшов 70 X 70 і неможливо уявити собі Heatmap ... sns.heatmap(df). Якщо я спробую відобразити corr = df.corr()таблицю, таблиця не відповідає екрану, і я бачу всі кореляції. Це спосіб або надрукувати весь, dfнезалежно від його розміру, або контролювати розмір теплової карти?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Однокласна дискримінаційна класифікація з незбалансованим, гетерогенним негативним фоном?

Я працюю над вдосконаленням існуючого контрольованого класифікатора, щоб класифікувати {протеїнові} послідовності як такі, що належать до певного класу (попередники нейропептидних гормонів), чи ні. Існує близько 1150 відомих "позитивних" на тлі близько 13 мільйонів послідовностей білків ("Невідомий / погано анотований фон") або близько 100 000 рецензованих відповідних білків, анотованих з різними …

16 machine-learning data-mining python classification

2

Мені хотілося б знати, чим саме рекомендації Mahout, що базуються на користувача та на основі предметів, відрізняються один від одного. Це визначає це На основі користувачів : рекомендуйте елементи, знайшовши подібних користувачів. Це часто важче масштабувати через динамічний характер користувачів. На основі предметів: обчисліть схожість між елементами та дайте рекомендації. …

15 machine-learning data-mining algorithms recommender-system

4

Дерево рішень проти КНН

У яких випадках краще використовувати дерево рішень, а в інших випадках - KNN? Навіщо використовувати один з них у певних випадках? А інший у різних випадках? (Переглядаючи його функціональність, а не алгоритм) Хтось має якісь пояснення чи посилання на це?

15 machine-learning data-mining decision-trees

3

Чому ансамблі такі нерозумно ефективні

Схоже, це стало аксіоматичним, що ансамбль учнів призводить до найкращих можливих модельних результатів - і це стає все рідше, наприклад, для одиночних моделей вигравати змагання, такі як Kaggle. Чи є теоретичне пояснення того, чому ансамблі настільки дивно ефективні?

14 machine-learning data-mining predictive-modeling

2

Використання атрибутів для класифікації / кластеризації користувачів

У мене є набір даних користувачів, які купують продукти з веб-сайту. Атрибути, які я маю, - це ідентифікатор користувача, регіон (штат) користувача, ідентифікатор категорій продукту, ідентифікатор ключових слів продукту, ідентифікатор ключових слів веб-сайту та витрата товару на витрату. Метою є використання інформації про продукт та веб-сайт, щоб визначити, хто такі …

14 machine-learning data-mining classification clustering

1

Розпізнайте граматику в послідовності нечітких лексем

У мене є текстові документи, які містять переважно списки предметів. Кожен елемент - це група з декількох маркерів різних типів: ім’я, прізвище, прізвище, день народження, номер телефону, місто, окупація тощо. Маркер - це група слів. Елементи можуть лежати на кількох рядках. Елементи з документа мають приблизно однаковий синтаксис лексеми, але …

13 data-mining clustering text-mining time-series correlation

1

Neo4j vs OrientDB проти Титану

Я працюю над проектом з науковими даними, пов’язаним із розробкою соціальних відносин і потребую зберігання даних у деяких базах даних графіків. Спочатку я вибрав Neo4j як базу даних. Але це здається, що Neo4j не дуже масштабується. Альтернатива, яку я дізнався, - «Титан» та «oriebtDB». Я пройшов це порівняння на цих …

13 data-mining graphs databases social-network-analysis

4

Великий випадок даних чи приклад використання

Я читав багато блогів \ статті про те, як різні галузі використовують великі аналітичні дані. Але більшість із цих статей не згадується Які своєрідні дані використовували ці компанії. Який був розмір даних Які види інструментальних технологій вони використовували для обробки даних Яка була проблема, з якою вони стикалися, і як …

13 data-mining bigdata usecase

1

Чим відрізняється одне гаряче кодування від одного кодування?

Я читаю презентацію, і вона рекомендує не використовувати кодування не залишати, але це добре з одним гарячим кодуванням. Я думав, що вони обоє однакові. Чи може хтось описати, у чому полягають відмінності між ними?

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

2

Чи існують API для сканування конспекту паперу?

Якщо у мене дуже довгий список назв паперу, як я можу отримати конспекти цих паперів з Інтернету чи будь-якої бази даних? Назви паперу схожі на "Оцінка корисності веб-майнінгу для сфери охорони здоров'я". Хтось знає API, який може дати мені рішення? Я спробував сканувати вчений google, однак google заблокував мого сканера.

13 data-mining machine-learning

2

Вартість авіаперевезень - Який аналіз слід використовувати для виявлення конкурентної поведінки та цінових співвідношень?

Я хочу дослідити поведінку авіакомпаній щодо встановлення цін - зокрема, як авіакомпанії реагують на ціни конкурентів. Як я б сказав, мої знання про більш складний аналіз досить обмежені, я робив здебільшого всі основні методи, щоб зібрати загальний вигляд даних. Сюди входять прості графіки, які вже допомагають виявити подібні зразки. Я …

12 data-mining dataset regression correlation visualization

2

Чи все ще FPGrowth вважається "найсучаснішим" при частому видобутку шаблонів?

Наскільки я знаю, що розробляються алгоритми для вирішення проблеми частого видобутку шаблонів (FPM), шлях удосконалення має деякі основні контрольні точки. По-перше, алгоритм Апріорі був запропонований в 1993 році Agrawal et al. разом із формалізацією проблеми. Алгоритм зміг зняти деякі набори з 2^n - 1наборів (powerset), використовуючи решітку для підтримки даних. …

12 bigdata data-mining efficiency state-of-the-art

2

Як я можу відповідати категоричним типам даних для випадкової класифікації лісів?

Мені потрібно знайти точність набору даних, застосовуючи алгоритм Random Forest. Але мій тип мого набору даних є і категоричним, і числовим. Коли я намагався вкласти ці дані, я отримую помилку. 'Вхід містить NaN, нескінченність або занадто велике значення для dtype (' float32 ')'. Можливо, проблема полягає в об'єктних типах даних. …

12 python data-mining random-forest

Запитання з тегом «data-mining»