Запитання з тегом «data-mining»

Діяльність, яка шукає шаблони у великих, складних наборах даних. Зазвичай це підкреслює алгоритмічні прийоми, але може також включати будь-який набір пов'язаних навичок, застосувань чи методологій з цією метою.

13
K-засоби кластеризації для змішаних числових та категоричних даних
Мій набір даних містить ряд числових атрибутів та один категоричний. Скажіть NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, де CategoricalAttrприймає один з трьох можливих значень: CategoricalAttrValue1, CategoricalAttrValue2або CategoricalAttrValue3. Я використовую реалізацію алгоритму кластеризації k-означає за замовчуванням для Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Він працює лише з числовими даними. Отже, моє запитання: чи правильно розділити …

8
Виявлення аномалії з відкритим кодом у Python
Передумови проблеми: я працюю над проектом, який включає файли журналів, аналогічні тим, які знаходяться в просторі моніторингу ІТ (наскільки я найкраще розумію ІТ-простір). Ці файли журналів - це дані часового ряду, впорядковані в сотні / тисячі рядків різних параметрів. Кожен параметр є числовим (поплавком) і існує значення нетривіального / не …

2
Чи досі підтримуючі векторні машини вважаються "найсучаснішими" у своїй ніші?
Це запитання відповідає на коментар, який я побачив на іншому запитанні. Зауваження стосувалося навчальної програми з вивчення машинного навчання на Coursera, і, відповідно, "SVM не використовуються настільки багато". Я лише щойно закінчив відповідні лекції, і моє розуміння SVM полягає в тому, що вони є надійним і ефективним алгоритмом навчання для …

5
Які існують стандартні способи обчислення відстані між документами?
Коли я кажу "документ", я маю на увазі такі веб-сторінки, як статті Вікіпедії та новини. Я вважаю за краще відповіді, що дають або ванільну лексичну метрику відстані, або сучасні семантичні метричні відстані, з більш сильним перевагою останніх.

1
Чому xgboost так швидше, ніж sklearn GradientBoostingClassifier?
Я намагаюся підготувати градієнтну модель для збільшення градієнта на 50 к. Прикладах із 100 числовими функціями. XGBClassifierобробляє 500 дерев протягом 43 секунд на моїй машині, тоді як GradientBoostingClassifierобробляє лише 10 дерев (!) за 1 хвилину і 2 секунди :( Я не намагався виростити 500 дерев, як це займе години. Я …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
Як зробити SVD та PCA з великими даними?
У мене великий набір даних (близько 8 ГБ). Я хотів би використовувати машинне навчання для його аналізу. Отже, я думаю, що я повинен використовувати SVD, а потім PCA, щоб зменшити розмірність даних для ефективності. Однак MATLAB і Octave не можуть завантажити такий великий набір даних. Які інструменти я можу використовувати …

3
Коефіцієнт Джині проти домішок Джині - дерева рішень
Проблема стосується побудови дерев рішень. Згідно з Вікіпедією, « коефіцієнт Джіні » не слід плутати з « домішкою Джині ». Однак обидва заходи можуть бути використані при складанні дерева рішень - вони можуть підтримувати наш вибір при розділенні набору елементів. 1) "домішка Джині" - це стандартна метрика поділу дерева рішень …

3
Навіщо нам потрібні XGBoost та Random Forest?
Мені не було зрозуміло в кількох поняттях: XGBoost перетворює слабких учнів у сильних. Яка перевага в цьому? Об’єднання багатьох слабких учнів замість того, щоб просто використовувати одне дерево? Випадковий ліс використовує різні зразки з дерева для створення дерева. У чому перевага цього методу замість того, щоб просто використовувати єдине дерево?

3
Чому громади NLP та машинного навчання зацікавлені у глибокому навчанні?
Сподіваюся, ви можете мені допомогти, оскільки у мене є деякі запитання на цю тему. Я новачок у галузі глибокого навчання, і хоча я робив кілька навчальних посібників, я не можу співвідносити чи відрізняти поняття одне від одного.

4
Значення прихованих ознак?
Я дізнаюся про матричну факторизацію для систем рекомендацій, і я бачу, що термін latent featuresзустрічається занадто часто, але я не в змозі зрозуміти, що це означає. Я знаю, що таке особливість, але я не розумію ідеї прихованих рис. Чи можете ви поясніть це? Або принаймні вказати мені на папір / …

4
Чи Data Science збігається з обробкою даних?
Я впевнений, що наука про дані, як буде обговорюватися на цьому форумі, має кілька синонімів або, принаймні, суміжних областей, де аналізуються великі дані. Моє особливе питання стосується пошуку даних. Я взяв випускник класу Data Mining кілька років тому. У чому полягають відмінності між Data Science та Data Mining, зокрема, на …

2
Як боротися з часовими рядами, які змінюються сезонністю чи іншими моделями?
Фон Я працюю над набором даних часових рядів показань лічильника енергії. Тривалість серії варіюється в залежності від метра - для одних у мене кілька років, інших - лише кілька місяців і т. Д. Багато хто демонструє значну сезонність, а часто і багатошаровість - протягом дня, тижня чи року. Однією з …

1
Що таке відстань Хеллінгера і коли її використовувати?
Мені цікаво дізнатися, що насправді відбувається на відстані Хеллінгера (простими словами). Крім того, мені також цікаво знати, які існують проблеми, якими ми можемо скористатися Відстань Хеллінгера? Які переваги використання дистанції Hellinger?

4
Яку статистичну модель я повинен використовувати для аналізу ймовірності того, що одна подія вплинула на поздовжні дані
Я намагаюся знайти формулу, метод чи модель, яку б використати для аналізу ймовірності того, що конкретна подія вплинула на деякі поздовжні дані. Мені важко зрозуміти, що шукати в Google. Ось приклад сценарію: Image Ви є власником бізнесу, який щодня має в середньому 100 відвідувачів. Одного разу ви вирішите, що хочете …

1
Word2Vec проти Sentence2Vec проти Doc2Vec
Нещодавно я натрапив на терміни Word2Vec , Sentence2Vec і Doc2Vec, і я щось плутаю , оскільки я новачок у векторній семантиці. Чи може хтось, будь ласка, детально прояснити відмінності цих методів. Які найбільш підходящі завдання для кожного методу?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.