Запитання з тегом «data-mining»

Діяльність, яка шукає шаблони у великих, складних наборах даних. Зазвичай це підкреслює алгоритмічні прийоми, але може також включати будь-який набір пов'язаних навичок, застосувань чи методологій з цією метою.

3
Чи є якісні нестандартні мовні моделі для python?
Я прототипую додаток, і мені потрібна мовна модель, щоб обчислити здивування в деяких створених пропозиціях. Чи є якась навчена мовна модель в python, яку я можу легко використовувати? Щось на кшталт простого model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Скільки даних достатньо для навчання моєї моделі машинного навчання?
Я деякий час працював над машинним навчанням та біоінформатикою, і сьогодні я мав розмову з колегою про основні загальні питання видобутку даних. Мій колега (який є експертом з машинного навчання) сказав, що, на його думку, найважливішим практичним аспектом машинного навчання є те, як зрозуміти, чи ви зібрали достатньо даних для …

4
Як уникнути перевитрати у випадкових лісах?
Я хочу уникнути перевитрати у випадкових лісах. У зв'язку з цим я маю намір використовувати mtry, nodesize та maxnodes тощо. Чи можете ви мені допомогти вибрати значення для цих параметрів? Я використовую Р. Також, якщо можливо, скажіть, будь ласка, як я можу використовувати перехресну перевірку k-кратного для випадкового лісу (в …

7
Веб-скреблінг LinkedIn
Нещодавно я відкрив новий пакет R для підключення до API LinkedIn. На жаль, API LinkedIn, здається, для початку досить обмежений; наприклад, ви можете отримати лише основні дані про компанії, і це відмежовано від даних про фізичних осіб. Я хотів би отримати дані про всіх співробітників даної компанії, що ви можете …

3
Відносини між KS, AUROC та Gini
Загальні статистичні дані валідації, такі як тест Колмогорова – Смірнова (KS), AUROC та коефіцієнт Джіні, є функціонально пов'язаними. Однак моє запитання стосується доведення того, як вони пов'язані між собою. Мені цікаво, чи хтось може допомогти мені довести ці стосунки. Мені нічого не вдалося знайти в Інтернеті, але мене просто щиро …

4
Робота з кластерами HPC
У моєму університеті у нас є обчислювальний кластер HPC. Я використовую кластер для підготовки класифікаторів тощо. Отже, зазвичай, щоб надіслати завдання кластеру (наприклад, скрипт python scikit-learn), мені потрібно написати сценарій Bash, який містить (серед інших) таку команду, як qsub script.py. Однак мені здається, що цей процес дуже розчаровує. Зазвичай відбувається …

3
Кращі мови для наукових обчислень [закрито]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
Візуалізація предметів, які часто купуються разом
Я маю набір даних у такій структурі, що вставлений у файл CSV: Banana Water Rice Rice Water Bread Banana Juice Кожен рядок позначає колекцію предметів, які були придбані разом. Наприклад, перший рядок означає , що елементи Banana, Waterі Riceбули придбані разом. Я хочу створити візуалізацію на зразок наступного: Це в …

3
Що швидше: PostgreSQL проти MongoDB на великих наборах даних JSON?
У мене великий набір даних з 9м JSON-об'єктів по ~ 300 байт кожен. Це повідомлення з агрегатора посилань: в основному посилання (URL, назва та ідентифікатор автора) та коментарі (текст та ідентифікатор автора) + метадані. Вони цілком можуть бути реляційними записами в таблиці, за винятком того, що вони мають одне поле …

4
Як скребти веб-сторінку imdb?
Я намагаюся навчитися веб-вискоблюванню за допомогою Python самостійно як частина зусиль для вивчення аналізу даних. Я намагаюся скребити веб-сторінку imdb, URL-адреса якої: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Я використовую модуль BeautifulSoup. Далі йде код, який я використовую: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): …

2
Виявлення масштабованого зовнішнього вигляду / аномалії
Я намагаюся налаштувати велику інфраструктуру даних за допомогою Hadoop, Hive, Elastic Search (серед інших), і я хотів би запустити деякі алгоритми над певними наборами даних. Я хотів би, щоб самі алгоритми були масштабованими, тому це виключає використання таких інструментів, як Weka, R або навіть RHadoop. Бібліотека Apache Mahout здається хорошим …

4
Які початкові кроки я повинен використовувати, щоб зрозуміти великі набори даних, і які інструменти я повинен використовувати?
Caveat: Я повний новачок, коли йдеться про машинне навчання, але прагну вчитися. У мене великий набір даних, і я намагаюся знайти в ньому шаблон. Можливо / може не бути кореляції між даними, як з відомими змінними, так і зі змінними, які містяться в даних, але які я ще не зрозумів, …

4
Чому кілька моделей можуть дати майже однакові результати?
Я аналізував набір даних ~ 400k записів і 9 змінних Залежна змінна є двійковою. Я встановив логістичну регресію, дерево регресії, випадковий ліс і дерево, підсилене градієнтом. Усі вони надають віртуальну ідентичну корисність підходящих номерів, коли я перевіряю їх в іншому наборі даних. Чому це так? Я здогадуюсь, що це тому, …

1
Доступний позитивний користувачевий продукт (дані про кліки). Як генерувати негативні дані (без кліку)?
Дуже поширене в рекомендації про те, що у нас є дані про користувацькі товари, які мають мітку як, наприклад, "клацання". Для того, щоб вивчити модель, мені потрібні дані клацання та без натискання. Найпростіший підхід для створення - це взяти пари продуктів-користувачів, які не знайдені в даних про кліки. Однак це …

1
Як я обчислюю дельта-термін згорткового шару, враховуючи дельта-умови і ваги попереднього згорткового шару?
Я намагаюся тренувати штучну нейронну мережу з двома звивистими шарами (c1, c2) та двома прихованими шарами (c1, c2). Я використовую стандартний підхід для розмноження. У зворотному проході я обчислюю термін помилки шару (дельта) на основі похибки попереднього шару, ваги попереднього шару та градієнта активації щодо функції активації поточного шару. Більш …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.