Запитання з тегом «bigdata»

Великі дані - це термін для набору наборів даних настільки великий і складний, що стає важко обробляти за допомогою інструментів управління базами даних або традиційних програм для обробки даних. Виклики включають захоплення, курацію, зберігання, пошук, обмін, передачу, аналіз та візуалізацію.

8
Чи підходить Python для великих даних
Я читаю в цьому дописі, чи підходить мова R для Big Data, яка становить великі дані 5TB, і хоча це добре допомагає надавати інформацію про доцільність роботи з даними такого типу, в Rній надається дуже мало інформації Python. Мені було цікаво, чи Pythonможна працювати і з такою кількістю даних.
14 bigdata  python 

1
Коли реляційна база даних має кращі показники, ніж реляційна
Коли реляційна база даних, як MySQL, має кращу продуктивність, ніж реляційна, як MongoDB? Днями я побачив питання про Quora про те, чому Quora все ще використовує MySQL як їхній запуск, і про те, що їхня ефективність все ще хороша.

4
Великий випадок даних чи приклад використання
Я читав багато блогів \ статті про те, як різні галузі використовують великі аналітичні дані. Але більшість із цих статей не згадується Які своєрідні дані використовували ці компанії. Який був розмір даних Які види інструментальних технологій вони використовували для обробки даних Яка була проблема, з якою вони стикалися, і як …

4
Чи можемо ми скористатися використанням трансферного навчання під час навчання моделей word2vec?
Я шукаю заздалегідь підготовлену вагу вже навчених моделей, таких як дані Google News тощо. Мені було важко навчити нову модель з достатньою кількістю даних (10 Гб тощо) для себе. Отже, я хочу скористатись трансферним навчанням, в якому я міг би отримати попередньо підготовлену вагу шару та перевчити ці ваги на …

7
Що таке "стара назва" вченого?
У наші дні все частіше вживаються такі терміни, як "наука про дані" та "вчений щодо даних". Багато компаній наймають «науковця даних». Але я не думаю, що це абсолютно нова робота. Дані існували з минулого, і комусь довелося мати справу з даними. Я здогадуюсь, що термін «науковець даних» стає більш популярним, …
12 bigdata 

2
Алгоритм відповідності переваг
Є цей побічний проект, над яким я працюю, де мені потрібно структурувати рішення наступної проблеми. У мене дві групи людей (клієнти). Група Aмає намір придбати, а група Bмає намір продати визначений товар X. У продукту є низка атрибутів x_i, і моя мета - полегшити транзакцію між ними Aта Bшляхом їх …

2
Компроміси між штормом та Hadoop (MapReduce)
Чи може хтось люб’язно розказати мені про компроміси, які брали участь у виборі між Storm та MapReduce у кластері Hadoop для обробки даних? Звичайно, окрім очевидного, що Hadoop (обробка через MapReduce в кладоні Hadoop) є системою пакетної обробки, а Storm - системою обробки в режимі реального часу. Я трохи працював …

3
Як запит до величезної бази даних повертається з незначною затримкою?
Наприклад, шукаючи щось у Google, результати повертаються майже миттєво. Я розумію, що Google сортує та індексує сторінки з алгоритмами і т. Д., Але я вважаю це нездійсненним для індексації результатів кожного можливого запиту (а результати персоналізовані, що робить це ще більш нездійсненним)? Крім того, хіба не буде затримка апаратного забезпечення …
12 bigdata  google  search 

1
Скільки клітин LSTM я повинен використовувати?
Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
Чи все ще FPGrowth вважається "найсучаснішим" при частому видобутку шаблонів?
Наскільки я знаю, що розробляються алгоритми для вирішення проблеми частого видобутку шаблонів (FPM), шлях удосконалення має деякі основні контрольні точки. По-перше, алгоритм Апріорі був запропонований в 1993 році Agrawal et al. разом із формалізацією проблеми. Алгоритм зміг зняти деякі набори з 2^n - 1наборів (powerset), використовуючи решітку для підтримки даних. …

4
Робота з кластерами HPC
У моєму університеті у нас є обчислювальний кластер HPC. Я використовую кластер для підготовки класифікаторів тощо. Отже, зазвичай, щоб надіслати завдання кластеру (наприклад, скрипт python scikit-learn), мені потрібно написати сценарій Bash, який містить (серед інших) таку команду, як qsub script.py. Однак мені здається, що цей процес дуже розчаровує. Зазвичай відбувається …

3
Кращі мови для наукових обчислень [закрито]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Що швидше: PostgreSQL проти MongoDB на великих наборах даних JSON?
У мене великий набір даних з 9м JSON-об'єктів по ~ 300 байт кожен. Це повідомлення з агрегатора посилань: в основному посилання (URL, назва та ідентифікатор автора) та коментарі (текст та ідентифікатор автора) + метадані. Вони цілком можуть бути реляційними записами в таблиці, за винятком того, що вони мають одне поле …

2
Виявлення масштабованого зовнішнього вигляду / аномалії
Я намагаюся налаштувати велику інфраструктуру даних за допомогою Hadoop, Hive, Elastic Search (серед інших), і я хотів би запустити деякі алгоритми над певними наборами даних. Я хотів би, щоб самі алгоритми були масштабованими, тому це виключає використання таких інструментів, як Weka, R або навіть RHadoop. Бібліотека Apache Mahout здається хорошим …

3
Як різноманітні статистичні методи (регресія, PCA тощо) масштабують з розміром та розміром вибірки?
Чи відома загальна таблиця статистичних методик, яка пояснює, як вони масштабуються з розміром і розміром вибірки? Наприклад, мій друг сказав мені днями, що час обчислення просто швидкого сортування одновимірних даних за розміром n йде як n * log (n). Наприклад, якщо ми регресуємо y проти X, де X є d-мірною …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.