Наука про дані bigdata

8

Я читаю в цьому дописі, чи підходить мова R для Big Data, яка становить великі дані 5TB, і хоча це добре допомагає надавати інформацію про доцільність роботи з даними такого типу, в Rній надається дуже мало інформації Python. Мені було цікаво, чи Pythonможна працювати і з такою кількістю даних.

14 bigdata python

1

Коли реляційна база даних має кращі показники, ніж реляційна

Коли реляційна база даних, як MySQL, має кращу продуктивність, ніж реляційна, як MongoDB? Днями я побачив питання про Quora про те, чому Quora все ще використовує MySQL як їхній запуск, і про те, що їхня ефективність все ще хороша.

13 bigdata performance databases nosql

4

Великий випадок даних чи приклад використання

Я читав багато блогів \ статті про те, як різні галузі використовують великі аналітичні дані. Але більшість із цих статей не згадується Які своєрідні дані використовували ці компанії. Який був розмір даних Які види інструментальних технологій вони використовували для обробки даних Яка була проблема, з якою вони стикалися, і як …

13 data-mining bigdata usecase

4

Чи можемо ми скористатися використанням трансферного навчання під час навчання моделей word2vec?

Я шукаю заздалегідь підготовлену вагу вже навчених моделей, таких як дані Google News тощо. Мені було важко навчити нову модель з достатньою кількістю даних (10 Гб тощо) для себе. Отже, я хочу скористатись трансферним навчанням, в якому я міг би отримати попередньо підготовлену вагу шару та перевчити ці ваги на …

13 machine-learning bigdata word2vec

7

Що таке "стара назва" вченого?

У наші дні все частіше вживаються такі терміни, як "наука про дані" та "вчений щодо даних". Багато компаній наймають «науковця даних». Але я не думаю, що це абсолютно нова робота. Дані існували з минулого, і комусь довелося мати справу з даними. Я здогадуюсь, що термін «науковець даних» стає більш популярним, …

12 bigdata

2

Алгоритм відповідності переваг

Є цей побічний проект, над яким я працюю, де мені потрібно структурувати рішення наступної проблеми. У мене дві групи людей (клієнти). Група Aмає намір придбати, а група Bмає намір продати визначений товар X. У продукту є низка атрибутів x_i, і моя мета - полегшити транзакцію між ними Aта Bшляхом їх …

12 bigdata text-mining recommender-system

2

Компроміси між штормом та Hadoop (MapReduce)

Чи може хтось люб’язно розказати мені про компроміси, які брали участь у виборі між Storm та MapReduce у кластері Hadoop для обробки даних? Звичайно, окрім очевидного, що Hadoop (обробка через MapReduce в кладоні Hadoop) є системою пакетної обробки, а Storm - системою обробки в режимі реального часу. Я трохи працював …

12 bigdata efficiency apache-hadoop distributed

3

Як запит до величезної бази даних повертається з незначною затримкою?

Наприклад, шукаючи щось у Google, результати повертаються майже миттєво. Я розумію, що Google сортує та індексує сторінки з алгоритмами і т. Д., Але я вважаю це нездійсненним для індексації результатів кожного можливого запиту (а результати персоналізовані, що робить це ще більш нездійсненним)? Крім того, хіба не буде затримка апаратного забезпечення …

12 bigdata google search

1

Скільки клітин LSTM я повинен використовувати?

Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

Чи все ще FPGrowth вважається "найсучаснішим" при частому видобутку шаблонів?

Наскільки я знаю, що розробляються алгоритми для вирішення проблеми частого видобутку шаблонів (FPM), шлях удосконалення має деякі основні контрольні точки. По-перше, алгоритм Апріорі був запропонований в 1993 році Agrawal et al. разом із формалізацією проблеми. Алгоритм зміг зняти деякі набори з 2^n - 1наборів (powerset), використовуючи решітку для підтримки даних. …

12 bigdata data-mining efficiency state-of-the-art

4

Робота з кластерами HPC

У моєму університеті у нас є обчислювальний кластер HPC. Я використовую кластер для підготовки класифікаторів тощо. Отже, зазвичай, щоб надіслати завдання кластеру (наприклад, скрипт python scikit-learn), мені потрібно написати сценарій Bash, який містить (серед інших) таку команду, як qsub script.py. Однак мені здається, що цей процес дуже розчаровує. Зазвичай відбувається …

11 bigdata data-mining

3

Кращі мови для наукових обчислень [закрито]

Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Що швидше: PostgreSQL проти MongoDB на великих наборах даних JSON?

У мене великий набір даних з 9м JSON-об'єктів по ~ 300 байт кожен. Це повідомлення з агрегатора посилань: в основному посилання (URL, назва та ідентифікатор автора) та коментарі (текст та ідентифікатор автора) + метадані. Вони цілком можуть бути реляційними записами в таблиці, за винятком того, що вони мають одне поле …

10 data-mining bigdata databases sql mongodb

2

Виявлення масштабованого зовнішнього вигляду / аномалії

Я намагаюся налаштувати велику інфраструктуру даних за допомогою Hadoop, Hive, Elastic Search (серед інших), і я хотів би запустити деякі алгоритми над певними наборами даних. Я хотів би, щоб самі алгоритми були масштабованими, тому це виключає використання таких інструментів, як Weka, R або навіть RHadoop. Бібліотека Apache Mahout здається хорошим …

10 data-mining bigdata algorithms outlier

3

Як різноманітні статистичні методи (регресія, PCA тощо) масштабують з розміром та розміром вибірки?

Чи відома загальна таблиця статистичних методик, яка пояснює, як вони масштабуються з розміром і розміром вибірки? Наприклад, мій друг сказав мені днями, що час обчислення просто швидкого сортування одновимірних даних за розміром n йде як n * log (n). Наприклад, якщо ми регресуємо y проти X, де X є d-мірною …

10 bigdata statistics efficiency scalability

Запитання з тегом «bigdata»