Наука про дані bigdata

12

Багато людей використовують термін великі дані досить комерційним шляхом, як засіб вказування на те, що великі набори даних беруть участь у обчисленнях, і тому потенційні рішення повинні мати хороші показники. Звичайно, великі дані завжди містять пов'язані терміни, такі як масштабованість та ефективність, але що саме визначає проблему як велику проблему …

86 bigdata scalability efficiency performance

9

Чи підходить мова R для великих даних

R має багато бібліотек, які спрямовані на аналіз даних (наприклад, JAGS, BUGS, ARULES тощо), і згадується в популярних підручниках, таких як: J.Krusche, Doing Bayesian Analysis Data; Б.Ланц, «Машинне навчання з R». Я бачив керівництво в 5 ТБ для набору даних, який слід розглядати як великі дані. Моє запитання: чи R …

48 bigdata r

9

Як боротися з контролем версій великої кількості (бінарних) даних

Я докторант геофізики і працюю з великою кількістю даних про зображення (сотні ГБ, десятки тисяч файлів). Я добре знаю svnі gitціную історію проекту в поєднанні з можливістю легко працювати разом і захищати від корупції на диску. Я вважаю gitтакож надзвичайно корисним для постійних резервних копій, але я знаю, що git …

46 bigdata databases binary version-control

11

Наука даних в C (або C ++)

Я Rмовний програміст. Я також в групі людей, яких вважають науковцями даних, але які виходять з наукових дисциплін, відмінних від CS. Це добре справляється з моєю роллю вченого даних, однак, розпочинаючи свою кар’єру Rі маючи лише базові знання інших сценаріїв / веб-мов, я почувався дещо неадекватним у двох ключових сферах: …

40 machine-learning bigdata statistics programming c

9

Чи потрібно мені навчитися Hadoop бути науковцем даних?

Прагнутий вчений даних тут. Я нічого не знаю про Hadoop, але, як я читав про Data Science та Big Data, я бачу багато розмов про Hadoop. Чи потрібно абсолютно навчитися Hadoop бути науковцем даних?

38 bigdata apache-hadoop

5

Відкриття файлу об'ємом 20 ГБ для аналізу з пандами

Зараз я намагаюся відкрити файл з пандами та пітоном для цілей машинного навчання, для мене було б ідеально мати їх у DataFrame. Тепер файл має 18 Гб, а моя оперативна пам’ять - 32 ГБ, але я постійно отримую помилки в пам'яті. З вашого досвіду це можливо? Якщо ви не знаєте …

33 python bigdata pandas anaconda

1

Чому xgboost так швидше, ніж sklearn GradientBoostingClassifier?

Я намагаюся підготувати градієнтну модель для збільшення градієнта на 50 к. Прикладах із 100 числовими функціями. XGBClassifierобробляє 500 дерев протягом 43 секунд на моїй машині, тоді як GradientBoostingClassifierобробляє лише 10 дерев (!) за 1 хвилину і 2 секунди :( Я не намагався виростити 500 дерев, як це займе години. Я …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

6

Як зробити SVD та PCA з великими даними?

У мене великий набір даних (близько 8 ГБ). Я хотів би використовувати машинне навчання для його аналізу. Отже, я думаю, що я повинен використовувати SVD, а потім PCA, щоб зменшити розмірність даних для ефективності. Однак MATLAB і Octave не можуть завантажити такий великий набір даних. Які інструменти я можу використовувати …

29 bigdata data-mining dimensionality-reduction

3

Ідеї проекту з наукових даних [закрито]

Закрито . Це питання ґрунтується на думці . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб на нього можна було відповісти фактами та цитатами, відредагувавши цю публікацію . Закрито 5 років тому . Я не знаю, чи це правильне місце для того, щоб задати це питання, але …

23 machine-learning bigdata dataset

4

Підвищити швидкість впровадження t-sne в python для величезних даних

Я хотів би зробити скорочення розмірності на майже 1 мільйон векторів кожних 200 вимірювань ( doc2vec). Я використовую для цього TSNEреалізацію з sklearn.manifoldмодуля, і головна проблема - складність у часі. Навіть при method = barnes_hutцьому швидкість обчислення залишається низькою. Деякий час навіть не вистачає пам'яті. Я працюю на 48-ядерному процесорі …

18 python bigdata nlp scikit-learn dimensionality-reduction

2

Використовуйте ліблінеар на великих даних для семантичного аналізу

Я використовую Libsvm для підготовки даних та прогнозування класифікації на проблему семантичного аналізу . Але у нього є випуск ефективності для масштабних даних, оскільки семантичний аналіз стосується проблеми n-виміру . Минулого року вийшов Liblinear , і це може вирішити вузькі місця. Але це коштувало занадто багато пам'яті . Чи MapReduce …

17 machine-learning bigdata libsvm

5

збільшують теплову карту для новонароджених

Я створюю corr()df з оригінального df. corr()ДФ вийшов 70 X 70 і неможливо уявити собі Heatmap ... sns.heatmap(df). Якщо я спробую відобразити corr = df.corr()таблицю, таблиця не відповідає екрану, і я бачу всі кореляції. Це спосіб або надрукувати весь, dfнезалежно від його розміру, або контролювати розмір теплової карти?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Використання бази даних NoSQL в науці даних

Як можна використовувати бази даних NoSQL на зразок MongoDB для аналізу даних? Які функції в них можуть зробити аналіз даних швидшим та потужнішим?

16 bigdata nosql mongodb

4

Шукаємо, наприклад, інфраструктурні стеки / робочі потоки / трубопроводи

Я намагаюся зрозуміти, як всі компоненти "великих даних" грають разом у реальному випадку використання, наприклад, hadoop, monogodb / nosql, storm, kafka, ... Я знаю, що це досить широкий спектр інструментів, які використовуються для різних типів, але я хотів би дізнатися більше про їх взаємодію в додатках, наприклад, мислення машинного навчання …

14 machine-learning bigdata efficiency scalability distributed

3

Коли р-значення оманливі?

Які умови даних слід слідкувати, коли значення p може бути не найкращим способом визначення статистичної значущості? Чи є конкретні типи проблем, які належать до цієї категорії?

14 bigdata statistics

Запитання з тегом «bigdata»