Наука про дані

5

Які існують стандартні способи обчислення відстані між документами?

Коли я кажу "документ", я маю на увазі такі веб-сторінки, як статті Вікіпедії та новини. Я вважаю за краще відповіді, що дають або ванільну лексичну метрику відстані, або сучасні семантичні метричні відстані, з більш сильним перевагою останніх.

34 machine-learning data-mining nlp text-mining similarity

7

Організовані процеси очищення даних

З мого обмеженого спілкування з інформацією про використання R, я зрозумів, що очищення поганих даних є дуже важливою частиною підготовки даних до аналізу. Чи є найкращі практики чи процеси очищення даних перед їх обробкою? Якщо так, чи є автоматизовані або напівавтоматизовані інструменти, які реалізують деякі з цих найкращих практик?

34 r data-cleaning

3

Multi GPU в керах

Як ви можете запрограмувати в бібліотеці керас (або тензорфлоу) для навчання розділів на декількох графічних процесорах? Скажімо, ви знаходитесь в екземплярі Amazon ec2, який має 8 графічних процесорів, і ви хочете використовувати їх для швидшого тренування, але ваш код призначений лише для одного процесора або GPU.

33 python deep-learning tensorflow keras gpu

5

Відкриття файлу об'ємом 20 ГБ для аналізу з пандами

Зараз я намагаюся відкрити файл з пандами та пітоном для цілей машинного навчання, для мене було б ідеально мати їх у DataFrame. Тепер файл має 18 Гб, а моя оперативна пам’ять - 32 ГБ, але я постійно отримую помилки в пам'яті. З вашого досвіду це можливо? Якщо ви не знаєте …

33 python bigdata pandas anaconda

4

Інтуїтивне пояснення втрат протишумної оцінки (NCE)?

Я читав про NCE (форму вибірки кандидатів) з цих двох джерел: Тенсдорфловський запис Оригінальний папір Чи може мені хтось допомогти з наступним: Просте пояснення того, як працює NCE (мені було сказано, що важко розібратися та зрозуміти, тому щось інтуїтивне, що призводить до математики, представленої там, було б чудово) Після пункту …

32 deep-learning tensorflow word-embeddings sampling loss-function

5

Які випадки використання для Apache Spark vs Hadoop

З Hadoop 2.0 та Пряжею Hadoop нібито вже не пов'язаний лише рішеннями, що зменшують карту. З таким просуванням, які випадки використання для Apache Spark проти Hadoop враховують як сидіти на вершині HDFS? Я читав вступну документацію для Spark, але мені цікаво, якщо хтось зіткнувся з проблемою, яка була більш ефективною …

30 apache-hadoop distributed knowledge-base

1

Яка найкраща модель Кераса для багатокласової класифікації?

Я працюю на дослідження, де необхідно класифікувати один з WINNER три події = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Моя поточна модель: def build_model(input_dim, output_classes): …

30 python neural-network classification clustering keras

1

Папір: Яка різниця між нормалізацією шару, Нормалізацією періодичної партії (2016) та Нормалізованою партією RNN (2015)?

Отже, останнім часом з'явився документ про нормалізацію шару . Є також реалізація цього на Keras. Але я пам’ятаю, існують документи під назвою « Нормалізація періодичної партії» (Cooijmans, 2016) та « Batch Normalized Recurrent Neural Networks» (Laurent, 2015). Яка різниця між цими трьома? Є цей розділ, пов’язаний із роботою, який я …

30 deep-learning rnn normalization batch-normalization

5

Глибоке навчання проти збільшення градієнта: коли використовувати?

У мене є велика проблема даних з великим набором даних (візьмемо, наприклад, 50 мільйонів рядків і 200 стовпців). Набір даних складається з приблизно 100 числових стовпців та 100 категоричних стовпців та стовпця відповідей, що представляє проблему бінарного класу. Можливість кожної з категоричних стовпців менше 50. Я хочу апріорі знати, чи …

30 machine-learning classification deep-learning

3

У класифікаторі softmax навіщо використовувати функцію exp для нормалізації?

Навіщо використовувати softmax на відміну від стандартної нормалізації? У області коментарів у верхній відповіді на це питання @Kilian Batzner порушив 2 питання, які також мене дуже бентежать. Здається, ніхто не дає пояснень, крім чисельних переваг. У мене з’являються причини використання крос-ентропійної втрати, але як це стосується софтмаксу? Ви сказали, що …

30 machine-learning deep-learning

5

Що таке функція Q та яка функція V у навчанні посилення?

Мені здається, що функцію можна легко виразити функцією і тому функція видається мені зайвою. Однак я новачок у навчанні підкріплення, тож я здогадуюсь, що щось не так.VVVQQQVVV Визначення Q-і V-навчання в контексті процесів рішення Маркова . MDP представляє собою 5-кортеж (S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) з SSS - це набір …

30 machine-learning reinforcement-learning

7

Чому дані слід перемішувати для завдань машинного навчання

У завданнях машинного навчання зазвичай перетасовувати дані та нормалізувати їх. Мета нормалізації зрозуміла (для того ж діапазону значень функції). Але, багато потрудившись, я не знайшов жодної цінної причини для перенесення даних. Я читав цю публікацію тут, де обговорювали, коли нам потрібно переміщувати дані, але не очевидно, чому нам слід переміщувати …

30 machine-learning neural-network deep-learning

2

Що таке основна правда

У контексті машинного навчання я бачив, що термін " Земна правда" вживається дуже багато. Я багато шукав і знайшов таке визначення у Вікіпедії : У машинному навчанні термін "основна істина" означає точність класифікації навчального набору для контрольованих методів навчання. Це використовується в статистичних моделях для доведення або спростування гіпотез досліджень. …

30 machine-learning neural-network deep-learning

5

Перетворити список списків у фрейм даних Pandas

Я намагаюсь перетворити список списків, який виглядає наступним чином, у DataFram Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] …

30 pandas

1

Чому xgboost так швидше, ніж sklearn GradientBoostingClassifier?

Я намагаюся підготувати градієнтну модель для збільшення градієнта на 50 к. Прикладах із 100 числовими функціями. XGBClassifierобробляє 500 дерев протягом 43 секунд на моїй машині, тоді як GradientBoostingClassifierобробляє лише 10 дерев (!) за 1 хвилину і 2 секунди :( Я не намагався виростити 500 дерев, як це займе години. Я …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning