Наука про дані

Питання та відповіді для фахівців з науки про дані, фахівців з машинного навчання та тих, хто зацікавлений у вивченні даної області

5
Які існують стандартні способи обчислення відстані між документами?
Коли я кажу "документ", я маю на увазі такі веб-сторінки, як статті Вікіпедії та новини. Я вважаю за краще відповіді, що дають або ванільну лексичну метрику відстані, або сучасні семантичні метричні відстані, з більш сильним перевагою останніх.

7
Організовані процеси очищення даних
З мого обмеженого спілкування з інформацією про використання R, я зрозумів, що очищення поганих даних є дуже важливою частиною підготовки даних до аналізу. Чи є найкращі практики чи процеси очищення даних перед їх обробкою? Якщо так, чи є автоматизовані або напівавтоматизовані інструменти, які реалізують деякі з цих найкращих практик?
34 r  data-cleaning 

3
Multi GPU в керах
Як ви можете запрограмувати в бібліотеці керас (або тензорфлоу) для навчання розділів на декількох графічних процесорах? Скажімо, ви знаходитесь в екземплярі Amazon ec2, який має 8 графічних процесорів, і ви хочете використовувати їх для швидшого тренування, але ваш код призначений лише для одного процесора або GPU.

5
Відкриття файлу об'ємом 20 ГБ для аналізу з пандами
Зараз я намагаюся відкрити файл з пандами та пітоном для цілей машинного навчання, для мене було б ідеально мати їх у DataFrame. Тепер файл має 18 Гб, а моя оперативна пам’ять - 32 ГБ, але я постійно отримую помилки в пам'яті. З вашого досвіду це можливо? Якщо ви не знаєте …

4
Інтуїтивне пояснення втрат протишумної оцінки (NCE)?
Я читав про NCE (форму вибірки кандидатів) з цих двох джерел: Тенсдорфловський запис Оригінальний папір Чи може мені хтось допомогти з наступним: Просте пояснення того, як працює NCE (мені було сказано, що важко розібратися та зрозуміти, тому щось інтуїтивне, що призводить до математики, представленої там, було б чудово) Після пункту …

5
Які випадки використання для Apache Spark vs Hadoop
З Hadoop 2.0 та Пряжею Hadoop нібито вже не пов'язаний лише рішеннями, що зменшують карту. З таким просуванням, які випадки використання для Apache Spark проти Hadoop враховують як сидіти на вершині HDFS? Я читав вступну документацію для Spark, але мені цікаво, якщо хтось зіткнувся з проблемою, яка була більш ефективною …

1
Яка найкраща модель Кераса для багатокласової класифікації?
Я працюю на дослідження, де необхідно класифікувати один з WINNER три події = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Моя поточна модель: def build_model(input_dim, output_classes): …

1
Папір: Яка різниця між нормалізацією шару, Нормалізацією періодичної партії (2016) та Нормалізованою партією RNN (2015)?
Отже, останнім часом з'явився документ про нормалізацію шару . Є також реалізація цього на Keras. Але я пам’ятаю, існують документи під назвою « Нормалізація періодичної партії» (Cooijmans, 2016) та « Batch Normalized Recurrent Neural Networks» (Laurent, 2015). Яка різниця між цими трьома? Є цей розділ, пов’язаний із роботою, який я …

5
Глибоке навчання проти збільшення градієнта: коли використовувати?
У мене є велика проблема даних з великим набором даних (візьмемо, наприклад, 50 мільйонів рядків і 200 стовпців). Набір даних складається з приблизно 100 числових стовпців та 100 категоричних стовпців та стовпця відповідей, що представляє проблему бінарного класу. Можливість кожної з категоричних стовпців менше 50. Я хочу апріорі знати, чи …

3
У класифікаторі softmax навіщо використовувати функцію exp для нормалізації?
Навіщо використовувати softmax на відміну від стандартної нормалізації? У області коментарів у верхній відповіді на це питання @Kilian Batzner порушив 2 питання, які також мене дуже бентежать. Здається, ніхто не дає пояснень, крім чисельних переваг. У мене з’являються причини використання крос-ентропійної втрати, але як це стосується софтмаксу? Ви сказали, що …

5
Що таке функція Q та яка функція V у навчанні посилення?
Мені здається, що функцію можна легко виразити функцією і тому функція видається мені зайвою. Однак я новачок у навчанні підкріплення, тож я здогадуюсь, що щось не так.VVVQQQVVV Визначення Q-і V-навчання в контексті процесів рішення Маркова . MDP представляє собою 5-кортеж (S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) з SSS - це набір …

7
Чому дані слід перемішувати для завдань машинного навчання
У завданнях машинного навчання зазвичай перетасовувати дані та нормалізувати їх. Мета нормалізації зрозуміла (для того ж діапазону значень функції). Але, багато потрудившись, я не знайшов жодної цінної причини для перенесення даних. Я читав цю публікацію тут, де обговорювали, коли нам потрібно переміщувати дані, але не очевидно, чому нам слід переміщувати …

2
Що таке основна правда
У контексті машинного навчання я бачив, що термін " Земна правда" вживається дуже багато. Я багато шукав і знайшов таке визначення у Вікіпедії : У машинному навчанні термін "основна істина" означає точність класифікації навчального набору для контрольованих методів навчання. Це використовується в статистичних моделях для доведення або спростування гіпотез досліджень. …

5
Перетворити список списків у фрейм даних Pandas
Я намагаюсь перетворити список списків, який виглядає наступним чином, у DataFram Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] …
30 pandas 

1
Чому xgboost так швидше, ніж sklearn GradientBoostingClassifier?
Я намагаюся підготувати градієнтну модель для збільшення градієнта на 50 к. Прикладах із 100 числовими функціями. XGBClassifierобробляє 500 дерев протягом 43 секунд на моїй машині, тоді як GradientBoostingClassifierобробляє лише 10 дерев (!) за 1 хвилину і 2 секунди :( Я не намагався виростити 500 дерев, як це займе години. Я …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.