Наука про дані

11

Я Rмовний програміст. Я також в групі людей, яких вважають науковцями даних, але які виходять з наукових дисциплін, відмінних від CS. Це добре справляється з моєю роллю вченого даних, однак, розпочинаючи свою кар’єру Rі маючи лише базові знання інших сценаріїв / веб-мов, я почувався дещо неадекватним у двох ключових сферах: …

40 machine-learning bigdata statistics programming c

5

ГБМ проти XGBOOST? Ключові відмінності?

Я намагаюся зрозуміти ключові відмінності між GBM та XGBOOST. Я спробував google це, але не міг знайти жодних хороших відповідей, що пояснювали б відмінності між двома алгоритмами та чому xgboost майже завжди працює краще, ніж GBM. Що робить XGBOOST настільки швидким?

40 machine-learning algorithms xgboost ensemble-modeling gbm

3

Коли використовувати що - машинне навчання [закрито]

Нещодавно в класі машинного навчання від професора Оріола Пухоля з UPC / Барселона він описав найпоширеніші алгоритми, принципи та концепції, які слід використовувати для широкого кола завдань, пов'язаних з машинним навчанням. Ось я поділюсь ними з вами і прошу вас: чи є якась комплексна рамка, яка відповідає завданням підходів або …

39 machine-learning algorithms

3

Чи має batch_size в Керасі вплив на якість результатів?

Я збираюся тренувати велику мережу LSTM з 2-3 мільйонами статей і борюся з помилками пам'яті (я використовую AWS EC2 g2x2large). Я з'ясував, що одне рішення - зменшити batch_size. Однак я не впевнений, чи цей параметр пов’язаний лише з проблемами ефективності пам'яті чи він вплине на мої результати. Власне кажучи, я …

38 deep-learning keras

9

Чи потрібно мені навчитися Hadoop бути науковцем даних?

Прагнутий вчений даних тут. Я нічого не знаю про Hadoop, але, як я читав про Data Science та Big Data, я бачу багато розмов про Hadoop. Чи потрібно абсолютно навчитися Hadoop бути науковцем даних?

38 bigdata apache-hadoop

3

Яка різниця між "еквівалентом перекладу" та "інваріантним для перекладу"

У мене виникають проблеми з розумінням різниці між еквівалентом перекладу та інваріантним для перекладу . У книзі « Глибоке навчання» . MIT Press, 2016 (I. Goodfellow, A. Courville, Y. Bengio), можна знайти в конволюційних мережах: [...] конкретна форма спільного використання параметрів спричиняє властивість шару, який називається еквівалентністю перекладу [...] об'єднання …

38 neural-network deep-learning convolution

11

Чи використовують дані вчені Excel?

Я вважав би себе вченим даними. Як і більшість (я думаю), я склав свої перші графіки і зробив свої перші агрегації у середній школі та коледжі, використовуючи Excel. Пройшовши навчання в коледжі, середній школі та ~ 7 років досвіду роботи, я швидко підібрав те, що вважаю більш досконалими інструментами, такими …

37 tools career excel

2

Як інтерпретувати висновок важливості XGBoost?

Я керував моделлю xgboost. Я точно не знаю, як інтерпретувати результат xgb.importance. Яке значення посилення, покриття та частоти і як їх інтерпретувати? Крім того, що означає Split, RealCover та RealCover%? У мене є деякі додаткові параметри тут Чи є якісь інші параметри, які можуть розповісти мені більше про імпорт функцій? …

37 machine-learning xgboost

5

Чи має алгоритм вибору / покрокової регресії в scikit-learn?

Я працюю над проблемою із занадто великою кількістю функцій, і навчання моїх моделей відбувається занадто довго. Я реалізував алгоритм вибору вперед для вибору функцій. Однак мені було цікаво, чи має scikit-learn алгоритм вибору / покрокової регресії?

37 feature-selection scikit-learn

3

Розрахунок та візуалізація матриці кореляції з пандами

У мене є кадр даних панди з декількома записами, і я хочу обчислити співвідношення між доходами певного типу магазинів. Існує ряд магазинів з даними про доходи, класифікацією сфери діяльності (театр, магазини тканин, продукти харчування ...) та іншими даними. Я спробував створити новий кадр даних і вставити стовпчик із доходом усіх …

35 python statistics visualization pandas

13

Наука даних, пов’язаних із смішними цитатами

Користувачі різних спільнот звикли цитувати смішні речі про свої поля. Можливо, буде цікаво ділитися своїми смішними речами про машинне навчання, глибоке навчання, наукові дані та речі, з якими ви стикаєтеся щодня!

35 machine-learning neural-network deep-learning

13

Що ви думаєте про сертифікати Data Science?

Зараз я бачив дві програми сертифікації наукових даних - Джон Хопкінс, один із Coursera та Cloudera . Я впевнений, що там є й інші. Набір класів Джона Хопкінса орієнтований на R як набір інструментів, але охоплює низку тем: R Програмування очищення та отримання даних Аналіз даних Відтворювані дослідження Статистичний висновок …

35 education

6

Чому при контрольованому навчанні погано мати співвідносні функції?

Я десь читав, що якщо у нас є занадто співвіднесені функції, ми повинні їх видалити, оскільки це може погіршити модель. Зрозуміло, що співвідносні функції означають, що вони приносять однакову інформацію, тому логічно видалити одну з них. Але я не можу зрозуміти, чому це може погіршити модель.

35 machine-learning correlation

6

Пояснення перехресної ентропії

Припустимо, я будую НН для класифікації. Останній шар - щільний шар з активацією softmax. У мене є п'ять різних класів для класифікації. Припустимо, для єдиного прикладу тренувань true labelє [1 0 0 0 0]прогнози, поки це буде [0.1 0.5 0.1 0.1 0.2]. Як би я обчислив перехресну втрату ентропії для …

35 machine-learning deep-learning

1

Різниця між `Dense` та` TimeDistributedDense` від `Keras`

Я до сих пір плутаю про різницю між Denseі TimeDistributedDenseз Kerasхоча є вже задавали деякі подібні питання тут і тут . Люди дуже багато обговорюють, але висновків немає. І хоча, тут @fchollet заявив, що: TimeDistributedDenseзастосовує одну й ту ж Dense(повністю підключену) операцію до кожного кроку 3D тензора. Мені ще потрібна …

34 machine-learning neural-network keras