Наука про дані

Питання та відповіді для фахівців з науки про дані, фахівців з машинного навчання та тих, хто зацікавлений у вивченні даної області

11
Наука даних в C (або C ++)
Я Rмовний програміст. Я також в групі людей, яких вважають науковцями даних, але які виходять з наукових дисциплін, відмінних від CS. Це добре справляється з моєю роллю вченого даних, однак, розпочинаючи свою кар’єру Rі маючи лише базові знання інших сценаріїв / веб-мов, я почувався дещо неадекватним у двох ключових сферах: …

5
ГБМ проти XGBOOST? Ключові відмінності?
Я намагаюся зрозуміти ключові відмінності між GBM та XGBOOST. Я спробував google це, але не міг знайти жодних хороших відповідей, що пояснювали б відмінності між двома алгоритмами та чому xgboost майже завжди працює краще, ніж GBM. Що робить XGBOOST настільки швидким?

3
Коли використовувати що - машинне навчання [закрито]
Нещодавно в класі машинного навчання від професора Оріола Пухоля з UPC / Барселона він описав найпоширеніші алгоритми, принципи та концепції, які слід використовувати для широкого кола завдань, пов'язаних з машинним навчанням. Ось я поділюсь ними з вами і прошу вас: чи є якась комплексна рамка, яка відповідає завданням підходів або …

3
Чи має batch_size в Керасі вплив на якість результатів?
Я збираюся тренувати велику мережу LSTM з 2-3 мільйонами статей і борюся з помилками пам'яті (я використовую AWS EC2 g2x2large). Я з'ясував, що одне рішення - зменшити batch_size. Однак я не впевнений, чи цей параметр пов’язаний лише з проблемами ефективності пам'яті чи він вплине на мої результати. Власне кажучи, я …


3
Яка різниця між "еквівалентом перекладу" та "інваріантним для перекладу"
У мене виникають проблеми з розумінням різниці між еквівалентом перекладу та інваріантним для перекладу . У книзі « Глибоке навчання» . MIT Press, 2016 (I. Goodfellow, A. Courville, Y. Bengio), можна знайти в конволюційних мережах: [...] конкретна форма спільного використання параметрів спричиняє властивість шару, який називається еквівалентністю перекладу [...] об'єднання …

11
Чи використовують дані вчені Excel?
Я вважав би себе вченим даними. Як і більшість (я думаю), я склав свої перші графіки і зробив свої перші агрегації у середній школі та коледжі, використовуючи Excel. Пройшовши навчання в коледжі, середній школі та ~ 7 років досвіду роботи, я швидко підібрав те, що вважаю більш досконалими інструментами, такими …
37 tools  career  excel 

2
Як інтерпретувати висновок важливості XGBoost?
Я керував моделлю xgboost. Я точно не знаю, як інтерпретувати результат xgb.importance. Яке значення посилення, покриття та частоти і як їх інтерпретувати? Крім того, що означає Split, RealCover та RealCover%? У мене є деякі додаткові параметри тут Чи є якісь інші параметри, які можуть розповісти мені більше про імпорт функцій? …

5
Чи має алгоритм вибору / покрокової регресії в scikit-learn?
Я працюю над проблемою із занадто великою кількістю функцій, і навчання моїх моделей відбувається занадто довго. Я реалізував алгоритм вибору вперед для вибору функцій. Однак мені було цікаво, чи має scikit-learn алгоритм вибору / покрокової регресії?

3
Розрахунок та візуалізація матриці кореляції з пандами
У мене є кадр даних панди з декількома записами, і я хочу обчислити співвідношення між доходами певного типу магазинів. Існує ряд магазинів з даними про доходи, класифікацією сфери діяльності (театр, магазини тканин, продукти харчування ...) та іншими даними. Я спробував створити новий кадр даних і вставити стовпчик із доходом усіх …

13
Наука даних, пов’язаних із смішними цитатами
Користувачі різних спільнот звикли цитувати смішні речі про свої поля. Можливо, буде цікаво ділитися своїми смішними речами про машинне навчання, глибоке навчання, наукові дані та речі, з якими ви стикаєтеся щодня!

13
Що ви думаєте про сертифікати Data Science?
Зараз я бачив дві програми сертифікації наукових даних - Джон Хопкінс, один із Coursera та Cloudera . Я впевнений, що там є й інші. Набір класів Джона Хопкінса орієнтований на R як набір інструментів, але охоплює низку тем: R Програмування очищення та отримання даних Аналіз даних Відтворювані дослідження Статистичний висновок …
35 education 

6
Чому при контрольованому навчанні погано мати співвідносні функції?
Я десь читав, що якщо у нас є занадто співвіднесені функції, ми повинні їх видалити, оскільки це може погіршити модель. Зрозуміло, що співвідносні функції означають, що вони приносять однакову інформацію, тому логічно видалити одну з них. Але я не можу зрозуміти, чому це може погіршити модель.

6
Пояснення перехресної ентропії
Припустимо, я будую НН для класифікації. Останній шар - щільний шар з активацією softmax. У мене є п'ять різних класів для класифікації. Припустимо, для єдиного прикладу тренувань true labelє [1 0 0 0 0]прогнози, поки це буде [0.1 0.5 0.1 0.1 0.2]. Як би я обчислив перехресну втрату ентропії для …

1
Різниця між `Dense` та` TimeDistributedDense` від `Keras`
Я до сих пір плутаю про різницю між Denseі TimeDistributedDenseз Kerasхоча є вже задавали деякі подібні питання тут і тут . Люди дуже багато обговорюють, але висновків немає. І хоча, тут @fchollet заявив, що: TimeDistributedDenseзастосовує одну й ту ж Dense(повністю підключену) операцію до кожного кроку 3D тензора. Мені ще потрібна …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.