Наука про дані

Питання та відповіді для фахівців з науки про дані, фахівців з машинного навчання та тих, хто зацікавлений у вивченні даної області

2
Чи досі підтримуючі векторні машини вважаються "найсучаснішими" у своїй ніші?
Це запитання відповідає на коментар, який я побачив на іншому запитанні. Зауваження стосувалося навчальної програми з вивчення машинного навчання на Coursera, і, відповідно, "SVM не використовуються настільки багато". Я лише щойно закінчив відповідні лекції, і моє розуміння SVM полягає в тому, що вони є надійним і ефективним алгоритмом навчання для …

11
Що таке зменшення розмірності? Чим відрізняється вибір функції та вилучення?
З Вікіпедії, зменшення розмірності або зменшення розмірності - це процес зменшення кількості розглянутих випадкових змінних, і їх можна розділити на вибір функції та вилучення ознак. Чим відрізняється вибір функції та вилучення функції? Що таке приклад зменшення розмірності завдання з обробки природних мов?

5
Коли модель недостатня?
Логіка часто стверджує, що, якщо не вистачає моделі, її здатність до узагальнення збільшується. Однак, очевидно, що в якийсь момент недостатність моделі призводить до погіршення моделей незалежно від складності даних. Звідки ви знаєте, коли ваша модель досягла правильного балансу і не відповідає недостатнім даним, який вона намагається моделювати? Примітка. Це відповідь …

4
Як 1x1 згортки збігаються з повністю пов'язаним шаром?
Нещодавно я читав коментар Ян Лекунса про 1x1 згортки : У конволюційних мережах немає такого поняття, як "повністю пов'язані шари". Існують лише шари згортки з 1x1 ядрами згортки та повною таблицею з'єднань. Це надто рідко зрозумілий факт, що ConvNets не потребує введення фіксованого розміру. Ви можете навчити їх на входах, …

3
RNN проти CNN на високому рівні
Я думав про періодичні нейронні мережі (RNN) та їх різновиди, конволюційні нейронні мережі (CNN) та їх різновиди. Чи справедливо сказати б ці два моменти: Використовуйте CNN, щоб розбити компонент (наприклад, зображення) на підкомпоненти (наприклад, об'єкт у зображенні, такий як контур об'єкта на зображенні тощо) Використовуйте RNN для створення комбінацій підкомпонентів …

8
Чому інтернет-компанії віддають перевагу Java / Python для роботи вченого?
Я багато разів бачу в описі вакансії науковця даних, який запитує досвід Python / Java та ігнорує R. Нижче наведено особистий електронний лист, який я отримав від головного науковця даних компанії, до якого я подав заявку через linkedin. X, Дякую за зв'язок та виявлення інтересу. У вас є хороші навички …

2
Коли використовувати (He або Glorot) звичайну ініціалізацію над рівномірним init? І які наслідки це стосується пакетної нормалізації?
Я знав, що Залишкова мережа (ResNet) зробила звичайну ініціалізацію популярною. У ResNet використовується нормальна ініціалізація He , тоді як перший шар використовує He рівномірну ініціалізацію. Я переглянув папір ResNet і папір "Deving Deep into Rectifiers" (Папір він ініціалізації), але не знайшов жодної згадки про нормальний init vs uniform init. Також: …

8
Кластеризація географічних координат (lat, довгі пари)
Який правильний підхід та алгоритм кластеризації для кластеризації геолокацій? Я використовую наступний код для кластеризації геолокаційних координат: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], …

9
Інструменти та протокол для відтворення даних з використанням Python
Я працюю над проектом з вивчення даних за допомогою Python. Проект має кілька етапів. Кожен етап включає прийняття набору даних, використання сценаріїв Python, допоміжних даних, конфігурації та параметрів та створення іншого набору даних. Я зберігаю код у git, щоб ця частина була прикрита. Я хотів би почути про: Інструменти для …

3
Як боротися з недостатністю в глибокій нервовій мережі
Коли я почав працювати зі штучними нейронними мережами (NN), я вважав, що мені доведеться боротися з надмірною обробкою як основну проблему. Але на практиці я навіть не можу змусити NN пройти 20-відсотковий бар'єр помилок. Я навіть не можу побити свій рахунок у випадковому лісі! Я шукаю дуже загальну чи не …

4
Латентний розподіл Діріхле проти ієрархічного процесу Діріхле
Латентне розподілення Діріхле (LDA) та ієрархічний процес Діріхле (HDP) - це процеси моделювання тем. Основна відмінність полягає в тому, що LDA вимагає уточнення кількості тем, а HDP - ні. Чому це так? І які відмінності, плюси та мінуси обох методів моделювання теми?
49 nlp  topic-model  lda 

8
Чому перевиконання погано в машинному навчанні?
Логіка часто стверджує, що, якщо переозброювати модель, її здатність до узагальнення обмежена, хоча це може означати лише, що перевиконання зупиняє вдосконалення моделі після певної складності. Чи надмірне обладнання спричиняє погіршення моделей незалежно від складності даних, і якщо так, то чому це так? Пов’язане: Продовження вищезазначеного питання " Коли модель недостатньо …

4
Нейронні мережі: яку функцію витрат використовувати?
Я використовую TensorFlow для експериментів з нейронними мережами. Хоча зараз я провів досить багато експериментів (XOR-Problem, MNIST, деякі регресії, ...), я борюся з вибором "правильної" функції витрат для конкретних проблем, тому що в цілому мене можна вважати початківцем. Перед тим, як прийти до TensorFlow, я самостійно зашифрував декілька повністю пов'язаних …

9
Чи є домен, де Bayesian Networks перевершує нейронні мережі?
Нейронні мережі отримують найкращі результати у завданнях Computer Vision (див. MNIST , ILSVRC , Kaggle Galaxy Challenge ). Вони, схоже, перевершують будь-який інший підхід у програмі Computer Vision. Але є й інші завдання: Виклик виклику молекулярної активності Регресія: прогноз дощів Kaggle , також 2-е місце Захоплення та підйом 2-го також …

9
Чи підходить мова R для великих даних
R має багато бібліотек, які спрямовані на аналіз даних (наприклад, JAGS, BUGS, ARULES тощо), і згадується в популярних підручниках, таких як: J.Krusche, Doing Bayesian Analysis Data; Б.Ланц, «Машинне навчання з R». Я бачив керівництво в 5 ТБ для набору даних, який слід розглядати як великі дані. Моє запитання: чи R …
48 bigdata  r 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.