Наука про дані

Питання та відповіді для фахівців з науки про дані, фахівців з машинного навчання та тих, хто зацікавлений у вивченні даної області

5
Чи варто шукати набір даних "збалансований" або "представник"?
Моє завдання «машинного навчання» - відокремити доброякісний Інтернет-трафік від шкідливого трафіку. У реальному сценарії більшість (скажімо, 90% або більше) Інтернет-трафіку є доброякісними. Таким чином, я відчув, що мені слід вибрати подібний параметр даних і для навчання моїх моделей. Але я натрапив на дослідницький документ або два (в моєму районі роботи), …

9
Як боротися з контролем версій великої кількості (бінарних) даних
Я докторант геофізики і працюю з великою кількістю даних про зображення (сотні ГБ, десятки тисяч файлів). Я добре знаю svnі gitціную історію проекту в поєднанні з можливістю легко працювати разом і захищати від корупції на диску. Я вважаю gitтакож надзвичайно корисним для постійних резервних копій, але я знаю, що git …

9
Альтернативи IDE для програмування на R (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
Я використовую RStudio для програмування R. Я пам’ятаю про солідні IDE з інших стеків технологій, таких як Visual Studio або Eclipse. У мене є два питання: Які інші IDE, ніж RStudio, використовуються (будь ласка, розгляньте, надавши короткий опис про них). Чи має хтось із них помітні переваги перед RStudio? Я …
46 r  tools  rstudio  programming 

10
Машинне навчання - функціонує інженерія з даних дати / часу
Які спільні / найкращі практики для обробки даних про час застосування машинного навчання? Наприклад, якщо в наборі даних є стовпець із часовою позначкою події, наприклад "2014-05-05", як ви можете витягти корисні функції з цього стовпця, якщо такі є? Спасибі заздалегідь!

9
Скільки поєднання даних - це робота вченого?
Зараз я працюю науковцем даних в роздрібній компанії (моя перша робота в якості DS, тому це питання може бути результатом мого браку досвіду). Вони мають величезний відставання дійсно важливих проектів з наукових даних, які мали б великий позитивний вплив у разі їх реалізації. Але. Трубопроводи даних не існують у компанії, …

3
Кількість параметрів у моделі LSTM
Скільки параметрів має односкладений LSTM? Кількість параметрів накладає нижню межу на кількість необхідних прикладів тренувань, а також впливає на час навчання. Отже, знання кількості параметрів є корисним для навчальних моделей з використанням LSTM.

4
Додавання функцій до моделі часових рядів LSTM
читав трохи про LSTM та їх використання для часових рядів, і це було цікаво, але важко водночас. Одне, що у мене виникли труднощі з розумінням, - це підхід до додавання додаткових функцій до того, що вже є переліком функцій часових рядів. Припустимо, що у вас є такий набір даних так: …

6
Як я можу перетворити імена в конфіденційний набір даних, щоб зробити його анонімним, але зберегти деякі характеристики імен?
Мотивація Я працюю з наборами даних, які містять особисту інформацію (PII), і іноді потрібно ділитися частиною набору даних з третіми сторонами, таким чином, що не піддають PII і не піддають мого роботодавця відповідальності. Наш звичайний підхід тут полягає в тому, щоб цілком утримувати дані або в деяких випадках зменшувати її …

1
Чим відрізняється LeakyReLU від PReLU?
Я думав, що обидва, PReLU та Leaky ReLU є f(x)=max(x,αx) with α∈(0,1)f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Керас, однак, обидві функції в документах . Leaky ReLU Джерело LeakyReLU : return K.relu(inputs, alpha=self.alpha) Звідси (див. Код relu ) f1(x)=max(0,x)−αmax(0,−x)f1(x)=max(0,x)−αmax(0,−x)f_1(x) = \max(0, x) …

2
Як підготувати / збільшити зображення для нейронної мережі?
Я хотів би використовувати нейронну мережу для класифікації зображень. Почну з попередньо підготовленого CaffeNet і навчу його для мого застосування. Як слід підготувати вхідні зображення? У цьому випадку всі зображення однакового об’єкта, але з варіаціями (подумайте: контроль якості). Вони знаходяться в дещо різних масштабах / дозволах / відстанях / умовах …

6
Косинусна схожість проти крапкового продукту як метрики відстані
Схоже, що косинусна схожість двох ознак - це лише їх крапковий продукт, який масштабується добутком їх величин. Коли подібність косинуса робить кращу метрику відстані, ніж крапка добутку? Тобто, чи крапка точкового і косинусного подібності мають різні сильні сторони або слабкі місця в різних ситуаціях?

7
ValueError: Вхід містить NaN, нескінченність або занадто велике значення для dtype ('float32')
Я отримав ValueError при прогнозуванні даних тестів за допомогою моделі RandomForest. Мій код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Помилка: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Як знайти погані значення в тестовому наборі даних? Крім …

4
Чому розмір міні-партії краще, ніж одна «партія» з усіма навчальними даними?
Я часто читаю, що для моделей Deep Learning звичайною практикою є застосування міні-партій (як правило, невеликих, 32/64) протягом кількох навчальних епох. Я не можу зрозуміти причину цього. Якщо я не помиляюся, розмір партії - це кількість екземплярів тренувань, які модель бачила під час ітерації тренувань; і епоха - це повна …

10
Чому моделі машинного навчання називають чорними скриньками?
Я читав цю публікацію в блозі під назвою: Фінансовий світ хоче відкрити чорні скриньки AI , де автор неодноразово називає моделі ML як "чорні скриньки". Подібна термінологія була використана в декількох місцях при посиланні на моделі ML. Чому так? Це не так, як інженери ML не знають, що відбувається всередині …

10
Чи можуть алгоритми машинного навчання прогнозувати спортивні бали чи ігри?
У мене є безліч наборів даних NFL, які, на мою думку, можуть стати гарним побічним проектом, але я з ними ще нічого не робив. Заходжу на цей сайт, змусив мене подумати про алгоритми машинного навчання, і мені цікаво, наскільки вони хороші при прогнозуванні результатів футбольних ігор або навіть наступної гри. …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.