Наука про дані

Питання та відповіді для фахівців з науки про дані, фахівців з машинного навчання та тих, хто зацікавлений у вивченні даної області


3
K - означає некогерентну поведінку, вибираючи K методом Elbow, BIC, дисперсією та силуетом
Я намагаюся кластеризувати деякі вектори з 90 можливостями за допомогою K-засобів. Оскільки цей алгоритм задає мені кількість кластерів, я хочу підтвердити свій вибір якоюсь приємною математикою. Я очікую, що буде від 8 до 10 кластерів. Особливості масштабуються на Z-бал. Роз'яснено ліктьовий метод та дисперсію from scipy.spatial.distance import cdist, pdist from …

4
Чи потрібно стандартизувати ваші дані перед кластеризацією?
Чи потрібно стандартизувати ваші дані перед кластером? У прикладі scikit learnпро DBSCAN, ось вони роблять це у рядку: X = StandardScaler().fit_transform(X) Але я не розумію, для чого це потрібно. Зрештою, кластеризація не передбачає особливого розповсюдження даних - це непідвладний метод навчання, тому його мета - вивчити дані. Чому потрібно було …

7
Мета візуалізації даних високих розмірів?
Існує багато прийомів візуалізації наборів даних високих розмірів, таких як T-SNE, isomap, PCA, контрольований PCA тощо. ". Деякі з цих методів вбудовування (різноманітного навчання) описані тут . Але чи справді ця «симпатична картина» має значення? Які можливі уявлення може хтось захопити, намагаючись візуалізувати цей вбудований простір? Я запитую, оскільки проекція …


6
Кодування таких функцій, як місяць і година, як категоріальна чи числова?
Чи краще в моделі машинного навчання кодувати такі функції, як місяць і година як фактор або число? З одного боку, я вважаю, що числове кодування може бути розумним, оскільки час - це процес прогресування вперед (п'ятий місяць супроводжується шостим місяцем), але з іншого боку, я думаю, що категоричне кодування може …

4
Чи XGBoost самостійно обробляє мультиколінеарність?
В даний час я використовую XGBoost для набору даних з 21 функцією (вибрано зі списку з приблизно 150 функцій), потім однокольоровим кодуванням їх, щоб отримати ~ 98 функцій. Деякі з цих 98 особливостей є дещо зайвими, наприклад: змінна (функція) також з'являється як і .ААAБАБА\frac{B}{A}САСА\frac{C}{A} Мої запитання: Як ( якщо? ) …

2
Як використовувати вихід GridSearch?
В даний час я працюю з Python та Scikit, які навчаються для цілей класифікації, і читаючи GridSearch, я подумав, що це чудовий спосіб оптимізації моїх параметрів оцінювача для отримання найкращих результатів. Моя методологія така: Розділити мої дані на навчання / тест. Використовуйте GridSearch з 5-кратною перехресною валідацією для підготовки та …

2
Що саме є завантажувальним при навчанні підкріплення?
Мабуть, у навчанні з підсиленням метод тимчасової різниці (TD) є методом завантаження. З іншого боку, методи Монте-Карло не є методами завантаження. Що саме таке завантажувальна програма в RL? Що таке метод завантаження в RL?

3
Яке позиційне кодування в моделі трансформаторів?
Я новачок в ML, і це моє перше запитання тут, так що вибачте, якщо моє питання нерозумно. Я намагаюся прочитати та зрозуміти статтю Увага. Все, що вам потрібно, і в ній є малюнок: Я не знаю, що таке кодування позицій . прослухавши кілька відео на YouTube, я виявив, що це …

6
Обмін ноутбуками Юпітера в команді
Я хотів би створити сервер, який міг би підтримувати команду з наукових даних таким чином: бути центральною точкою для зберігання, редагування версій, спільного використання та можливого також виконання ноутбуків Юпітера. Деякі бажані властивості: Різні користувачі можуть отримати доступ до сервера та відкривати та виконувати зошити, які зберігалися ними чи іншими …

3
Функція Трансформація у вхідних даних
Я читав про рішення цього виклику OTTO Kaggle, і на першому місці рішення, здається, використовує кілька перетворень для вхідних даних X, наприклад Log (X + 1), sqrt (X + 3/8) тощо. Чи є загальне керівництво щодо того, коли слід застосовувати перетворення якого типу до різних класифікаторів? Я розумію поняття середньої …


3
Що є кращим вкладом для Word2Vec?
Це більше схоже на загальне питання НЛП. Який відповідний вклад для підготовки вбудовування слова, а саме Word2Vec? Чи повинні всі речення, що належать до статті, бути окремим документом у корпусі? Або кожна стаття повинна бути документом у зазначеному корпусі? Це лише приклад використання python та gensim. Корпус розділений на речення: …

5
Розрахунок дивергенції KL в Python
Я досить новачок у цьому і не можу сказати, що я маю повне розуміння теоретичних концепцій, що стоять за цим. Я намагаюся обчислити розбіжність KL між декількома списками точок у Python. Я використовую http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html, щоб спробувати це зробити. Проблема, з якою я стикаюся, полягає в тому, що повернене значення є …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.