Запитання з тегом «dimensionality-reduction»

Зменшення розмірності стосується прийомів для зменшення багатьох змінних до меншої кількості, зберігаючи якомога більше інформації. Одним із відомих методів є [тег pca]

11
Що таке зменшення розмірності? Чим відрізняється вибір функції та вилучення?
З Вікіпедії, зменшення розмірності або зменшення розмірності - це процес зменшення кількості розглянутих випадкових змінних, і їх можна розділити на вибір функції та вилучення ознак. Чим відрізняється вибір функції та вилучення функції? Що таке приклад зменшення розмірності завдання з обробки природних мов?

6
Як зробити SVD та PCA з великими даними?
У мене великий набір даних (близько 8 ГБ). Я хотів би використовувати машинне навчання для його аналізу. Отже, я думаю, що я повинен використовувати SVD, а потім PCA, щоб зменшити розмірність даних для ефективності. Однак MATLAB і Octave не можуть завантажити такий великий набір даних. Які інструменти я можу використовувати …

6
Методи машинного навчання для оцінки віку користувачів на основі сайтів у Facebook, які їм подобаються
У мене є база даних з моєї програми Facebook, і я намагаюся використовувати машинне навчання для оцінки віку користувачів, виходячи з того, які сайти Facebook їм подобаються. У моїй базі даних є три найважливіші характеристики: розподіл за віком у моєму навчальному наборі (загалом 12 тис. користувачів) спрямований на молодших користувачів …

7
Мета візуалізації даних високих розмірів?
Існує багато прийомів візуалізації наборів даних високих розмірів, таких як T-SNE, isomap, PCA, контрольований PCA тощо. ". Деякі з цих методів вбудовування (різноманітного навчання) описані тут . Але чи справді ця «симпатична картина» має значення? Які можливі уявлення може хтось захопити, намагаючись візуалізувати цей вбудований простір? Я запитую, оскільки проекція …

1
Чи мають значення розміри t-sne?
Чи є значення для розмірів вбудовування t-sne? Як і у PCA, у нас є сенс лінійно перетворених дисперсійних максимізацій, але для t-sne є інтуїція, крім простого простору, який ми визначаємо для відображення та мінімізації відстані KL?

4
Підвищити швидкість впровадження t-sne в python для величезних даних
Я хотів би зробити скорочення розмірності на майже 1 мільйон векторів кожних 200 вимірювань ( doc2vec). Я використовую для цього TSNEреалізацію з sklearn.manifoldмодуля, і головна проблема - складність у часі. Навіть при method = barnes_hutцьому швидкість обчислення залишається низькою. Деякий час навіть не вистачає пам'яті. Я працюю на 48-ядерному процесорі …

3
Найближчі сусіди шукають дуже високі розмірні дані
Я маю велику розріджену матрицю користувачів та елементів, які їм подобаються (порядку 1М користувачів та 100К елементів, із дуже низьким рівнем розрідженості). Я вивчаю способи, за допомогою яких я міг би здійснювати пошук kNN на ньому. Враховуючи розмір мого набору даних та деякі початкові тести, які я виконував, я припускаю, …

5
Вибір функції проти вилучення функцій. Який використовувати коли?
Витяг функцій та вибір функцій суттєво зменшують розмірність даних, але вилучення функції також робить дані більш відокремленими, якщо я маю рацію. Якій техніці віддати перевагу над іншою та коли? Я думав, оскільки вибір функції не змінює вихідні дані та його властивості, я припускаю, що ви будете використовувати підбір функції, коли …

1
Чи можна розглядати більш близькі точки у візуалізації T-SNE?
З статті Хінтона я розумію, що T-SNE робить хорошу роботу в збереженні місцевих подібностей і гідній роботі в збереженні глобальної структури (кластеризації). Однак мені не ясно, чи можна точки, що з'являються ближче у 2D-візуалізації t-sne, можна вважати "більш схожими" точками даних. Я використовую дані з 25 функціями. Як приклад, спостерігаючи …

2
Високомірні дані: Які корисні методи знати?
Через різні прокльони розмірності , точність та швидкість багатьох поширених методів прогнозування деградують на даних високих розмірів. Які є найбільш корисні методи / прийоми / евристики, які допомагають ефективно працювати з великомірними даними? Наприклад, Чи добре виконуються певні методи статистичного / моделювання на високомірних наборах даних? Чи можемо ми покращити …

3
Чому автоенкодери для зменшення розмірів симетричні?
Я не є експертом з автокодерів чи нейронних мереж будь-якими способами, тому вибачте мене, якщо це дурне питання. З метою зменшення розмірів або візуалізації кластерів у даних високих розмірів, ми можемо використовувати автокодер для створення (втраченого) 2-мірного подання, перевіряючи вихід мережевого шару з 2-ма вузлами. Наприклад, за допомогою наступної архітектури …

4
Одна гаряча альтернатива кодування для великих категоричних значень?
Привіт, є кадр даних з великими категоричними значеннями понад 1600 категорій, чи є спосіб знайти альтернативи, щоб у мене не було понад 1600 стовпців. Я знайшов це нижче за цікавим посиланням http://amunategui.github.io/feature-hashing/#sourcecode Але вони перетворюються на клас / об’єкт, якого я не хочу. Я хочу, щоб мій кінцевий результат був …

2
Ефективне зменшення розмірності для великих наборів даних
У мене є набір даних з ~ 1M рядками та ~ 500K розрідженими функціями. Я хочу зменшити розмірність десь в порядку щільних особливостей 1К-5К. sklearn.decomposition.PCAне працює над обмеженими даними, і я намагався використовувати, sklearn.decomposition.TruncatedSVDале досить швидко отримав помилку пам'яті. Які мої варіанти ефективного зменшення розмірності в цьому масштабі?

3
Чи є якісні нестандартні мовні моделі для python?
Я прототипую додаток, і мені потрібна мовна модель, щоб обчислити здивування в деяких створених пропозиціях. Чи є якась навчена мовна модель в python, яку я можу легко використовувати? Щось на кшталт простого model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
t-SNE: Чому рівні значення даних візуально не близькі?
У мене 200 точок даних, які мають однакові значення для всіх функцій. Після зменшення розміру t-SNE вони вже не виглядають настільки рівними, як це: Чому вони не в одній точці візуалізації і навіть, здається, розподілені у двох різних кластерах?
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.