Запитання з тегом «dimensionality-reduction»

Посилається на методи зменшення великої кількості змінних чи розмірів, що охоплюються даними, до меншої кількості вимірів, зберігаючи якомога більше інформації про дані. Визначні методи включають PCA, MDS, Isomap тощо. Два основні підкласи методик: вилучення можливостей та вибір функцій.

5
Як найважливіші основні компоненти можуть утримати силу прогнозування залежної змінної (або навіть призвести до кращих прогнозів)?
Припустимо , що я біжу регресію Y∼XY∼XY \sim X . Чому, вибираючи компоненти kkk принципу XXX , модель зберігає свою прогнозовану потужність на YYY ? Я розумію , що з розмірністю-відновлювальних / функція відбору точки зору, якщо v1,v2,...vkv1,v2,...vkv_1, v_2, ... v_k - власні вектори матриці коваріації з верхніми власними значеннями, …

2
Як зрозуміти "нелінійне" як "нелінійне зменшення розмірності"?
Я намагаюся зрозуміти відмінності між методами зменшення лінійної розмірності (наприклад, PCA) та нелінійними (наприклад, Isomap). Я не можу повністю зрозуміти, що означає (не) лінійність у цьому контексті. Я прочитав з Вікіпедії це Для порівняння, якщо PCA (алгоритм зменшення лінійних розмірностей) використовується для зменшення цього ж набору даних на два виміри, …

3
Чи слід вважати зменшення розмірності для візуалізації «закритою» проблемою, вирішеною t-SNE?
Я багато читав про алгоритм -sneтtt для зменшення розмірності. Я дуже вражений роботою на "класичних" наборах даних, як-от MNIST, де вона чітко розмежовує цифри ( див. Оригінальну статтю ): Я також використовував це для візуалізації функцій, засвоєних нейронною мережею, яку я навчаю, і я був дуже задоволений результатами. Отже, наскільки …

1
Чому існують лише основних компонентів для даних, якщо кількість вимірів ?
У PCA, коли кількість розмірів більша (або навіть дорівнює) кількості зразків , чому саме у вас буде не більше власних векторів ? Іншими словами, ранг коваріаційної матриці серед розмірів - .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Приклад: ваші зразки - це векторизовані зображення розміром , але у вас лише зображень.d=640×480=307200d=640×480=307200d = 640\times480 = 307\,200N=10N=10N=10

2
Що таке "регресія зниженого рангу"?
Я читав "Елементи статистичного навчання" і не міг зрозуміти, про що йдеться в розділі 3.7 "Багаторазове скорочення та вибір". Це говорить про RRR (регресія зі зниженим рангом), і я можу лише зрозуміти, що передумова стосується узагальненої багатовимірної лінійної моделі, де коефіцієнти невідомі (і підлягають оцінці), але, як відомо, не мають …

1
t-SNE проти MDS
Останнім часом читав кілька запитань щодо t-SNE ( t-Distributed Stochastic Neighbor Embedding ), а також відвідав декілька питань щодо MDS ( багатовимірного масштабування ). Вони часто використовуються аналогічно, тому здавалося, що непогано змусити це запитання, побачивши, що тут є багато питань як щодо, так і окремо (або порівняно з PCA …

3
PCA, коли розмірність більша, ніж кількість зразків
Я натрапив на сценарій, коли у мене є 10 сигналів / людина на 10 осіб (тобто 100 зразків), що містять 14000 точок даних (розмірів), які мені потрібно передати класифікатору. Я хотів би зменшити розмірність цих даних, і PCA, здається, є способом зробити це. Однак мені вдалося знайти лише приклади PCA, …

4
Чому змішані дані є проблемою для алгоритмів кластеризації на основі евкліда?
Більшість класичних алгоритмів кластеризації та зменшення розмірності (ієрархічна кластеризація, аналіз основних компонентів, k-засоби, самоорганізуючі карти ...) розроблені спеціально для числових даних, а їх вхідні дані розглядаються як точки в евклідовому просторі. Це, звичайно, проблема, оскільки в багатьох реальних питаннях пов'язані змішані дані: наприклад, якщо ми вивчаємо автобуси, висота і довжина …

4
Аналіз функціональних основних компонентів (FPCA): про що це?
Аналіз функціональних основних компонентів (FPCA) - це те, про що я натрапив і ніколи не зрозумів. Про що це все? Дивіться "Огляд функціонального аналізу основних компонентів" від Shang, 2011 , і я цитую: PCA стикається з серйозними труднощами в аналізі функціональних даних через "прокляття розмірності" (Bellman 1961). "Прокляття розмірності" походить …

1
Як LDA, класифікаційна техніка, також виконує функції зменшення розмірності, як PCA
У цій статті автор пов'язує лінійний дискримінантний аналіз (LDA) з аналізом основних компонентів (PCA). Зі своїми обмеженими знаннями я не в змозі простежити, як LDA може бути дещо схожим на PCA. Я завжди вважав, що LDA - це форма алгоритму класифікації, схожа на логістичну регресію. Я буду вдячний за допомогу …

5
Чи є версії t-SNE для потокового передавання даних?
Моє розуміння t-SNE та наближення Барнса-Хата полягає в тому, що потрібні всі точки даних, щоб можна було обчислити всі силові взаємодії одночасно, і кожну точку можна відрегулювати на 2d (або нижній розмірній) карті. Чи існують версії t-sne, які можуть ефективно справлятися з потоковими даними? Тож якщо мої спостереження надходять одне …

1
Чи слід центрирувати дані + масштабувати перед застосуванням t-SNE?
Деякі функції моїх даних мають великі значення, а інші мають значно менші значення. Чи потрібно центрувати + масштабні дані перед застосуванням t-SNE, щоб запобігти зміщенню до великих значень? Я використовую реалізацію sklern.manifold.TSNE Python із метрикою евклідової відстані за замовчуванням.

4
Чи існує "прокляття розмірності" насправді в реальних даних?
Я розумію, що таке "прокляття розмірності", і я зробив деякі проблеми з оптимізацією високих розмірів і знаю виклик експоненціальних можливостей. Однак я сумніваюся, чи існує "прокляття розмірності" у більшості даних реального світу (ну давайте на хвилину відкладемо зображення чи відео, я думаю про такі дані, як демографічні дані про клієнта …

4
"Нормалізація" змінних для SVD / PCA
Припустимо , що ми маємо NNN вимірних величин, (a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N) , ми робимо ряд M>NM>NM > N вимірювань, а потім хочете виконати сингулярне розкладання за результатами , щоб знайти осі самої високої дисперсії для MMM точок у NNN -вимірному просторі. ( Примітка: припустить , що кошти я вже …

2
Коли ми поєднуємо зменшення розмірності з кластеризацією?
Я намагаюся виконати кластеризацію на рівні документа. Я сконструював частотну матрицю терміна-документ і намагаюся кластеризувати ці великі розмірні вектори за допомогою k-засобів. Замість того, щоб безпосередньо кластеризувати, я спершу застосував сингулярний векторний розпад LSA (Latent Semantic Analysis) для отримання матриць U, S, Vt, вибрав відповідний поріг за допомогою діаграми екрана …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.