Мета візуалізації даних високих розмірів?


23

Існує багато прийомів візуалізації наборів даних високих розмірів, таких як T-SNE, isomap, PCA, контрольований PCA тощо. ". Деякі з цих методів вбудовування (різноманітного навчання) описані тут .

введіть тут опис зображення

Але чи справді ця «симпатична картина» має значення? Які можливі уявлення може хтось захопити, намагаючись візуалізувати цей вбудований простір?

Я запитую, оскільки проекція до цього вбудованого простору зазвичай безглузда. Наприклад, якщо ви проектуєте свої дані на основні компоненти, створені PCA, ці основні компоненти (eiganvectors) не відповідають характеристикам набору даних; вони мають власний простір функцій.

Аналогічно t-SNE проектує ваші дані в простір, де елементи знаходяться поруч один з одним, якщо вони мінімізують деяку розбіжність KL. Це вже не оригінальний простір функцій. (Виправте мене, якщо я помиляюсь, але я навіть не думаю, що велике зусилля громади ML намагається використовувати t-SNE для класифікації; хоча це інша проблема, ніж візуалізація даних.)

Я просто в значній мірі розгублений, чому люди роблять таку велику справу щодо деяких із цих візуалізацій.


Йдеться не лише про "гарне зображення", але мета візуалізації даних високих розмірів аналогічна візуалізації звичайних 2/3 розмірних даних. наприклад, кореляція, межі та пережитки.
eliasah

@eliasah: Я це розумію. Але простір, на який ви проектуєте свої дані, вже не є оригінальним простором, що може спотворювати деякі фігури у великих розмірах. Скажімо, у вас крапля в 4 вимірах. Як тільки ви проектуєте його на 2D або 3D, ваша структура вже зруйнована.
hlin117

Не в тому випадку, якщо дані лежать у маломірному колекторі, як у вашій ілюстрації. Визначення цього багатоманіття є метою багатозначного навчання.
Емре

Відповіді:


9

Я беру за приклад обробку мови, тому що я маю більше досвіду, тому я закликаю інших поділитися своєю думкою в інших сферах, таких як Комп'ютерне бачення, біостатистика, часовий ряд тощо. Я впевнений, що в цих галузях є подібні приклади.

Я погоджуюся, що іноді моделювання візуалізацій може бути безглуздим, але я думаю, що основна мета подібних візуалізацій полягає у тому, щоб допомогти нам перевірити, чи справді модель стосується інтуїції людини чи якоїсь іншої (не обчислювальної) моделі. Крім того, на даних може бути проведений дослідницький аналіз даних.

Припустимо, у нас є модель вбудовування слів, побудована з корпусу Вікіпедії за допомогою Gensim

model = gensim.models.Word2Vec(sentences, min_count=2)

Тоді ми маємо 100 розмірних векторів для кожного слова, представленого в тому корпусі, який присутній щонайменше двічі. Отже, якби ми хотіли візуалізувати ці слова, нам доведеться зменшити їх до 2 або 3 розмірів за допомогою алгоритму t-sne. Тут виникають дуже цікаві характеристики.

Візьмемо приклад:

вектор ("король") + вектор ("чоловік") - вектор ("жінка") = вектор ("королева")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

Тут кожен напрямок кодує певні смислові ознаки. Те ж саме можна зробити в 3d

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(джерело: tensorflow.org )

Подивіться, як у цьому прикладі минуле час знаходиться у певному положенні відповідно до його дієприкметників. Те саме для статі. Те саме з країнами та столицями.

У слові вбудовування світу, старіші та наївніші моделі не мали цього властивості.

Дивіться цю лекцію Стенфорда для більш детальної інформації. Просте слово векторні уявлення: word2vec, GloVe

Вони обмежувалися лише кластеризацією подібних слів разом без урахування семантики (стать або час дієслова не кодувались як вказівки). Не дивно, що моделі, які мають семантичне кодування як напрямки нижчих розмірів, є більш точними. І що ще важливіше, вони можуть бути використані для вивчення кожної точки даних більш відповідним чином.

У цьому конкретному випадку я не думаю, що t-SNE не використовується для класифікації як такої, це скоріше як перевірка обґрунтованості для вашої моделі, а іноді і для розуміння конкретного корпусу, який ви використовуєте. Що стосується проблеми того, що вектори вже не знаходяться в оригінальному просторі функцій. У лекції (посилання вище) Річард Сочер пояснює, що низькомірні вектори поділяють статистичні розподіли з власним більшим представленням, а також інші статистичні властивості, які дозволяють правдоподібно візуально проаналізувати вкладення векторів менших розмірів.

Додаткові ресурси та джерела зображення:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

Перш за все, ваше пояснення щодо методів правильне. Справа в тому, що алгоритми вбудовування не лише візуалізують, а в основному зменшують розмірність, щоб впоратися з двома основними проблемами статистичного аналізу даних, а саме прокляттям розмірності та проблемою з низьким розміром вибірки, щоб вони не мали зображувати фізично зрозумілі особливості, і вони не тільки значущі, але й необхідні для аналізу даних!

Насправді візуалізація - це майже останнє використання методів вбудовування. Проектування даних високих розмірів у простір нижчих розмірів допомагає зберегти фактичні парні відстані (переважно евклідового), які спотворюються у високих розмірах або фіксують найбільшу інформацію, вбудовану в дисперсію різних особливостей.


10

Річарду Хеммінгу приписують речення: "Мета обчислення - це розуміння, а не числа". У цьому науковому документі 1973 року (див. Дискусію в розділі Який відомий набір даних, який виглядає зовсім інакше, але має подібні зведені статистичні дані?) Френсіс Анскомб стверджує, що "графіки є важливими для хорошого статистичного аналізу". Квартет Anscombe - це давній час улюблений: однакова статистика та регресія, низький розмір, але зовсім інша поведінка, що стосується шуму, чужих людей, залежності. Проекція даних у 11 вимірах на два виміри, показані нижче, є досить оманливим: один має кореляцію та дисперсію, другий (знизу вниз) має точну відповідність, за винятком одного зовнішнього. Третя має чітку взаємозв'язок, але не лінійну. Четверте показує, що змінні потенційно не пов'язані, за винятком порогу.

введіть тут опис зображення

У книзі Багатоваріантний аналіз для біобіобіологічних та соціальних наук Брюса Л. Брауна та ін. , ми можемо знайти:

У своїй роботі "Малюємо речі разом" 1990 року Латур стверджує, що мислення важких вчених - одна з сильних "одержимостей" графізмом.

Незалежно від 3D простору, до шести розмірних сюжетів (простір, колір, форма та час), або навіть уявляючи десятий вимір , люди мають обмежений вигляд . Зв'язки між спостережуваними явищами: ні.

Крім того, прокляття розмірів асоціюється з навіть парадоксами низьких розмірів, щоб отримати декілька:

Навіть якщо всі норми є еквівалентними в кінцевих розмірах, відносини між змінними можуть бути оманливими. Це одна з причин збереження відстаней від одного простору до іншого. Такі поняття лежать в основі вкладень нижчих розмірів для сигналів (таких як стискаюче зондування та лемма Джонсона-Лінденстауса щодо вбудовування низьких спотворень точок з великогабаритного в низькомірний евклідовий простір) або особливостей ( розсіювання перетворень для класифікацій) .

Тож візуалізація - це ще одна допомога в отриманні розуміння даних, і вона йде рука об руку з розрахунками, включаючи зменшення розмірів.

Останній приклад: помістіть дотичні сфери в -кубку (міхур всередині поля, взятий з " Добрі математики" візуалізують все (навіть алгебру)? ):nnn

Парадокс коробки для піци

У двох вимірах центральна синя кулька невелика. У 3D теж. Але дуже швидко центральна куля росте, а її радіус перевищує радіус куба. Наприклад, це розуміння є життєво важливим для n кластеризації.


4

Виходячи із тверджень та дискусій, я думаю, що є важливий момент, який слід розрізнити. Перетворення в простір нижчого розміру може зменшити інформацію, що є чимось відмінним від того, щоб зробити інформацію безглуздою . Дозвольте використати таку аналогію:

Спостереження (2D) зображень нашого світу (3D) - звична практика. Метод візуалізації забезпечує лише різні "окуляри", щоб побачити простір з високими розмірами.

Хороша річ «довіритися» методу візуалізації - це зрозуміти внутрішню інформацію. Мій улюблений приклад - MDS . Це легко реалізувати самостійно за допомогою певного інструменту оптимізації (наприклад, R optim ). Таким чином, ви можете бачити, як слова методу, ви можете виміряти помилку результату і т.д.

В кінці ви отримуєте зображення, що зберігають схожість вихідних даних з певною точністю. Не більше, але не менше.


4

Іноді доцільно візуалізувати дані високих розмірів, оскільки це може сказати нам фізику.

Принаймні один приклад з астрофізики, коли ви проектуєте свої дані до основних компонентів, що генеруються PCA, і ці головні компоненти відповідають великому фізичному уявленню про галактики. Детальніше дивіться останню цифру в http://www.astroml.org/sklearn_tutorial/dimensionsity_reduction.html#id2

і папір в

http://iopscience.iop.org/article/10.1086/425626/pdf

Ось основна ідея. Автори застосовують PCA до багатьох спектрів (наприклад, 10000) з телескопа. Кожен спектр має ~ 1000 атрибутів. Оскільки цей набір даних має великі розміри, його важко уявити. Однак перші 4 компоненти PCA виявляють багато фізики щодо спектрів (див. Розділи 4.1-4.4 у статті вище).


4

Приймаючи дещо інший підхід, ніж інші чудові відповіді тут, "симпатична картина" коштує тисячі слів. Зрештою, вам потрібно буде донести свої висновки до того, хто не є настільки грамотним чи хто просто не має часу, інтересу чи іншого, щоб зрозуміти всю ситуацію. Це не означає, що ми не можемо допомогти людині зрозуміти хоча б загальну концепцію чи частинку реальності. Це те, що роблять книги на кшталт Freakonomics - математика мало, немає наборів даних, і все ж такі результати все ще представлені.

З мистецтв погляньте на маршала Нея на Відступі в Росії . Це масове надмірне спрощення наполеонівських воєн все-таки має велике значення і дозволяє людям, які мають навіть самі необізнані знання про війну, зрозуміти жорстокість, клімат, ландшафт, смерть та декор, які пронизували вторгнення в Росію.

Зрештою, графіки - це просто спілкування, а для кращого або гіршого, людське спілкування часто фокусується на плутанні, спрощенні та стислість.


3

Відмінне запитання. У розділі 4 «Освітлення шляху, порядок денний досліджень та розробок для візуальної аналітики» Джеймс Дж. Томас та Крістін А. Кук - це дискусія про представлення даних та перетворення даних. У своєму дослідженні я підійшов до цього питання в контексті PCA та факторного аналізу. Моя коротка відповідь полягає в тому, що візуалізації корисні, якщо перетворення даних переходить з простору візуалізації в початковий простір даних. Це додатково проводиться в рамках візуальної аналітики.


Мати відображення від проектованого простору до вихідного простору має сенс. Однак, чи є інші випадки використання?
hlin117

Я також розглянув розділ 4 "Освітлення шляху, Порядок досліджень та розробок для візуальної аналітики". Він нічого не згадує про високомірні візуалізації на видимому підпросторі.
hlin117
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.