Коли t-SNE вводить в оману?

Цитуючи одного з авторів:

t-Розподілене стохастичне сусідське вбудовування (t-SNE) - це ( виграшний ) метод зменшення розмірності, який особливо добре підходить для візуалізації високомірних наборів даних.

Так це звучить досить чудово, але це той, хто говорить Автору.

Ще одна цитата автора (ре: вищезгаданий конкурс):

Що ви зняли з цього змагання?
Завжди завжди візуалізуйте свої дані, перш ніж ви почнете тренувати прогнозів даних! Часто такі візуалізації, як ті, які я зробив, дають уявлення про розподіл даних, що може допомогти вам визначити, які типи моделей прогнозування слід спробувати.

Інформація повинна ¹ бути втрачається - це скорочення розмірності метод Afterall. Однак, оскільки це хороший прийом, який використовується під час візуалізації, втрачена інформація є менш цінною, ніж виділена інформація (/ зроблена видимою / зрозумілою через зменшення до 2 або 3 вимірів).

Отже, моє запитання:

Коли tSNE - неправильний інструмент для роботи?
Які набори даних призводять до того, що він не функціонує,
На які запитання, схоже, він може відповісти, але насправді не може?
У другій цитаті вище рекомендується завжди візуалізувати ваш набір даних, чи завжди ця візуалізація повинна виконуватися за допомогою tSNE?

Я очікую, що на це питання можна найкраще відповісти зворотньо, тобто відповісти: Коли tSNE є правильним інструментом для роботи?

Мене попередили не покладатися на tSNE, щоб сказати мені, як легко можна класифікувати дані (розділені на класи - дискримінаційна модель). Приклад введення в оману - це те, що для двох зображень нижче генеративна модель ² була гіршою для даних, візуалізованих в першій / лівій (точність 53,6%), ніж еквівалентна для другої / правої (точність 67,2%).

спочатку другий

¹ _{Я можу помилитися з цього приводу, я можу сісти і спробувати приклад підтвердження / зустрічного пізніше}

² _{зауважимо, що генеративна модель не є такою ж, як дискримінаційна модель, але це мій приклад, який я наводив.}

data-visualization dimensionality-reduction tsne

— Ліндон Уайт
джерело

Щодо Вашого твердження про те, що "інформація повинна втрачатися": Бієктивне відображення між множинами і існує, якщо і тільки тоді, якщо їх картальність погоджується,. А у нас, наприклад, і (див. тут ). Тобто, в принципі ми можемо набрати стільки інформації в скільки в .

A

$A$

B

$B$

| A | = | B |

$|A| = |B|$

| N | = | N^{n} | = ℵ_{0}

$|\mathbb{N}| = |\mathbb{N}^n| = \aleph_0$

| R | = | R | = | R^{n} | = ℵ_{1}

$|\mathbb{R}| = |\mathbb{R}| = |\mathbb{R}^n| = \aleph_1$

R^{2}

$\mathbb{R}^2$

R

$\mathbb{R}$

— Лукас

@Lucas: Ну, звичайно. (як я цього не усвідомлював)

— Ліндон Уайт

Яку генеративну модель ви пробуєте?

— WeiChing Lin

@ Wei-ChingLin Я не впевнений, яка саме генеративна модель використовувалася. Можливо, якась мережа глибокої віри, Deep Boltzmann Manchine або Autoencoder. Не дуже стосується суті питання

— Ліндон Уайт

Відповідно: distill.pub/2016/misread-tsne

— Ліндон Уайт

Відповіді:

T-Sne - це техніка скорочення, яка підтримує структуру невеликого масштабу (тобто те, що особливо близьке до того, що) простору, що робить його дуже хорошим у візуалізації відокремленості даних. Це означає, що T-Sne особливо корисний для ранньої візуалізації, орієнтованої на розуміння ступеня відокремленості даних. Інші методики (наприклад, PCA) залишають дані в поданні менших розмірів, що проектуються один на одного по мірі зникнення розмірів, що робить дуже важко зробити якесь чітке твердження про відокремленість у просторі більш високого розміру.

Наприклад, якщо ви отримаєте графік T-Sne з великою кількістю даних, що перетинаються, великі шанси на те, що ваш класифікатор буде працювати погано, незалежно від того, що ви робите. І навпаки, якщо ви бачите чітко розділені дані на графіку T-Sne, то основні великі дані містять достатню мінливість для створення хорошого класифікатора.

— Джон Йеттер
джерело

Це дуже вдале пояснення того, що таке T-SNE, дякую. Але я не бачу відповідей на мої фактичні запитання (Див. Крапки в точці вступу.)

— Lyndon White

Це зовсім не відповідає на питання.

— амеба каже: Поновіть Моніку

У полі TSNE є кілька гіперпараметрів, головний - здивування. Пам’ятайте, що евристично здивування визначає поняття подібності для tSNE і універсальне здивування використовується для всіх точок даних. Ви можете спробувати створити мічений набір даних, де кожен кластер має дивовижне здивування. Це можна досягти, роблячи суміш гаусів, із широким спектром різних варіацій. Я здогадуюсь, це також спричинить проблеми при впровадженні Барнс-Хата tSNE, яка покладається на дані про квартиринг та використовує лише найближчих сусідів. tSNE також має початковий період релаксації, який намагається пропустити кластери один через одного. У цей період не передбачено жодної кари чи відсічі. Так, наприклад, якщо ваші дані виглядають згущеною грудкою локшини (кожна локшина представляє певний кластер), ви ' мені буде важко калібрувати початковий прохід, і я сумніваюся, tSNE буде добре працювати. У деякому сенсі я думаю, що це натякає на те, що tSNE не працюватиме добре, якщо ваші дані зібрані разом і спочатку знаходяться у просторі з низькими розмірами, скажімо, 5.

Загалом, tSNE хороший тим, що частина "t", яка вирішує невирішену проблему в SNE щодо розміщення точок у просторах з меншими розмірами, порівняно з вищими розмірами. Виявляється, в середньому відстань точок даних у більш високих розмірах поводиться абсолютно по-різному від нижчих. Зокрема, tSNE наполегливо виступає проти використання гауссів для вимірювання відстаней у менших розмірах, вибираючи натомість одновимірний розподіл (тобто розподіл Коші), що має хвости та більше, що дозволяє поширюватись у поданні нижнього розміру. Таким чином, можливо, "t" в tSNE також може бути гіперпараметром, де натомість ви можете обирати різні розподіли (хоча і з високими обчислювальними витратами). $t$

Ви повинні думати про tSNE як про непідконтрольний метод кластеризації, і як такий немає нульових підстав вважати, що це єдиний інструмент для роботи. Я думаю, що в цілому це може бути фантастичним інструментом, якщо правильно відкалібровано. Однак на великих наборах даних це досить повільно, і вам може бути краще використовувати, наприклад, оптимізовану форму -місяць або навіть PCA, залежно від того, наскільки рідкісні дані. $k$

— Алекс Р.
джерело