Чи можна розглядати більш близькі точки у візуалізації T-SNE?


14

З статті Хінтона я розумію, що T-SNE робить хорошу роботу в збереженні місцевих подібностей і гідній роботі в збереженні глобальної структури (кластеризації).

Однак мені не ясно, чи можна точки, що з'являються ближче у 2D-візуалізації t-sne, можна вважати "більш схожими" точками даних. Я використовую дані з 25 функціями.

Як приклад, спостерігаючи зображення нижче, чи можу я припустити, що сині точки даних більше схожі на зелені, зокрема на найбільший кластер зелених точок ?. Або, запитавши інакше, чи нормально вважати, що сині точки більше схожі на зелені в найближчому кластері, ніж на червоні в іншому кластері? (нехтування зеленими точками в кластері "червоних"

введіть тут опис зображення

При дотриманні інших прикладів, таких як ті, які представлені в науковому комплекті, навчаються в колекторі, мабуть, правильно вважати це, але я не впевнений, що це статистично правильно.

введіть тут опис зображення

EDIT

Я розраховував відстані від початкового набору даних вручну (середнє попарно евклідова відстань), і візуалізація фактично являє собою пропорційну просторову відстань щодо набору даних. Однак я хотів би дізнатися, чи можна цього прийнятно очікувати від початкової математичної постановки t-sne, а не просто збігу.


1
Сині точки є найближчими до відповідних зелених точок сусідів, саме так було виконано вбудовування. Мало кажучи, подібність (або відстань) повинна зберігатися. Перехід від 25 вимірів до лише 2 дуже ймовірно призводить до втрати інформації, але 2D-представлення є найближчим, що може бути показане на екрані.
Владислав Довгалеч

Відповіді:


5

Я б представив t-SNE як розумну ймовірнісну адаптацію локально-лінійного вбудовування. В обох випадках ми намагаємось проектувати точки з простору великого розміру на малий. Ця проекція виконується за рахунок оптимізації збереження локальних відстаней (безпосередньо за допомогою LLE, попередньо виробляючи ймовірнісний розподіл та оптимізуючи KL-розбіжність з t-SNE). Тоді якщо ваше запитання - чи дотримується він глобальних відстаней, відповідь - ні. Це залежатиме від "форми" ваших даних (якщо розподіл буде плавним, то відстані слід якось зберегти).

t-SNE насправді не працює добре на швейцарському рулоні (ваше "S" 3D-зображення), і ви можете бачити, що в результаті 2D, самі середні жовті точки, як правило, ближче до червоних, ніж сині (вони ідеально зосереджені на 3D-зображенні).

Іншим хорошим прикладом того, що робить t-SNE, є згрупування рукописних цифр. Дивіться приклади за цим посиланням: https://lvdmaaten.github.io/tsne/


2
Я маю на увазі те, що ви не можете просто використовувати відстань у нижньому просторі як критерій подібності. t-SNE збереже глобальну структуру, таку як кластери, але не потрібно зберігати відстані. Це буде залежати від форми даних високих розмірів і здивування, яке ви використовуєте.
Робін

1
Добре, я бачу. Дякуємо за уточнення. Так, я згоден, що відстані в нижньому просторі були б неточними. Тепер, оскільки t-sne є практичним для візуалізації, чи можу я використовувати концептуально відстані в нижньомірному сюжеті? Наприклад, у своєму сюжеті чи можу я з упевненістю сказати, що сині точки ближче або більше схожі на зелені, ніж на червоні, враховуючи очевидне розділення трьох груп у просторі 2d. Або це теж було б важко сказати?
Хав'єрфдр

1
Це досить важко сказати. Точки в низькомірному просторі ініціалізуються гауссовим розподілом, зосередженим на початку. Потім вони ітеративно замінюються оптимізуючи KL-розбіжність. Тож я б сказав, що у вашому випадку сині точки більше схожі на зелений кластер, але зараз існує спосіб оцінити, наскільки вони ближче, ніж до червоного скупчення. t-SNE.
Робін

1
У сукупності t-SNE робить акцент на (1) моделюванні різних точок даних за допомогою великих парних відстаней та (2) на моделюванні подібних точок даних за допомогою малих парних відстаней. Зокрема, t-SNE вводить сили дальньої дії в малу розмірну карту, яка може зібрати назад два (кластери) подібних точок, які відокремлюються на початку оптимізації.
Робін

1
Дуже приємне пояснення. Дуже дякую за ваші зусилля. Я думаю, що ви на різні коментарі складаєте повну відповідь.
Хав'єрфдр
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.