З статті Хінтона я розумію, що T-SNE робить хорошу роботу в збереженні місцевих подібностей і гідній роботі в збереженні глобальної структури (кластеризації).
Однак мені не ясно, чи можна точки, що з'являються ближче у 2D-візуалізації t-sne, можна вважати "більш схожими" точками даних. Я використовую дані з 25 функціями.
Як приклад, спостерігаючи зображення нижче, чи можу я припустити, що сині точки даних більше схожі на зелені, зокрема на найбільший кластер зелених точок ?. Або, запитавши інакше, чи нормально вважати, що сині точки більше схожі на зелені в найближчому кластері, ніж на червоні в іншому кластері? (нехтування зеленими точками в кластері "червоних"
При дотриманні інших прикладів, таких як ті, які представлені в науковому комплекті, навчаються в колекторі, мабуть, правильно вважати це, але я не впевнений, що це статистично правильно.
EDIT
Я розраховував відстані від початкового набору даних вручну (середнє попарно евклідова відстань), і візуалізація фактично являє собою пропорційну просторову відстань щодо набору даних. Однак я хотів би дізнатися, чи можна цього прийнятно очікувати від початкової математичної постановки t-sne, а не просто збігу.