Я наведу відповіді на поширені запитання із веб-сайту t-SNE . Перше здивування:
Як слід встановити недоумкування в t-SNE?
Продуктивність t-SNE є досить надійною в різних параметрах здивування. Найбільш відповідне значення залежить від щільності ваших даних. Не кажучи про те, можна сказати, що більший / щільніший набір даних вимагає більшого здивування. Типові значення для стурбованості між 5 і 50.
Для всіх інших параметрів я б подумав прочитати це:
Як я можу оцінити якість візуалізацій, побудованих t-SNE?
Переважно, просто подивіться на них! Зауважте, що t-SNE не зберігає відстані, а ймовірності, тому вимірювати деяку похибку між евклідовими відстанями у високих та низьких-D є марним. Однак якщо ви використовуєте ті самі дані та здивування, ви можете порівняти розбіжності Kullback-Leibler, про які повідомляє t-SNE. Цілком чудово запустити t-SNE десять разів і вибрати рішення з найнижчою різницею KL.
Іншими словами, це означає: подивіться на графік, якщо візуалізація хороша, не змінюйте параметрів. Ви також можете вибрати пробіг з найнижчою різницею KL для кожного фіксованого здивування.