Як визначити параметри t-SNE для зменшення розмірів?


11

Я дуже новачок у вкладанні слів. Я хочу уявити, як виглядають документи після навчання. Я читав, що t-SNE - це підхід до цього. У мене є 100K документів з 250 розмірами як розмір вбудовування. Також є кілька пакетів.

Однак для t-SNE я не знаю, скільки ітерацій чи значення альфа чи значення вічності я повинен продовжувати, щоб краще вчитися.

Це гіперпараметри чи їх можна визначити за деякими ознаками?

Відповіді:


12

Я настійно рекомендую статтю Як ефективно використовувати t-SNE . Він має чудові анімовані сюжети процесу підгонки tsne і був першим джерелом, яке насправді дало мені інтуїтивне розуміння того, що робить tsne.

На високому рівні здивування - це параметр, який має значення. Добре спробувати спробувати здивування 5, 30 та 50 і подивитися на результати.

Але серйозно, читайте, як ефективно використовувати t-SNE. Це зробить ваше використання TSNE більш ефективним.

Для пакетів використовуйте Rtsne в R або sklearn.manifold.TSNE в python


Для великих наборів даних та використання GPU у своїх обчисленнях. Ознайомтеся з бібліотекою Rapids від nVidia. [Rapids.AI] (rapids.ai)
Аакаш Гупта

2

Я наведу відповіді на поширені запитання із веб-сайту t-SNE . Перше здивування:

Як слід встановити недоумкування в t-SNE?

Продуктивність t-SNE є досить надійною в різних параметрах здивування. Найбільш відповідне значення залежить від щільності ваших даних. Не кажучи про те, можна сказати, що більший / щільніший набір даних вимагає більшого здивування. Типові значення для стурбованості між 5 і 50.

Для всіх інших параметрів я б подумав прочитати це:

Як я можу оцінити якість візуалізацій, побудованих t-SNE?

Переважно, просто подивіться на них! Зауважте, що t-SNE не зберігає відстані, а ймовірності, тому вимірювати деяку похибку між евклідовими відстанями у високих та низьких-D є марним. Однак якщо ви використовуєте ті самі дані та здивування, ви можете порівняти розбіжності Kullback-Leibler, про які повідомляє t-SNE. Цілком чудово запустити t-SNE десять разів і вибрати рішення з найнижчою різницею KL.

Іншими словами, це означає: подивіться на графік, якщо візуалізація хороша, не змінюйте параметрів. Ви також можете вибрати пробіг з найнижчою різницею KL для кожного фіксованого здивування.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.