Я звичайно використовую -SNE ( поряд із методами кластеризації - детальніше про це врешті-решт ), щоб розпізнати / оцінити наявність кластерів у моїх даних. На жаль, наскільки мені відомо, не існує стандартного способу вибору правильного здивування вбік, дивлячись на створений набір даних про зменшені розміри, а потім оцінювати, чи є це значимим. Існують деякі загальні факти, наприклад. відстані між кластерами здебільшого безглузді, малі значення невдахи заохочують невеликі структури, схожі на згусток, але це стосується цього.т
Дуже грубе правило емпіричного, щоб перевірити , що це значення помилки , пов'язане з кожної реконструкцією. θ θт-SNE намагається мінімізувати суму розбіжностей Kullback-Leibler між розподілом відстаней між даними в вихідному домені та розподілом відстаней між даними в області зменшеного розміру (фактично цільовими розподілами є розподіли ймовірність того, що точка вибере іншу точку як свого сусіда, але вони прямо пропорційні відстані між двома точками). Можна стверджувати, що менші значення дивергенції KL демонструють кращі результати. Ця ідея не дуже добре працює на практиці, але теоретично вона допомогла б виключити деякі діапазони значень здивування, а також деякі запуски алгоритму, які явно неоптимальні. Я пояснюю, чому ця евристика далеко не панацея і як вона могла бути корисною: Параметр здивування збільшується монотонно з дисперсією Гаусса, що використовується для обчислення відстаней / ймовірностей. Отже, збільшуючи параметр здивування в цілому, ви отримаєте менші відстані в абсолютних величинах і наступні значення KL-розбіжності. Тим не менш, якщо у вас 20 пробіжок з однаковим здивуванням, і ви не можете (не бажаєте) дивитися на них, ви завжди можете вибрати той з найменшою змінною, сподіваючись, що він збереже початкові відстані більш точно. Те ж саме стосується і Тим не менш, якщо у вас 20 пробіжок з однаковим здивуванням, і ви не можете (не бажаєте) дивитися на них, ви завжди можете вибрати той з найменшою змінною, сподіваючись, що він збереже початкові відстані більш точно. Те ж саме стосується і Тим не менш, якщо у вас 20 пробіжок з однаковим здивуванням, і ви не можете (не бажаєте) дивитися на них, ви завжди можете вибрати той з найменшою змінною, сподіваючись, що він збереже початкові відстані більш точно. Те ж саме стосується іθ , параметр наближення для наближення Барнса-Хата, якщо припустити, що недоумкування виправлено зміною а потім перевірка отриманих витрат повинна бути дещо інформативною. Зрештою, менші витрати пов'язані з більш вірними реконструкціями. Хоча все не втрачено ...θ
У вашому конкретному випадку використання хитрості автоматичної процедури вибору хорошого значення недосконалості полягає в наступному: Запустіть невелику процедуру кластеризації (скажімо, -медіа або DBSCAN) на наборі даних про зменшену розмірність, а потім оцініть якість цього кластеризації використовуючи якийсь індекс ( Коена , індекс Ранда , Фоулкеса-Маллоуса тощо) проти того, що ви намагаєтеся передбачити. Ідея тут полягає в тому, що для вашої задачі під рукою правильне представлення даних (залежне від збитку -SNE результатів) повинно дати найбільш інформативне уявлення (у вигляді однієї з згаданих показників) з точки зору їх узгодження з властивістю ви намагаєтеся передбачити Ось чомуk t tкktt-SNE використовувався в першу чергу, якщо отримане представлення є неінформативним для властивостей, які ми досліджуємо, то це просто не добре, незважаючи на низьку помилку відновлення, візуальну привабливість тощо.
Дозвольте зазначити, що те, що я описую, - це евристика . Як було сказано на початку моєї посади, перевірка результатів вручну - це незамінний спосіб оцінки якості результату зменшення / кластеризації розмірів.