t-Розподілене стохастичне сусідське вбудовування (t-SNE) - це ( виграшний ) метод зменшення розмірності, який особливо добре підходить для візуалізації високомірних наборів даних.
Так це звучить досить чудово, але це той, хто говорить Автору.
Ще одна цитата автора (ре: вищезгаданий конкурс):
Що ви зняли з цього змагання?
Завжди завжди візуалізуйте свої дані, перш ніж ви почнете тренувати прогнозів даних! Часто такі візуалізації, як ті, які я зробив, дають уявлення про розподіл даних, що може допомогти вам визначити, які типи моделей прогнозування слід спробувати.
Інформація повинна 1 бути втрачається - це скорочення розмірності метод Afterall. Однак, оскільки це хороший прийом, який використовується під час візуалізації, втрачена інформація є менш цінною, ніж виділена інформація (/ зроблена видимою / зрозумілою через зменшення до 2 або 3 вимірів).
Отже, моє запитання:
- Коли tSNE - неправильний інструмент для роботи?
- Які набори даних призводять до того, що він не функціонує,
- На які запитання, схоже, він може відповісти, але насправді не може?
- У другій цитаті вище рекомендується завжди візуалізувати ваш набір даних, чи завжди ця візуалізація повинна виконуватися за допомогою tSNE?
Я очікую, що на це питання можна найкраще відповісти зворотньо, тобто відповісти: Коли tSNE є правильним інструментом для роботи?
Мене попередили не покладатися на tSNE, щоб сказати мені, як легко можна класифікувати дані (розділені на класи - дискримінаційна модель). Приклад введення в оману - це те, що для двох зображень нижче генеративна модель 2 була гіршою для даних, візуалізованих в першій / лівій (точність 53,6%), ніж еквівалентна для другої / правої (точність 67,2%).
1 Я можу помилитися з цього приводу, я можу сісти і спробувати приклад підтвердження / зустрічного пізніше
2 зауважимо, що генеративна модель не є такою ж, як дискримінаційна модель, але це мій приклад, який я наводив.