Відмова: У мене є лише дотичні знання з цієї теми, але оскільки ніхто більше не відповів, я спробую
Відстань важлива
Будь-яка техніка зменшення розмірності, заснована на відстанях (tSNE, UMAP, MDS, PCoA та, можливо, інших), є такою ж хорошою, як і метрика відстані, яку ви використовуєте. Як правильно вказує @amoeba, не може бути рішення одного розміру-підходить, вам потрібно мати метрику відстані, яка фіксує те, що ви вважаєте важливим у даних, тобто ті рядки, які ви вважаєте б подібними, мають невелику відстань і рядки, які ви б вважають різні мають велику відстань.
Як ви вибираєте хороший показник відстані? По-перше, дозвольте мені зробити невелику диверсію:
Упорядкування
Задовго до днів слави сучасного машинного навчання екологи громад (і цілком ймовірно, інші) намагалися зробити приємні сюжети для дослідницького аналізу багатовимірних даних. Вони називають ординацію процесу, і це корисне ключове слово для пошуку в літературі з екології, що приходить щонайменше до 70-х років, і досі продовжує розвиватися.
Важливим є те, що екологи мають дуже різноманітні набори даних та мають справу з сумішами двійкових, цілих та реальних цінностей (наприклад, наявність / відсутність видів, кількість спостережуваних зразків, pH, температура). Вони витратили багато часу на роздуми про відстані та перетворення для того, щоб ординації працювали добре. Я не дуже добре розумію поле, але, наприклад, огляд різноманітності Legendre та De Cáceres Beta як дисперсія даних спільноти: несхожість коефіцієнтів та розділення показує величезну кількість можливих відстаней, які ви можете перевірити.
Багатовимірне масштабування
Основним інструментом для ординації є багатовимірне масштабування (MDS), особливо неметричний варіант (NMDS), який я рекомендую вам спробувати додатково до t-SNE. Я не знаю про світ Python, але реалізація R у metaMDS
функції vegan
пакета робить для вас багато хитрощів (наприклад, виконуючи кілька запусків, поки не знайдуть два схожих).
Це було спірним, дивіться коментарі . Хороша частина MDS полягає в тому, що він також проектує функції (стовпці), тож ви можете бачити, які функції керують зменшенням розмірності. Це допомагає тобі інтерпретувати свої дані.
Майте на увазі, що t-SNE піддається критиці як інструмент для розуміння, наприклад, це дослідження його підводних каменів - я чув, що UMAP вирішує деякі проблеми, але я не маю досвіду роботи з UMAP. Я також не сумніваюся, що причина екологів, що використовують NMDS, - це культура та інертність, можливо, UMAP або t-SNE насправді кращі. Я, чесно кажучи, не знаю.
Розкочуючи власну відстань
Якщо ви розумієте структуру своїх даних, готові відстані та перетворення можуть бути не найкращими для вас, і ви, можливо, захочете побудувати власну метрику відстані. Хоча я не знаю, що представляють ваші дані, може бути доцільним обчислити відстань окремо для реально оцінених змінних (наприклад, використання евклідової відстані, якщо це має сенс), а також для бінарних змінних та додати їх. Загальні відстані для двійкових даних, наприклад, відстань Жакарда або відстань Косину . Можливо, вам доведеться подумати про якийсь мультиплікативний коефіцієнт для відстаней, оскільки в обох Жакарда та Косіна є значення[ 0 , 1 ] незалежно від кількості ознак, тоді як величина евклідової відстані відображає кількість ознак.
Слово обережності
Постійно слід пам’ятати, що оскільки у вас є стільки регуляторів, ви можете легко потрапити в пастку налаштування, поки не побачите те, що хотіли бачити. Цього важко уникнути при дослідницькому аналізі, але слід бути обережними.