Вибір гіперпараметрів з використанням T-SNE для класифікації

13

В якості специфічної проблеми, з якою я працюю (конкуренція), у мене є наступне налаштування: 21 функція (числовий на [0,1]) та двійковий вихід. У мене близько 100 К рядків. Налаштування здається дуже галасливим.

Я та інші учасники впродовж певного часу застосовуємо генерацію функцій, і вбудована стохастична сусідська вбудована версія t виявилася досить потужною в цій обстановці.

Я натрапив на цей пост "Як ефективно використовувати t-SNE", але все ще не можу зробити висновок про те, як вибрати найкращі гіперпараметри в моїх налаштуваннях класифікації.

Чи є якісь великі правила (кількість особливостей, розмірність вбудовування -> вибір недоумкування)?

Я просто застосовую спеціальні налаштування на даний момент, оскільки для повторення різних налаштувань потрібно занадто багато часу. Дякуємо за будь-які коментарі.

— Рік
джерело

Це чудове запитання! Сподіваюсь, хтось знайде мою відповідь недостатньо гучним, тож ви отримаєте іншу відповідь (і я теж дізнаюся щось нове).

— usεr11852

17

Я звичайно використовую -SNE ( поряд із методами кластеризації - детальніше про це врешті-решт ), щоб розпізнати / оцінити наявність кластерів у моїх даних. На жаль, наскільки мені відомо, не існує стандартного способу вибору правильного здивування вбік, дивлячись на створений набір даних про зменшені розміри, а потім оцінювати, чи є це значимим. Існують деякі загальні факти, наприклад. відстані між кластерами здебільшого безглузді, малі значення невдахи заохочують невеликі структури, схожі на згусток, але це стосується цього. $t$

Дуже грубе правило емпіричного, щоб перевірити , що це значення помилки , пов'язане з кожної реконструкцією. $t$ -SNE намагається мінімізувати суму розбіжностей Kullback-Leibler між розподілом відстаней між даними в вихідному домені та розподілом відстаней між даними в області зменшеного розміру (фактично цільовими розподілами є розподіли ймовірність того, що точка вибере іншу точку як свого сусіда, але вони прямо пропорційні відстані між двома точками). Можна стверджувати, що менші значення дивергенції KL демонструють кращі результати. Ця ідея не дуже добре працює на практиці, але теоретично вона допомогла б виключити деякі діапазони значень здивування, а також деякі запуски алгоритму, які явно неоптимальні. Я пояснюю, чому ця евристика далеко не панацея і як вона могла бути корисною: Параметр здивування збільшується монотонно з дисперсією Гаусса, що використовується для обчислення відстаней / ймовірностей. Отже, збільшуючи параметр здивування в цілому, ви отримаєте менші відстані в абсолютних величинах і наступні значення KL-розбіжності. Тим не менш, якщо у вас 20 пробіжок з однаковим здивуванням, і ви не можете (не бажаєте) дивитися на них, ви завжди можете вибрати той з найменшою змінною, сподіваючись, що він збереже початкові відстані більш точно. Те ж саме стосується і Тим не менш, якщо у вас 20 пробіжок з однаковим здивуванням, і ви не можете (не бажаєте) дивитися на них, ви завжди можете вибрати той з найменшою змінною, сподіваючись, що він збереже початкові відстані більш точно. Те ж саме стосується і Тим не менш, якщо у вас 20 пробіжок з однаковим здивуванням, і ви не можете (не бажаєте) дивитися на них, ви завжди можете вибрати той з найменшою змінною, сподіваючись, що він збереже початкові відстані більш точно. Те ж саме стосується і $\theta$ , параметр наближення для наближення Барнса-Хата, якщо припустити, що недоумкування виправлено зміною а потім перевірка отриманих витрат повинна бути дещо інформативною. Зрештою, менші витрати пов'язані з більш вірними реконструкціями. Хоча все не втрачено ... $\theta$

У вашому конкретному випадку використання хитрості автоматичної процедури вибору хорошого значення недосконалості полягає в наступному: Запустіть невелику процедуру кластеризації (скажімо, -медіа або DBSCAN) на наборі даних про зменшену розмірність, а потім оцініть якість цього кластеризації використовуючи якийсь індекс ( Коена , індекс Ранда , Фоулкеса-Маллоуса тощо) проти того, що ви намагаєтеся передбачити. Ідея тут полягає в тому, що для вашої задачі під рукою правильне представлення даних (залежне від збитку -SNE результатів) повинно дати найбільш інформативне уявлення (у вигляді однієї з згаданих показників) з точки зору їх узгодження з властивістю ви намагаєтеся передбачити Ось чому $k$ $k$ $t$ $t$ -SNE використовувався в першу чергу, якщо отримане представлення є неінформативним для властивостей, які ми досліджуємо, то це просто не добре, незважаючи на низьку помилку відновлення, візуальну привабливість тощо.

Дозвольте зазначити, що те, що я описую, - це евристика . Як було сказано на початку моєї посади, перевірка результатів вручну - це незамінний спосіб оцінки якості результату зменшення / кластеризації розмірів.

— usεr11852
джерело

Дякую за це. Цікаво звучить ідея індексу про те, наскільки кластеризація відповідає класифікації.

— Рік

4

Зазвичай ми встановлюємо здивування на 5% від розміру набору даних. Отже, для набору даних із 100-рядковими рядами я б розпочав з недоумкуванням 5000, або принаймні 1000, якщо у вас немає високопродуктивного комп'ютера. Наші набори даних походять з аналізу проточної цитометрії, вони зазвичай мають від 50 до 500 тис. Точок даних з 10 до 20 числовими значеннями.

— Джеймс Лі
джерело

4

Вам може бути цікаво подивитися "Автоматичний вибір недоумкуваності t-SNE" від Цао та Ванга :

t-розподілене стохастичне сусідське вбудовування (t-SNE) - один з найбільш широко використовуваних методів зменшення розмірності для візуалізації даних, але він має гіперпараметр здивування, який вимагає ручного вибору. На практиці правильна настройка здивування t-SNE вимагає від користувачів розуміння внутрішньої роботи методу, а також практичного досвіду. Ми пропонуємо мета вибору моделі для недоумкуваності t-SNE, яка потребує незначних додаткових обчислень, вищих за показники самого t-SNE. Ми емпірично підтверджуємо, що налаштування недоумкувань, знайдені нашим підходом, узгоджуються з уподобаннями, отриманими від людських експертів у ряді наборів даних. Аналізується також подібність нашого підходу до байєсівських критеріїв інформації (BIC) та мінімальної довжини опису (MDL).

— пісістрато
джерело

2

Які були висновки ..?

— Тім

1

S (P e r p l e x .) = 2 K L (P | | Q) + \log (n) \frac{P e r l e x .}{n}

$S(Perplex.) = 2KL(P||Q) + \log(n)\frac{Perlex.}{n}$ (Але +1 у коментарях Тіма, реферат статті є далеко не повною відповіддю; будь ласка, спробуйте створити до відповіді, яка сама по собі пояснює / міститься.)

— usεr11852