Коли використовувати лему Джонсона-Лінденштраусса над SVD?


12

Лема Джонсона-Лінденштраусса дозволяє представляти точки у просторовому просторі на точки нижчої розмірності. При знаходженні просторів нижнього розміру, що найкраще підходять, стандартним методом є пошук розкладання сингулярного значення, а потім взяття підпростору, породженого найбільшими сингулярними значеннями. Коли цікаво використовувати Джонсона-Лінденштрауса над SVD?

Відповіді:


20

Два підходи дають дуже різні гарантії.

Лемма JL по суті каже: "ти дай мені потрібну помилку, і я дам тобі простір низьких розмірів, який фіксує відстані до цієї помилки". Це також найгірший парний гарантій: для кожної пари очок тощо тощо

SVD по суті обіцяє "ти скажи мені, в якому вимірі ти хочеш жити, і я дам тобі найкраще можливе вбудовування", де "кращий" визначається як середній : повна помилка справжньої подібності проти прогнозованої подібності мінімальна.

Тож з теоретичної точки зору вони вирішують дуже різні проблеми. На практиці, який саме ви хочете, залежить від вашої моделі проблеми, які параметри важливіші (помилка чи розмірність) та які гарантії вам потрібні.


Невже хтось може сказати мені, як саме отримується в (1-eps) | uv | ^ 2 <= | f (u) -f (v) | ^ 2 <= (1 + eps) | uv | ^ 2 (від en.wikipedia.org/wiki/Johnson%E2%80%93Lindenstrauss_lemma )? f()
Т ....

2
Це зовсім інше питання. Але якщо (дуже) коротко, якщо взяти матрицю і заповнити її записами, виведеними зі стандартного нормального, то f ( x ) визначається як A x . Af(x)Ax
Суреш Венкат

Чи існує також схема JL для кінцевих полів, де спотворення є в метриці Хеммінга? Якщо так, то що б тут? f
Т ....

1
Ви не можете ефективно зменшити розмірність для метрики Хеммінга. Структура сильно відрізняється. У дуже рукотворному сенсі визнання скорочень у стилі JL пов'язане з життям у гільбертовому просторі. 1
Суреш Венкат

4

SVD і JL також по-різному екстраполюють на майбутні точки.

Тобто, якщо ви припускаєте, що ваші дані надходять із якогось базового розподілу, SVD-принцип повинен залишатися "хорошим" для будь-яких майбутніх точок, доки вони будуть відібрані з одного розподілу. З іншого боку, цільовий розмір JL залежить від кількості точок, тобто, застосування JL-перетворення до додаткових точок може збільшити ймовірність помилки.

Це стає актуальним, якщо, наприклад, ви використовуєте зменшення розмірності як крок попередньої обробки для іншого алгоритму. Межі SVD для даних про навчання можуть містити дані тестів, але JL не будуть.


Це дуже вдалий момент.
Пол Сігель

3

Це продовження відповіді Суреша - я трохи погукав, прочитавши його відповідь, і придумав таке розуміння. Я спочатку збирався розмістити це як коментар до його відповіді, але це продовжувало зростати.

Будь ласка, вкажіть на помилки у відповіді, я не знавець у цій галузі.

У деякому сенсі JL і SVD - це як яблука та апельсини.

1) Проблеми, які вони вирішують, абсолютно різні. Один стосується попарних відстаней, другий - найкраще представлення. Один - найгірший, інший - середній випадок.

(1)argminP{supu,v(|1||PuPv||2||uv||2|)}

(Це не точно, я детальніше про це прокоментую пізніше)

Проблема, яку SVD вирішує, - це (заданий вимір ) arg min P P  dim k { Avg ( | | u - P u | | 2 ) }k

argminP of dim k{Avg(||uPu||2)}

2) Вхідні дані: Хоча обидва алгоритми виводять підпростори, потрібні входи різні. JL вимагає допуску (яка максимальна помилка, яку ви готові допустити між фактичними відстанями та відстанями в підпросторі), тоді як SVD вимагає кількості вимірів.ϵ

3) JL неконструктивна, SVD - конструктивна - ця точка трохи розпливчаста, оскільки термін конструктивний не визначений точно. Існують детерміновані алгоритми для обчислення SVD, але алгоритм пошуку простору JL є рандомізованим - робіть випадкові прогнози, якщо не вдалося, спробуйте ще раз.

4) SVD унікальний (підпростір може бути не унікальним, але об'єктивне значення буде однаковим для всіх підпросторів). Вище (1) рівняння не є точним у тому сенсі, що JL насправді не говорить про мінімізацію невідповідності в попарних відстанях - це дає гарантію на існування меншого підпростору, де відстані будуть щонайменше відмінними від їх фактичних значення. Таких підпростор може бути багато, деякі кращі за інші.ϵ

(Див. Коментарі для пояснення щодо викресленої частини відповіді).

Редагувати: @ john-myles-white написав публікацію про JL, щоб перевірити свої претензії та показати, як можна побудувати проекцію: http://www.johnmyleswhite.com/notebook/2014/03/24/a-note- on-the-johnson-lindenstrauss-lemma /


5
У вашій відповіді є ряд помилок. (1) JL надзвичайно конструктивний: є всілякі алгоритми побудови відображення (2), це не зберігає різницю, але відносна різниця (співвідношення) (3) лема JL була дерандомізована (4) JL працює для будь-якого набору векторів: конструкція не залежить від фактичного вводу. єдина необхідна інформація - кількість векторів.
Суреш Венкат

Спасибі Суреш. Я включив усі, крім вашої остаточної пропозиції. Сміливо редагуйте відповідь далі. В останньому пункті я розгублений. Ви говорите, що та сама карта буде працювати незалежно від того, який набір векторів я вам даю?
elexhobby

3
Це трохи тонкий момент. Після того як ви виправите помилку та кількість векторів, існує фіксований розподіл ймовірностей на картах, який буде працювати з високою ймовірністю для будь-якого набору векторів. Звичайно, немає детерміновано закріпленої лінійної карти, яка б задовольняла цю властивість.
Сашо Ніколов


011
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.