Чи "випадкова проекція" строго кажучи не є проекцією?


10

Поточні реалізації алгоритму випадкової проекції зменшують розмірність зразків даних, відображаючи їх від Rd до Rk використовуючи матрицю проекцій d×kR , записи якої є відповідним розподілом (наприклад, від N(0,1) ):

x=1kxR

Зручно, що існують теоретичні докази, що показують, що це відображення приблизно зберігає попарні відстані.

Однак нещодавно я знайшов ці замітки, коли автор стверджує, що це відображення зі випадковою матрицею не є проекцією у строго лінійному алгебраїчному значенні цього слова (стор. 6). З наведених пояснень це пояснюється тим, що стовпці R не є строго ортогональними, коли його записи незалежно вибираються з N(0,1) . Тому більш ранні версії RP, де ортогональність стовпців R виконується, можна розглядати як проекцію.

Чи можете ви надати більш детальне пояснення (1), що таке визначення проекції у цьому суворому сенсі, та (2) чому РП не є проекцією згідно з цим визначенням ?.


1
Ви можете знайти відповіді на (1), відвідавши наш сайт . Твердження (2) є негайним, оскільки якби стовпці завжди були ортогональними, їх записи не могли бути незалежними.
whuber

Відповіді:


4
  1. Яке визначення проекції в цьому суворому (лінійному алгебраїчному) значенні (цього слова)

    https://en.wikipedia.org/wiki/Projection_(linear_algebra)

    У лінійній алгебрі та функціональному аналізі проекція - це лінійне перетворення P з векторного простору в себе таким, що P2=P . Тобто, кожного разу, колиP застосовується двічі до будь-якого значення, він дає той самий результат, як якщо б він був застосований один раз (idempotent).

    Для ортогональної проекції чи векторної проекції ви маєте це

    https://en.wikipedia.org/wiki/Projection_(linear_algebra)

    Ортогональна проекція - це проекція, для якої діапазон U і нульовий простір V є ортогональними підпросторами.

  2. Чому RP не є проекцією за цим визначенням?

    Майкл Махоні пише у вашій лекції зазначає, що це залежить від того, як побудовано РП , чи є РП проекцією у традиційному лінійному алгебраїчному сенсі. Це він робить у третьому та четвертому пунктах:

    По-третє, якби випадкові вектори були точно ортогональними (як це було насправді в оригінальних конструкціях JL), тоді ми мали б, щоб проекція JL була ортогональною проекцією

    ...

    але хоча це гайсийці неправдиво, {±} випадкові величини та більшість інших конструкцій , можна довести, що отримані вектори мають приблизно одиничну довжину і приблизно ортогональну

    ...

    це "досить добре".

    Таким чином, ви могли б зробити, в основному, випадкову проекцію з іншою побудовою, яка обмежена ортогональними матрицями (хоча вона не потрібна). Дивіться, наприклад, оригінальний твір:

    Джонсон, Вільям Б. та Джорам Лінденштраус. "Розширення відображень Ліпшица на простір Гільберта." Сучасна математика 26.189-206 (1984): 1.

    ... якщо вибирати навмання рангову k ортогональну проекцію на l2n

    ...

    Щоб зробити це точно, дозвольмо Q - проекцію на перші k координати l2n а σ буде нормалізовано мірою Хаара на O(n) , ортогональну групу на l2n . Тоді випадкова величина

    f:(O(n),σ)L(l2n)
    визначена
    f(u)=UQU
    визначає поняття "випадкова рангова k проекція".

    Запис у вікіпедії описує таким чином випадкову проекцію (те саме зазначено в конспектах лекцій на сторінках 10 і 11)

    https://en.wikipedia.org/wiki/Random_projection#Gaussian_random_projection

    Перший рядок - випадковий одиничний вектор, рівномірно обраний із Sd1 . Другий ряд є випадковим одиничним вектором від ортогонального простору до першого ряду, третій ряд - випадковий одиничний вектор від ортогонального простору до перших двох рядів тощо.

    Але ви, як правило, не одержуєте ортогональності, коли ви приймаєте всі записи матриці в матриці випадкових та незалежних змінних з нормальним розподілом (як Вубер згадував у своєму коментарі з дуже простим наслідком, "якби стовпці завжди були ортогональними, їх записи могли б не бути самостійним »).

    Матриця R і продукт в разі ортонормованих стовпців, можна розглядати як проекцію , так як воно відноситься до проекції матриці P=RTR . Це трохи те саме, що бачити регресію звичайних найменших квадратів як проекцію. Добуток b=RTx не є проекцією, але він дає координату в іншому базовому векторі. 'Реальна' проекція дорівнює x=Rb=RTRx , а матриця проекції - RTR .

    Матриця проекцій P=RTR повинна бути оператором ідентичності в підпросторі U що є діапазоном проекції (див. Властивості, згадані на сторінці вікіпедії). Або інакше сказано, що потрібно мати власні значення 1 і 0, так що підпростір, для якого це матриця ідентичності, є прольотом власних векторів, пов'язаних з власними значеннями 1. З випадковими записами матриці ви не збираєтеся отримувати це властивість. Це другий момент у конспектах лекцій

    ... це "схоже на" ортогональну матрицю багато в чому ... range(PTP) є рівномірно розподіленим підпростором ..., але власних значень немає в {0,1} .

    зауважимо, що в цій цитаті матриця P відноситься до матриці R у питанні, а не до матриці проекцій P=RTR що має на увазі матрицю R

    Тож випадкова проекція різними побудовами, як-от використання випадкових записів у матриці, не точно дорівнює ортогональній проекції. Але це обчислювально простіше, і, за словами Майкла Махоні, це "досить добре".


1
Дякую за вашу відповідь, я думаю, що йде в тому ж напрямку, що і те, що я дав вище. Просто щоб прояснити , я думаю , ви повинні вказати , що . Тоді, як ви пояснюєте, якщо записи R R d × k ідентичні від N ( 0 , 1 ), ми не можемо гарантувати, що P 2 = P або що P має власні значення у { 0 , 1 } . І навпаки, якщо стовпці RP=RRTRRd×kN(0,1)P2=PP{0,1}Rє ортонормальними обидві умови виконуються. Але важливо вказати, що проекція , а не R одна! RRTR
Даніель Лопес

1
@ DanielLópez Я оновив його.
Секст Емпірік

6

Це правильно: "випадкова проекція" суворо кажучи не проекція.

Проектується чітко визначено математичний об'єкт: https://en.wikipedia.org/wiki/Projection_(linear_algebra) - це лінійний оператор idempotentent, тобто лінійний оператор P такої , що P2=P . Застосування проекції двічі - це те саме, що застосувати його лише один раз, оскільки після того, як точка спроектується на підпростір, вона повинна просто залишитися там, якщо спроектується знову. У цьому визначенні немає нічого ортогональності; насправді проекція може бути косою (див. Вікіпедію).

Зауважте, що лише квадратні матриці можуть представляти "проекції" в цьому сенсі. "Випадкова проекція" використовує випадкову матрицю d×kR з kd , тому вона не може бути проекцією у сенсі вищевказаного визначення.

Навіть якщо ви робите стовпці R ортонормированном (наприклад , шляхом застосування Грам-Шмідта процесу), цей аргумент буде по- , як і раніше застосовуватися. Хтось нещодавно ставив це питання щодо PCA: Що саме слід називати "матрицею проекції" в контексті PCA? - матриця d×kU ортонормальних власних векторів суворо і не є проекцією.


3
В останньому абзаці ви говорите, що якщо стовпці є ортонормальними, то проекція все ще не є проекцією в сенсі проекції в лінійній алгебрі. Однак це лише тому, що матриця не є квадратною. Це більше через позначення, ніж через принцип. Якщо розширити матрицю на нулі, то матриця є лінійною проекцією.
Секст Емпірік

1
@MartijnWeterings Ні, я не думаю, що так. Візьміть 2D простір і U, який є 1x2, і виглядає так: [sqrt (2) / 2, sqrt (2) / 2] (відповідає проекції на діагоналі). Тепер продовжте його нулями. Це не буде рівним собі в квадраті.
амеба

1
Це слід продовжити якось іншим способом, можна зробити
kjetil b halvorsen

2
@amoeba, я погоджуюся, що це розтягує поняття / визначення, але я б сказав, що це більш нюансований, ніж який включає цей обернений термін, не рівний мені . Лінійна комбінація U, виготовлена ​​з ортогональних векторів, нагадує ортогональну проекцію на менший підпростір, і ви можете повторити цю проекцію, в результаті чого вийде те саме. Це лише те, що поряд з проекцією вибирається інший набір базових векторів (принаймні так можна побачити), і матричне подання не працює як P 2 = PR(RTR)1RTIUP2=P , але геометрично це виглядає як проекція.
Секст Емпірік

2
Правильно, @MartijnWeterings, але чому будь-який з неортогональними стовпчиками не "виглядає" косою проекцією ? R
амеба

1

Я думаю, що ключовим тут є розгляд простору стовпців матриці R d×k RP як підпростір, на який ми виконуємо проекцію. Взагалі, незалежно від того, стовпці R є ортогональними, можна спроектувати зразок x R d на простір стовпців R з використанням наступного рівняння [1]:RRxRdR

p=xR(RTR)1RT , деpRd .

Якщо, як і у старих версіях або RP, стовпці матриці R обмежуються ортонормальними, тоRTR=IRk×k , і тому проекціяx на простір стовпцівR стає:

p=xRRT , зpRd ,

і RRTRd×d стає матрицею проекції , тому що це квадрат і(RRT)2=RRTRRT=RRT .

Можливо, твердження про те, що старіший варіант випадкової проекції (коли стовпці R були ортонормальними) насправді є проекцією, що стосується того, що в цьому випадку вкладення вниз до Rk і заднє відновлення назад до Rd зразка xRd заданийxRRT , справді єпроекцієюна простір стовпцівR , аRRT -матриця проекції.

Буду вдячний, якщо ви можете підтвердити / виправити тут мої міркування.

Довідка:

[1] http://www.dankalman.net/AUhome/classes/classesS17/linalg/projections.pdf


1
Це правильно, але для будь-якого R матриця R(RTR)1RT

1
RRTR

2
R(RTR)1RT(RTR)1RTRTRTβ=(RTR)1RTy, as a projection, but the coefficients β are not the projection. OLS is strictly only a projection when you compute y^=R(RTR)1RTy. Still β could be considered the projection in a different basis. It is more like a semantic thing than mathematical.
Sextus Empiricus

-1

If you use recomputable random sign flipping or permutation prior to the Fast Walsh Hadamard transform the random projection is orthogonal.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.