По-перше, я вважаю, що декореляція та відбілювання - це дві окремі процедури.
Для декореляції даних нам потрібно перетворити їх так, щоб перетворені дані мали діагональну матрицю коваріації. Це перетворення можна знайти, вирішивши задачу про власне значення. Ми знаходимо власні вектори та пов'язані з ними власні значення матриці коваріації шляхом розв’язанняΣ=XX′
ΣΦ=ΦΛ
де - діагональна матриця, що має власні значення як діагональні елементи.Λ
Матриці таким чином , діагоналізует ковариационная матриця X . Стовпці Φ - це власні вектори матриці коваріації.ΦXΦ
Ми також можемо записати діагоналізовану коваріацію як:
Φ′ΣΦ=Λ(1)
Отже, щоб декорелювати один вектор , робимо:xi
x∗i=Φ′xi(2)
Діагональні елементи (власні значення) у можуть бути однаковими або різними. Якщо ми зробимо їх однаковими, то це називається відбілюванням даних. Оскільки кожне власне значення визначає довжину пов'язаного з ним власного вектора, коваріація буде відповідати еліпсу, коли дані не побілені, і кулі (що має всі розміри однакової довжини або однакові), коли дані побілені. Відбілювання виконується наступним чином:Λ
Λ−1/2ΛΛ−1/2=I
Рівно підставляючи , пишемо:(1)
Λ−1/2Φ′ΣΦΛ−1/2=I
Таким чином, щоб застосувати це Відбілювання перетворення до ми просто помножити його на цьому масштабному коефіцієнті, отримання вибілених точок даних х † я :x∗ix†i
x†i=Λ−1/2x∗i=Λ−1/2Φ′xi(3)
Тепер ковариация не тільки по діагоналі, але і рівномірна (білий), так як ковариация х † я , Е ( х † я х † я ' ) = I .x†ix†iE(x†ix†i′)=I
Σ
І, нарешті, є загальна "готча", з якою люди повинні бути обережними. Потрібно бути обережним, що ви обчислюєте коефіцієнти масштабування на даних тренувань , а потім використовуєте рівняння (2) та (3), щоб застосувати ті самі коефіцієнти масштабування до даних тесту, інакше ви ризикуєте переоцінити (ви б використовували інформація з тестового набору в навчальному процесі).
Джерело: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf