Чи завжди відбілювання добре?


27

Поширений крок попередньої обробки алгоритмів машинного навчання - відбілювання даних.

Здається, що завжди добре робити відбілювання, оскільки це де-корелює дані, спрощуючи моделювання.

Коли відбілювання не рекомендується?

Примітка: я маю на увазі декореляцію даних.


1
ви можете дати посилання на відбілювання?
Атілла Озгур

2
Я думаю, що ця нитка є заглушкою. Це дійсно слід розширити. - - На даний момент прийнята відповідь має так мало інформації. - - Я б не прийняв це і відкрив тут щедроту.
Лео Леопольд Герц 준영

Ваше запитання також упереджене, там, де "завжди". Звичайно, відбілювання не завжди добре. Також визначте види відбілювання. Я думаю, що це призводить до не настільки конструктивних відповідей. - - Визначте типи даних, які будуть використовуватися. - - Я думаю, що краще питання може бути: Як можна покращити застосування цього відбілювання на цих досить приємних даних? . - - @AtillaOzgur Одне джерело en.wikipedia.org/wiki/Whitening_transformation, якщо розглядається основна трансформація відбілювання.
Лео Леопольд Герц 준영

Відповіді:


13

Попереднє відбілювання - це узагальнення нормалізації ознак, що робить вхід незалежним шляхом перетворення його на трансформовану матрицю вхідної коваріації. Я не бачу, чому це може бути погано.

Однак швидкий пошук виявив "Доцільність відбілювання даних для поліпшення роботи метеорологічного радіолокатора" ( pdf ):

Зокрема, відбілювання добре спрацювало у випадку експоненціальної АЧС (що узгоджується з результатами Монакова), але менш добре у випадку з гауссом. Після чисельних експериментів ми з’ясували, що випадок Гаусса чисельно погано обумовлений у тому сенсі, що число умови (відношення максимального до мінімального власного значення) надзвичайно велике для матриці коваріації Гаусса.

Я недостатньо освічений, щоб коментувати це. Можливо, відповідь на ваше запитання полягає в тому, що відбілювання завжди добре, але є певні прийоми (наприклад, зі випадковими даними воно не вийде добре, якщо це зробити через функцію автокореляції Гаусса).


2
наскільки я розумію, він працює добре, якщо коваріаційна матриця добре оцінена. Хтось може це прокоментувати? Спасибі.
Пробіг

3
Цитата вище не стосується погано оціненої матриці коваріації (хоча це також було б проблематично). Це говорить про те, що для ідеально заданої матриці коваріації все ще може бути важко точно виконати необхідну факторизацію (і пов'язані з цим перетворення даних). Це пов'язано з чисельним поганим кондиціонуванням, а це означає, що помилки з обмеженою точністю округлення забруднюють обчислення.
GeoMatt22

2
Це недостатня відповідь. Він здебільшого скопіював не надто пов'язаний матеріал. - - Цю відповідь справді слід розширити. Це заглушка.
Лео Леопольд Герц

20

По-перше, я вважаю, що декореляція та відбілювання - це дві окремі процедури.

Для декореляції даних нам потрібно перетворити їх так, щоб перетворені дані мали діагональну матрицю коваріації. Це перетворення можна знайти, вирішивши задачу про власне значення. Ми знаходимо власні вектори та пов'язані з ними власні значення матриці коваріації шляхом розв’язанняΣ=XX

ΣΦ=ΦΛ

де - діагональна матриця, що має власні значення як діагональні елементи.Λ

Матриці таким чином , діагоналізует ковариационная матриця X . Стовпці Φ - це власні вектори матриці коваріації.ΦXΦ

Ми також можемо записати діагоналізовану коваріацію як:

(1)ΦΣΦ=Λ

Отже, щоб декорелювати один вектор , робимо:xi

(2)xi=Φxi

Діагональні елементи (власні значення) у можуть бути однаковими або різними. Якщо ми зробимо їх однаковими, то це називається відбілюванням даних. Оскільки кожне власне значення визначає довжину пов'язаного з ним власного вектора, коваріація буде відповідати еліпсу, коли дані не побілені, і кулі (що має всі розміри однакової довжини або однакові), коли дані побілені. Відбілювання виконується наступним чином:Λ

Λ1/2ΛΛ1/2=I

Рівно підставляючи , пишемо:(1)

Λ1/2ΦΣΦΛ1/2=I

Таким чином, щоб застосувати це Відбілювання перетворення до ми просто помножити його на цьому масштабному коефіцієнті, отримання вибілених точок даних х я :xixi

(3)xi=Λ1/2xi=Λ1/2Φxi

Тепер ковариация не тільки по діагоналі, але і рівномірна (білий), так як ковариация х я , Е ( х я х я ' ) = I .xixiE(xixi)=I

Σ

І, нарешті, є загальна "готча", з якою люди повинні бути обережними. Потрібно бути обережним, що ви обчислюєте коефіцієнти масштабування на даних тренувань , а потім використовуєте рівняння (2) та (3), щоб застосувати ті самі коефіцієнти масштабування до даних тесту, інакше ви ризикуєте переоцінити (ви б використовували інформація з тестового набору в навчальному процесі).

Джерело: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf


2
Дякую за роз’яснення, ви праві. Я мав на увазі де-кореляцію. btw: наприкінці ви пишете, що відбілювання виконується лише для даних тренувань. наскільки я знаю, ви обчислюєте матрицю з даних тренувань, але виконуєте її як на даних тренувань, так і на тестах.
Побіг

@Ran так, це я мав на увазі ... Я оновлю відповідь
tdc

Було б добре, якби ви могли запропонувати розділи у своїй відповіді. Майте вступ, резюме та речі з математики. - - Я думаю, ви не заглиблюєтесь у свою відповідь. - - Ваша відповідь охоплює переважно тривіальні пропозиції, але не надто глибоко в темі. У вас є лише основні копійовані матеріали з конспектів лекцій, але дуже мало власної роботи над темою.
Лео Леопольд Герц

тому, простіше кажучи, зробіть pca, щоб отримати де-корельовані функції, а потім викладіть нову функцію, розділіть на дисперсію, щоб отримати побілені функції.
авокадо

1

З http://cs231n.github.io/neural-networks-2/

Однією з слабких сторін цього перетворення є те, що воно може значно перебільшувати шум у даних, оскільки воно розтягує всі розміри (включаючи нерелевантні розміри крихітної дисперсії, які переважно є шумом), щоб вони були однакового розміру на вході. На практиці це можна пом'якшити більш сильним згладжуванням ...

На жаль, я недостатньо освічений, щоб далі коментувати це.


Будь ласка, вкажіть, які форми шумів перебільшені. Ваша довідка є суворою. Це лише основна інформатика з цієї теми, тобто білий шум із давнім підходом до нейронної мережі. - - Перебільшена робота також повинна бути визначена.
Лео Леопольд Герц 준영

Мені здається, що це просто пов'язано зі масштабуванням усіх функцій, щоб вони мали однакову дисперсію, правда? Тож якби була функція, відмінність якої в тренувальному наборі була шумовою, ми можемо очікувати, що загальна дисперсія цієї функції буде значно меншою, ніж інша; це перетворення призвело б до того, що "шум" та інша особливість мають однакову дисперсію, і їх можна розглядати як "посилюючі шуми".
ійосеф
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.