Міцна PCA та міцна відстань махаланобіса для виявлення зовнішньої форми


17

Надійна PCA (розроблена Candes et al. 2009 або ще краще Netrepalli et al. 2014 ) є популярним методом для виявлення багатоваріантного зовнішнього середовища , але відстань махаланобіса також може бути використана для виявлення зовнішньої тканини з урахуванням надійної, регульованої оцінки коваріаційної матриці . Мені цікаво (не) переваги використання одного методу над іншим.

Моя інтуїція підказує мені, що найбільша відмінність між ними полягає в наступному: Коли набір даних "малий" (в статистичному розумінні), надійний PCA дасть коваріацію нижчого рангу, а надійна оцінка матриці коваріації натомість дасть повну- рангова коваріація завдяки регуляризації Ледойт-Вольфа. Як це, у свою чергу, впливає на виявлення зовнішньої форми?


Цікаве запитання, але я не бачу, як відповідь можна мотивувати без конкретного випадку використання. Чи є у вас "грубо корумповані спостереження" ? У вас взагалі галасливі дані? Ряд реалізацій RPCA, по суті, є надійними методами оцінювання коваріації (див. Princ Jolliffe's Princ. Component Analysis, Ed. 2nd Ch. 10), де ПК оцінюються на основі регульованої оцінки коваріації. Таким чином, відмінність від двох згаданих вами підходів далеко не чітка. Взагалі, автоматичне виявлення зовнішнього вигляду є успішним в контексті конкретної програми.
usεr11852 повідомляє Відновити Монік

1
Проблема "шумних даних" не є виявленням сторонніх. Я думаю, що проблема виявлення зовнішнього типу є достатньо обмежувальною, що дозволяє загальне порівняння цих двох методів без випадку використання. Це питання щодо методології.
Mustafa S Eisa

Можливо, я намагався сказати занадто багато в занадто мало місця, вибачте за це. На що я хочу звернути увагу, це те, що два підходи, які ви згадуєте, не відрізняються. Вам слід розглянути більше уваги над порівнянням між підходом до прогнозування (який ви називаєте RPCA) та надійним підходом до оцінки коваріації (те, що ви називаєте відстані махаланобіса). Надійна оцінка коваріації сама по собі є цілком справедливою методологією реалізації RPCA (наприклад, google "PCA M-Оцінка"). Не надто згадуйте про наявність зважених підходів PCA, які ви якось не згадуєте в контексті RPCA.
usεr11852 повідомляє Відновити Моніку

Не потрібно вибачення :) Два способи дуже відрізняються, особливо на невеликих наборах даних. Один із способів, якими вони відрізняються, згадується в кінці мого питання. Хоча (надійна) PCA може розглядатися як проблема проекції, вона також може бути інтерпретована як проблема оцінки коваріації, тому, можливо, менше розрізнення в методі оцінки параметрів, ніж у застосуванні та продуктивності.
Mustafa S Eisa

@ MustafaSEisa / Приємне запитання! Я думаю, що на це можна відповісти з методичних причин: насправді це один із моїх піт-піїв. Я спробую скоріше спробувати відповідь. Тим часом; Я думаю, що корисним способом підходити до цього в більш загальних рисах є перегляд наслідків використання моделей з вкладеною, але неоднаковою групою інваріантності. Як я намагаюся робити це в дещо іншому контексті.
user603

Відповіді:


7

У цій роботі порівнюються деякі методи в цій галузі. Вони посилаються на надійний підхід PCA, до якого ви пов'язані як "PCP" (основні пошуки компонентів) та сімейство методів, з якими ви пов'язані для надійної оцінки коваріації як M-оцінок.

Вони це стверджують

PCP розроблений для рівномірно пошкоджених координат даних, а не пошкоджених точок даних (тобто, outliers), тому порівняння з PCP дещо несправедливо для цього виду даних

і показують, що PCP (він же надійний PCA) може виявитись невдалим для виявлення зовнішньої ситуації в деяких випадках.

Вони також розповідають про три види "ворогів відновлення підпростору", тобто про різні види екслідерів, і про те, які види методів можуть бути корисними для боротьби з кожним із них. Порівнювати власні люди з трьома видами "ворогів", які обговорюються тут, може допомогти вам вибрати підхід.


Спасибі за цього Девіда, я погляну на папір. Однак існує версія надійної PCA, яка накладає обертально-інваріантний штраф на дату (рядки матриці даних) замість штрафу за координатами (наприклад, у випадку Candes). Думки?
Мустафа S Еїза

Я не впевнений, що розумію ваше запитання. Ви просите мене порівняти два підходи, про які ви обговорювали у своєму запитанні, з іншим надійним підходом PCA?
Девід Дж. Харріс

11

Якщо ваша відповідь: «Ні», це абсолютно добре, мені просто цікаво.
Mustafa S Eisa

О Я бачу. Це був би особливий випадок відстані махаланобіса?
Девід Дж. Харріс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.