Якщо ваші дані містять єдиний зовнішній вигляд, то їх можна надійно знайти, використовуючи запропонований підхід (без ітерацій, проте). Формальний підхід до цього є
Кук, Р. Денніс (1979). Впливові спостереження в лінійній регресії . Журнал Американської статистичної асоціації (Американська статистична асоціація) 74 (365): 169–174.
Для того, щоб знайти більше, ніж один чужий, протягом багатьох років провідним методом була так звана оцінка сімейного підходу. Це досить широке сімейство оцінювачів, яке включає М оцінку регресії Губера, регресію L1 Коенкера, а також підхід, запропонований Прокастінатором у своєму коментарі до вашого запитання. В М - оцінці з опуклими р функціями має ту перевагу , що вони мають приблизно таку ж числову складність в оцінці регулярної регресії. Великим недоліком є те, що вони можуть надійно знайти людей, які:МММρ
- рівень забруднення вашого зразка менше деp- кількість проектних змінних,11 + сторp
- або якщо ті, хто не виходить за рамки дизайнерського простору (Елліс та Моргенталер (1992)).
Ви можете знайти хорошу реалізацію оцінок регресії ( l 1 ) в ( ) пакеті. Мл1robustbase
quantreg
R
Якщо ваші дані містять більше зовні також потенційно виходить на проектний простір, то знаходження їх означає розв’язання комбінаторної задачі (рівнозначно рішенняM-оцінювача зфункцієюповторного облудження / невипуклогоρ). ⌊ nр + 1⌋Мρ
За останні 20 років (а особливо за останні 10 років) було розроблено велику кількість швидких та надійних алгоритмів виявлення зовнішньої структури, щоб приблизно вирішити цю комбінаторну проблему. Зараз вони широко впроваджуються в найпопулярніші статистичні пакети (R, Matlab, SAS, STATA, ...).
Тим не менш, чисельна складність пошуку людей, що переживають ці підходи, зазвичай є порядку . Більшість алгоритмів можна використовувати на практиці для значень p у середньому підлітковому віці. Зазвичай ці алгоритми лінійні в n (кількість спостережень), тому кількість спостережень не є проблемою. Великою перевагою є те, що більшість цих алгоритмів бентежно паралельні. Останнім часом було запропоновано багато підходів, спеціально розроблених для даних з більшими розмірами.О ( 2p)pн
З огляду на те, що ви не вказали у своєму запитанні, я перелічу деякі посилання на випадок p < 20 . Ось деякі статті, які пояснюють це більш детально у цій серії оглядових статей:pр < 20
Rousseeuw, PJ та van Zomeren BC (1990). Виявлення багатоваріантних випускників та очок важеля . Журнал Американської статистичної асоціації , Vol. 85, № 411, стор 633-639.
Rousseeuw, PJ та Van Driessen, K. (2006). Обчислення регресії LTS для великих наборів даних . Архів виявлення даних та знань Том 12 Випуск 1, Сторінки 29 - 45.
Hubert, M., Rousseeuw, PJ та Van Aelst, S. (2008). Надійна багатоваріантна методика високої пробивки . Статистична наука , Вип. 23, № 1, 92–119
Елліс С.П. та Моргенталер С. (1992). Ліверсинг та поломка в регресії L1. Журнал Американської статистичної асоціації , Vol. 87, № 417, стор 143-148
Нещодавній довідник з проблеми ідентифікації зовнішньої структури:
Maronna RA, Martin RD та Yohai VJ (2006). Надійна статистика: теорія та методи . Вілі, Нью-Йорк.
Ці (та багато інших варіацій цих) методів реалізовані (серед інших) у пакеті.robustbase
R