Позначення людей, що не впадають в норму, не є викликом судження (або в будь-якому випадку не повинно бути одним). З огляду на статистичну модель, люди, які перебувають у групі, мають чітке, об'єктивне визначення: це спостереження, які не відповідають шаблону більшості даних. Такі спостереження потрібно розставити на початку будь-якого аналізу просто тому, що їх відстань від основної маси даних гарантує, що вони будуть здійснювати непропорційне тягнення до будь-якої багатовимірної моделі, встановленої з максимальною вірогідністю (або взагалі будь-якої іншої функції опуклої втрати).
Важливо відзначити, що багатовимірна останець s просто не може бути надійно виявлений при допомоги залишків від найменших квадратів (або будь-який інший моделі , оціненої з допомогою ML, або будь-який інший функції втрат опуклим). Простіше кажучи, багатоваріантні залишки можуть бути достовірно виявлені лише за допомогою їх залишків із моделі, встановленої за допомогою процедури оцінки, не підданої коливанню ними.
Віра в те, що люди, що вижили, буде виділятися серед залишків класичної форми, десь там, з іншими важко відокремленими статистичними ні-ні, такими як інтерпретація p-значень як міри доказів або виведення висновку на популяцію з упередженої вибірки. За винятком того, що цей може бути набагато старшим: сам Гаус рекомендував використовувати для оцінки параметрів нормального розподілу від галасливих спостережень (навіть, коли йдеться, рекомендував використовувати надійний оцінювач, такий як медіана та божевільний (замість класичного середнього та стандартного відхилень). що стосується отримання коефіцієнта консистенції божевільного (1)).
Щоб дати простий наочний приклад на основі реальних даних, розглянемо сумнозвісні дані зірки CYG . Червона лінія тут зображує найменше квадратне прилягання, синя лінія прилягання, отримана з використанням міцної лінійної регресії. Міцна придатність тут є, а саме FastLTS (2) пристосування, альтернативою пристосуванню LS, яке може бути використане для виявлення людей, що втрачають спокій (оскільки він використовує процедуру оцінки, яка забезпечує обмеження впливу будь-якого спостереження на оцінений коефіцієнт). Код R для його відтворення:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
Цікаво, що 4 зовнішніх спостереження зліва навіть не мають найбільших залишків відносно пристосування ЛС та графіку QQ залишків придатного ЛС (або будь-якого діагностичного інструменту, отриманого від них, наприклад, відстані Кука або dfbeta) не вдається показати жодне з них як проблематичне. Це фактично норма: для виведення оцінок LS потрібно не більше двох осіб, що не належать (незалежно від розміру вибірки) таким чином, щоб люди, що залишилися, не виділялися на залишковій ділянці. Це називається ефектом маскуванняі це добре зафіксовано. Мабуть, єдине, що є примітним у наборі даних CYGstars, - це те, що він є біваріантним (тому ми можемо використовувати візуальний огляд для підтвердження результату міцного пристосування) і що насправді є хороше пояснення, чому ці чотири спостереження зліва так ненормальні.
Це, до речі, виняток більше, ніж правило: за винятком невеликих пілотних досліджень, що включають невеликі вибірки та декілька змінних, і коли людина, яка робила статистичний аналіз, також була залучена до процесу збору даних, я ніколи не відчував випадків, коли попередні переконання щодо особистість людей, що вижили, справді були правдивими. Це, до речі, тихо легко перевірити. Незалежно від того, чи були ідентифіковані аутлієри за допомогою алгоритму виявлення сторонніх тканин чи відчуття кишечника дослідника, вони за визначенням мають спостереження, які мають ненормальне важелі (або "потягування") над коефіцієнтами, отриманими від пристосування ЛС. Іншими словами, люди, що переживають люди, є спостереженнями, вилучення яких із зразка має сильно вплинути на придатність ЛС.
Хоча я ніколи особисто цього не відчував, в літературі є деякі добре задокументовані випадки, коли спостереження, позначені як пережиті алгоритмом виявлення сторонніх, виявились грубими помилками або породженими іншим процесом. У будь-якому випадку, не є науково обґрунтованим і не розумним лише видаляти людей, які не мають права, якщо їх якимось чином зрозуміти чи пояснити. Якщо невелика кабала спостережень настільки віддалена від основного масиву даних, що вона може вручну витягувати результати статистичної процедури сама по собі, то розумно (і я можу додати природне) обробляти її окремо незалежно від того, чи не ці пункти даних можуть бути підозрюваними також з інших причин.
(1): див. Стівен М. Стіглер, Історія статистики: Вимірювання невизначеності до 1900 року.
(2): Обчислення регресії LTS для великих наборів даних (2006) PJ Rousseeuw, K. van Driessen.
(3): Надійні багатоваріантні методи з високим розбиттям (2008). Hubert M., Rousseeuw PJ та Van Aelst S. Джерело: Statist. Наук. Том 23, 92-119.