Чи слід видаляти випадки, які зазначаються статистичними програмними засобами як переживаючі при здійсненні багаторазової регресії?


23

Я роблю кілька регресійних аналізів, і не впевнений, чи слід видаляти застарілі дані з моїх даних. Дані, які мене турбують, з’являються як "кола" на скриньках SPSS, однак зірочок немає (що змушує мене думати, що вони не такі "погані"). Випадки, які мене турбують, відображаються у таблиці "Діагностика випадкових випадків" на виході - отже, я повинен видалити ці випадки?


Дуже дякую Чарлі та Епіграду. Скажіть, будь ласка, який графік у SPSS я розглядаю, щоб оцінити, чи є залишки в залишках? Розсіювач виглядає досить безладно! У мене немає жодних проблем із даними як такими (оскільки вони не були введені неправильно). Я просто думаю, що деякі мої учасники мали значно більші бали в деяких моїх шкалах, тобто тому, що вони були набагато більш соціально тривожними, решта зразка.
Anon

3
Ви повинні побудувати передбачуване значення y (те, яке задано за моделлю, яку ви оцінюєте) на осі x, а залишки на осі y. Замість прогнозованого значення y ви можете поставити один із ваших прогнозів / незалежних змінних на вісь x. Ви можете створити кілька сюжетів, кожен з яких має інший предиктор на осі x, щоб побачити, яке значення x призводить до поведінки зовні. Знову я б застеріг від видалення сторонніх; натомість проаналізуйте, чому виникає чужа.
Чарлі

1
Наголошуючи на твердженні Чарлі, важливіше питання "чому", а не "якщо", і я також застеріг би проти їх усунення. Я не знайомий з SPSS, але незалежно від особливостей, які ви використовували для запуску регресії, ви також зможете дати вам графік залишків або, принаймні, значення їх, яке ви можете використати для створення сюжету Чарлі.
Фоміт

@Anon я з’єднав два ваші акаунти. Зареєструйтесь, щоб ви могли оновити та / або прокоментувати своє запитання.
chl

3
@ user603 Ні, ти мене неправильно читаєш. "Зовнішній вигляд" нічого не означає - особливо коли він позначений автоматичною процедурою в статистичному програмному забезпеченні. Існує стільки ж прикладів важливих висновків дослідження, що перебуває у "інших людей". Щоразу, коли у вас є дані, які ви видаляєте, це має бути причина. "Вони незручні" - це не причина.
Фоміт

Відповіді:


25

Позначення людей, що не впадають в норму, не є викликом судження (або в будь-якому випадку не повинно бути одним). З огляду на статистичну модель, люди, які перебувають у групі, мають чітке, об'єктивне визначення: це спостереження, які не відповідають шаблону більшості даних. Такі спостереження потрібно розставити на початку будь-якого аналізу просто тому, що їх відстань від основної маси даних гарантує, що вони будуть здійснювати непропорційне тягнення до будь-якої багатовимірної моделі, встановленої з максимальною вірогідністю (або взагалі будь-якої іншої функції опуклої втрати).

Важливо відзначити, що багатовимірна останець s просто не може бути надійно виявлений при допомоги залишків від найменших квадратів (або будь-який інший моделі , оціненої з допомогою ML, або будь-який інший функції втрат опуклим). Простіше кажучи, багатоваріантні залишки можуть бути достовірно виявлені лише за допомогою їх залишків із моделі, встановленої за допомогою процедури оцінки, не підданої коливанню ними.

Віра в те, що люди, що вижили, буде виділятися серед залишків класичної форми, десь там, з іншими важко відокремленими статистичними ні-ні, такими як інтерпретація p-значень як міри доказів або виведення висновку на популяцію з упередженої вибірки. За винятком того, що цей може бути набагато старшим: сам Гаус рекомендував використовувати для оцінки параметрів нормального розподілу від галасливих спостережень (навіть, коли йдеться, рекомендував використовувати надійний оцінювач, такий як медіана та божевільний (замість класичного середнього та стандартного відхилень). що стосується отримання коефіцієнта консистенції божевільного (1)).

Щоб дати простий наочний приклад на основі реальних даних, розглянемо сумнозвісні дані зірки CYG . Червона лінія тут зображує найменше квадратне прилягання, синя лінія прилягання, отримана з використанням міцної лінійної регресії. Міцна придатність тут є, а саме FastLTS (2) пристосування, альтернативою пристосуванню LS, яке може бути використане для виявлення людей, що втрачають спокій (оскільки він використовує процедуру оцінки, яка забезпечує обмеження впливу будь-якого спостереження на оцінений коефіцієнт). Код R для його відтворення:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

Дані зірокCYG

Цікаво, що 4 зовнішніх спостереження зліва навіть не мають найбільших залишків відносно пристосування ЛС та графіку QQ залишків придатного ЛС (або будь-якого діагностичного інструменту, отриманого від них, наприклад, відстані Кука або dfbeta) не вдається показати жодне з них як проблематичне. Це фактично норма: для виведення оцінок LS потрібно не більше двох осіб, що не належать (незалежно від розміру вибірки) таким чином, щоб люди, що залишилися, не виділялися на залишковій ділянці. Це називається ефектом маскуванняі це добре зафіксовано. Мабуть, єдине, що є примітним у наборі даних CYGstars, - це те, що він є біваріантним (тому ми можемо використовувати візуальний огляд для підтвердження результату міцного пристосування) і що насправді є хороше пояснення, чому ці чотири спостереження зліва так ненормальні.

Це, до речі, виняток більше, ніж правило: за винятком невеликих пілотних досліджень, що включають невеликі вибірки та декілька змінних, і коли людина, яка робила статистичний аналіз, також була залучена до процесу збору даних, я ніколи не відчував випадків, коли попередні переконання щодо особистість людей, що вижили, справді були правдивими. Це, до речі, тихо легко перевірити. Незалежно від того, чи були ідентифіковані аутлієри за допомогою алгоритму виявлення сторонніх тканин чи відчуття кишечника дослідника, вони за визначенням мають спостереження, які мають ненормальне важелі (або "потягування") над коефіцієнтами, отриманими від пристосування ЛС. Іншими словами, люди, що переживають люди, є спостереженнями, вилучення яких із зразка має сильно вплинути на придатність ЛС.

Хоча я ніколи особисто цього не відчував, в літературі є деякі добре задокументовані випадки, коли спостереження, позначені як пережиті алгоритмом виявлення сторонніх, виявились грубими помилками або породженими іншим процесом. У будь-якому випадку, не є науково обґрунтованим і не розумним лише видаляти людей, які не мають права, якщо їх якимось чином зрозуміти чи пояснити. Якщо невелика кабала спостережень настільки віддалена від основного масиву даних, що вона може вручну витягувати результати статистичної процедури сама по собі, то розумно (і я можу додати природне) обробляти її окремо незалежно від того, чи не ці пункти даних можуть бути підозрюваними також з інших причин.

(1): див. Стівен М. Стіглер, Історія статистики: Вимірювання невизначеності до 1900 року.

(2): Обчислення регресії LTS для великих наборів даних (2006) PJ Rousseeuw, K. van Driessen.

(3): Надійні багатоваріантні методи з високим розбиттям (2008). Hubert M., Rousseeuw PJ та Van Aelst S. Джерело: Statist. Наук. Том 23, 92-119.


6
Це хороший матеріал (+1). Однак я вважаю, що ви неправильно використовуєте традиційну термінологію і кооперували "інше" для позначення "впливового спостереження". Поняття обидва цінні, і ви ставитесь до останнього тут добре, але вони не такі взаємозамінні, як ви, схоже, вказуєте. Наприклад, впливове спостереження , що це узгоджується з більшістю даних буде відповідати вашій характеристиці «спостережень , які мають аномальну важелі (або" тягнути ") по порівнянні з коефіцієнтами , отриманих з LS відповідає» , але не буде розглядатися більшість авторів бути самим собою "чужим" .
whuber

2
@whuber: Добре. Дійсно, я вважаю, як останні шкільні підручники з надійної статистики (наприклад, Надійна статистика: теорія та методи. Вілі) такі спостереження (так звані "хороші позиції") як шкідливі. Виправданням є те, що вони знижують стандартну похибку розрахункових коефіцієнтів, що змушує користувача висловити необґрунтовану впевненість у силі спостережуваного відношення. Якщо вважати, що хороші позитивні важелі є вигідними, це також робить формальний підхід більш послідовним: адже всі хороші позитивні точки впливу мають негативний вплив на се, які є складовою придатності LS / ML.
user603

3
+1 Дуже приємний приклад. Реальні дані, що показують два пристосування, майже ортогональні, і в яких сильно впливова четвірка у верхньому лівому куті не матиме найбільших залишків після встановлення OLS.
Уейн

19

Взагалі, я насторожено знімаю "чужих людей". Регресійний аналіз може бути правильно застосований за наявності не нормально розподілених помилок, помилок, які виявляють гетерокедастичність, або значень предикторів / незалежних змінних, які "далекі" від решти. Справжня проблема з людиною, що випадає, полягає в тому, що вони не дотримуються лінійної моделі, за якою слідує кожна інша точка даних. Звідки ви знаєте, чи так це? Ви цього не робите.

Якщо що-небудь, ви не хочете шукати значення змінних, які є сторонніми; натомість ви хочете шукати значення ваших залишків, які є пережилими. Подивіться на ці точки даних. Чи правильно записані їх змінні? Чи є якась причина, щоб вони не дотримувались тієї самої моделі, що й решта ваших даних?

Звичайно, причина, по якій ці спостереження можуть виглядати як люди, що переживають людину (відповідно до залишкової діагностики), може бути в тому, що ваша модель неправильна. У мене є професор, який любив говорити, що якби ми викинули чужих людей, ми все одно віримо, що планети обертаються навколо Сонця ідеальними колами. Кеплер міг викинути Марс і кругова історія орбіти виглядала б досить непогано. Марс дав ключове уявлення про те, що ця модель була неправильною, і він би пропустив цей результат, якби проігнорував цю планету.

Ви згадали, що видалення залишків не дуже змінить ваші результати. Або це тому, що у вас є лише дуже мала кількість спостережень, які ви видалили щодо вашого зразка, або вони цілком відповідають вашій моделі. Це може припустити, що, хоча самі змінні можуть виглядати відмінно від решти, їх залишки не є такими видатними. Я хотів би залишити їх і не намагатися обґрунтувати своє рішення зняти деякі мої критики.


6
+1 Не кидайте дані, оскільки це чуже. Дізнайтеся, чому деякі дані є сторонніми.
Фоміт

2
це жахлива порада. Для людей, що переживають люди, що переживають люди, вони настільки далекі від решти даних, що тягнуть регресійну лінію до них таким чином, щоб вони не виділялися на залишковій ділянці (або, що найгірше: дають великі залишки для справжнього точки даних). Насправді може бути показано, що як тільки у вас є більше одного одиниці, його неможливо надійно виявити, використовуючи залишковий сюжет від класичної регресії. Це називається ефектом маскування, і я добре зафіксований, зокрема, у багатьох реальних прикладах даних.
користувач603

До речі, саме тому я б уникав використання прикладу Марса: він ілюструє процедуру, яка працює лише в тому випадку, якщо ви маєте справу з однією стороною. У більшості застосувань такої гарантії немає. Це дає помилкове почуття впевненості у загальнопорочній методології (яка як статистик - це дійсно те, що нам слід процвітати, щоб запобігти).
користувач603,

15

+1 до @Charlie та @PeterFlom; ви отримуєте хорошу інформацію там. Можливо, я можу зробити тут невеликий внесок, оскаржуючи передумови питання. Boxplot зазвичай (програмне забезпечення може змінюватися, і я не знаю точно , що робить SPSS) точки міток більш ніж в 1,5 рази Inter-квартиль діапазоні вище (нижче) третього (першого) квартили як «викиди». Однак ми можемо запитати, як часто ми повинні сподіватися знайти хоча б одну таку точку, коли нам відомо, що всі точки походять від одного розподілу? Просте моделювання може допомогти нам відповісти на це питання:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

Це свідчить про те, що можна очікувати, що подібні моменти трапляються зазвичай (> 50% часу) із зразками розміром 100, навіть коли нічого не лишається. Оскільки це підказує в останньому реченні, ймовірність виявлення фальшивого «зовнішнього» за допомогою стратегії boxplot буде залежати від розміру вибірки:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Існують і інші стратегії автоматичного визначення застарілих осіб, але будь-який подібний метод іноді неправильно визначає дійсні бали як "пережиті", а іноді неправильно ідентифікує справжніх переживачів як "дійсних балів". (Ви можете вважати це помилками типу I та II типу .) Я міркував над цим питанням (для чого це варто) - зосередити увагу на ефектах включення / виключення питань, про які йдеться. Якщо ваша мета - прогнозування, ви можете скористатися перехресною валідацією, щоб визначити, чи / наскільки включно з відповідними точками збільшують кореневу середню квадратичну помилку прогнозування . Якщо ваша мета - пояснення, ви можете подивитися на dfBeta(тобто подивіться, наскільки змінюються бета-оцінки вашої моделі залежно від того, включаються чи ні). Інша перспектива (імовірно, найкраща) полягає у тому, щоб уникнути необхідності вибирати, чи слід відкидати непридатні точки, а просто використовувати надійний аналіз замість цього.


Процедури, які ви рекомендуєте, працюють надійно, лише якщо існує максимум одна зовнішня частина (незалежно від розміру вашого набору даних), що є нереальним припущенням. Тукі калібрував правило вуса, щоб виключити приблизно 1% спостережень на кожному кінці, якщо дані отримані з Гауссового розподілу. Ваші симуляції підтверджують це. Думка Тукі полягала в тому, що збитки, спричинені зневагою настільки незначною частиною даних у тих випадках, коли спостереження добре ведуться, для всіх практичних питань є несуттєвими. Особливо щодо переваг у випадках, коли даних немає.
користувач603

2
Дякуємо за Ваш коментар, @ user603; це позиція, що провокує думку. До яких процедур, які я рекомендую, ви заперечуєте: використання, наприклад, dfbeta для виявлення можливих людей , що переживають , або використання надійних аналізів (прототипічно двоквартир Тукі як альтернативна функція втрат) як захист від їх впливу, а не вибору, які точки даних викидати?
gung - Відновіть Моніку

дякую, що вказали на відсутність чіткості в моєму коментарі (мене обмежувало обмеження довжини). Звичайно, я конкретно маю на увазі перші: dfbeta та крос-валідація (остання проблематична лише в тому випадку, якщо спостереження, які використовуються для перехресної перевірки, випадковим чином виводяться з оригінального зразка. Приклад випадку, коли може бути використана перехресна перевірка знаходитись у так званих умовах контролю якості, де спостереження, які використовуються для тестування, витягнуті з тимчасово розмежуваного зразка).
користувач603,

Дякуємо за уточнення, @ user603. Мені доведеться пограти з цими ідеями, щоб більш детально їх зрозуміти. Моя інтуїція полягає в тому, що було б досить важко не помітити людей, які спотворюють ваші результати; видається, що вам потрібно буде, щоб люди, які перешкоджають викривленню результатів з обох сторін однаково, у такому випадку ваші бета-версії виявляться приблизно неупередженими, а ваші результати будуть просто менш значущими.
gung - Відновіть Моніку

1
Моя інтуїція полягає в тому, що було б досить важко не помітити людей, які спотворюють ваші результати, але, на жаль, справа в тому, що це не так. Також подивіться на приклад, який я надаю у своїй відповіді.
user603

12

Спершу слід ознайомитись із ділянками залишків: чи дотримуються вони (приблизно) нормального розподілу? Чи виявляють вони ознаки гетероскедастичності? Подивіться також і на інші сюжети (я не використовую SPSS, тому не можу точно сказати, як це зробити в цій програмі, а також які скриньки ви дивитесь; однак, важко уявити, що зірочки означають "не так вже й погано", напевно вони означають що це дуже незвичайні моменти за деяким критерієм).

Потім, якщо у вас є люди, що пережили, перегляньте їх і спробуйте з'ясувати, чому.

Тоді ви можете спробувати регресію з аутлайнерами і без них. Якщо результати схожі, життя добре. Повідомте про всі результати за допомогою виноски. Якщо це не так, то слід пояснити обидві регресії.


1
Дуже дякую, Петре. Я перевірив графіки QQ, і дані не здаються абсолютно ненормальними. Коли я видаляю залишків, вони, схоже, не сильно впливають на результати. Отже, я повинен просто залишити їх? Мені все одно було б цікаво почути думки інших людей у ​​таблиці діагностики випадкових випадків у SPSS. Велике дякую.
Anon

1
Так, я б тоді залишив їх із приміткою, на кшталт "аналіз з видаленими кількома випадаючими людьми показав дуже схожі результати"
Пітер Флом - Відновити Моніку

2
Навіть якщо припустити, що можна надійно знайти людей, що користуються такою процедурою (а більшу частину цього не можна ), яка все ще залишає дивно нерозглянуту проблему, що робити, коли ти не можеш "розібратися" / пояснити людей, що не мають права. Я є другою порадою залишатися осторонь SPSS. -
user603
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.