Як слід поводитися з випускниками в лінійному регресійному аналізі?


73

Часто статистичному аналітику вручають встановлений набір даних і запитують підходити до моделі за допомогою такої методики, як лінійна регресія. Дуже часто набір даних супроводжується відмовою від відповідальності, подібною до "О так, ми заплуталися, збираючи деякі з цих точок даних - робіть все, що можете".

Така ситуація призводить до регресійних припадків, які сильно впливають на наявність аутлайнерів, які можуть бути помилковими даними. З огляду на наступне:

  • Небезпечно, як з наукової, так і з моральної точки зору, викидати дані без будь-якої іншої причини, ніж це "робить пристосування виглядати погано".

  • У реальному житті людям, які зібрали дані, часто не вдається відповісти на запитання типу "при створенні цього набору даних, який із пунктів ви точно зіпсували?"

Які статистичні тести чи правила можуть бути використані в якості основи для виключення випускників у лінійному регресійному аналізі?

Чи є якісь особливі міркування щодо багатолінійної регресії?


Відповіді:


33

Замість того, щоб виключати людей, що пережили, ви можете використовувати стійкий метод регресії. Наприклад, у R замість функції може використовуватися rlm()функція з пакету MASSlm() . Метод оцінки може бути налаштований на більш-менш надійний для людей, що переживають люди.


Якщо використовується функція rlm (), я бачу коефіцієнти і виробляються їх t-тести. Але як я можу отримати звідси значення f-тесту, R-квадрата? Я припускаю, що я не можу просто привести ці значення f-тесту та R квадратних значень із простих підсумкових результатів 'lm', якщо я правильно.
Ерік

1
Для надійної регресії припущення, що стоять за тестом F, більше не задовольняються, і R ^ 2 можна визначити декількома способами, які вже не є еквівалентними. Дивіться stats.idre.ucla.edu/stata/faq/…, щоб ознайомитись із цим для Stata.
Роб Хайндман


Але я знаходжу команду f.robftest з пакету sfsmisc, яка видає результат f-тесту. Чи можна використовувати цей результат для визначення статистики f-тесту для rlm? Крім того, я, здається, отримую R квадрат, просто вводячи значення в математичну формулу R квадрат, як 1 - сума (залишки (rlm (y ~ x)) ^ 2) / sum ((y-середнє (y)) ^ 2) . Для t-тестових значень для перевірки значущості коефіцієнтів я отримую значення t-тесту з підсумків (rlm (y ~ x)), які я порівнюю із значеннями t від 95% рівня довіри або близько того. Чи можна використовувати ці методи?
Ерік

22

Іноді люди, які переживають люди, є поганими даними, і їх слід виключити, наприклад, помилки друку. Іноді це Уейн Грецький або Майкл Джордан, і їх слід утримувати.

Старі методи виявлення включають:

Універсальний -> боксер. за межами 1,5-кратного міжквартильного діапазону - це більше.

Двостороннє -> розсіяння з впевненим еліпсом. поза, скажімо, 95-відсотковий еліпс впевненості - це більше.

Багатоваріантність -> Mahalanobis D2 відстань

Позначте ці спостереження як чужі люди.

Запустіть логістичну регресію (на Y = IsOutlier), щоб побачити, чи є якісь систематичні шаблони.

Видаліть ті, які ви можете продемонструвати, що вони не є репрезентативною для жодної підгрупи.


І якщо у вас все ще є випускники, подумайте про використання іншої моделі, ніж лінійну. Наприклад, якщо ви використовуєте модель з такою поведінкою, як Майкл Джордан, це вже не чужа людина (з точки зору здатності моделей підходити до нього).
drevicko

1
Погодьтеся з більшістю сказаного тут, але я хотів би додати додаткову обережність, що " поза 1,5-кратного міжквартильного діапазону - це більше ", це умова , а не правило з будь-яким теоретичним підґрунтям. Він не повинен використовуватися як обґрунтування для виключення точок даних.
МКТ

20

Я думаю, що можна сказати просто для виключення людей, що вижили. Лінія регресії повинна узагальнювати дані. Через важелі ви можете мати ситуацію, коли 1% ваших точок даних впливає на схил на 50%.

З моральної та наукової точки зору це небезпечно лише в тому випадку, якщо ви нікому не скажете, що ви виключаєте людей, що вижили. Поки ви їх вказуєте, ви можете сказати:

"Ця регресивна лінія досить добре підходить для більшості даних. 1% часу прийде значення, яке не відповідає цій тенденції, але ей, це шалений світ, жодна система не ідеальна"


1
"Ей, це божевільний світ, жодна система не ідеальна" +1 для цього мій друг! :)
bartektartanus

1
Однак врахуйте інші моделі. Світ, якщо повний видалених "чужих людей", які були реальними даними, в результаті чого не вдалося передбачити щось дійсно важливе. У багатьох природних процесах діє такий закон, як поведінка з рідкісними крайніми подіями. Лінійні моделі можуть здатися такими, що відповідають таким даним (хоч і не надто добре), але використання однієї та видалення "залишків" означає відсутність тих екстремальних подій, про які зазвичай важливо знати!
drevicko

10

Шарпі,

Будучи буквально вашим питанням, я стверджую, що не існує статистичних тестів або правил, які можуть бути використані як основа для виключення людей, що переживають людину в лінійному регресійному аналізі (на відміну від визначення того, чи є дане спостереження чи іншим чином). Це має виходити з предметних знань.

Я вважаю, що найкращий спосіб почати - це запитати, чи мають навіть чужі люди сенс, особливо враховуючи інші зібрані вами змінні. Наприклад, чи справді розумно, що у вашому дослідженні є жінка на 600 фунтів, яку набирали з різних клінік спортивних травм? Або хіба не дивно, що людина перераховує 55 років чи професійний досвід, коли їм лише 60 років? І так далі. Сподіваємось, у вас тоді є розумна основа для того, щоб їх викинути або отримати компілятори даних, щоб двічі перевірити записи для вас.

Я б також запропонував стійкі методи регресії та прозорі звіти про знищені спостереження, як пропонували Роб та Кріс відповідно.

Сподіваюсь, це допоможе, Бренден


6

Я опублікував метод ідентифікації людей, що перебувають у нелінійній регресії, і він також може бути використаний при встановленні лінійної моделі.

HJ Мотульський та Р. Е. Браун. Виявлення залишків при встановленні даних з нелінійною регресією - новий метод, що базується на надійній нелінійній регресії та помилковій швидкості виявлення . BMC Bioinformatics 2006, 7: 123


5

Є дві статистичні дистанційні заходи, які спеціально розроблені для виявлення людей, що не випадають, а потім розглядають питання про те, чи слід вилучити таких осіб із лінійної регресії.

Перший - відстань Кука. Ви можете знайти досить вдале пояснення цього питання у Вікіпедії: http://en.wikipedia.org/wiki/Cook%27s_distance .

Чим більше відстань Кука, тим більш впливовим (вплив на коефіцієнт регресії) є спостереження. Типовою точкою відключення для розгляду спостереження є відстань Кука = 4 / n (n - розмір вибірки).

Другий - DFFITS, який також добре висвітлений у Вікіпедії: http://en.wikipedia.org/wiki/DFFITS . Типовою точкою відключення для розгляду зняття спостереження є значення DFFITS у 2 рази sqrt (k / n), де k - кількість змінних, а n - розмір вибірки.

Обидва заходи зазвичай дають подібні результати, що призводять до аналогічного відбору спостережень.


3

Сміття в, ​​сміття поза ....

Безпосередньо в отриманні повної переваги лінійної регресії є те, що шум іде за нормальним розподілом. В ідеалі ви маєте в основному дані та трохи шуму .... не переважно шум та мало даних. Ви можете перевірити нормальність залишків після лінійного прилягання, подивившись на залишки. Ви також можете фільтрувати вхідні дані перед лінійним пристосуванням для явних очевидних помилок.

Ось деякі типи шуму вхідних даних про сміття, які зазвичай не відповідають нормальному розподілу:

  • Цифри відсутні або додані із введеними вручну даними (виключається в 10 разів або більше)
  • Неправильні або неправильно перетворені одиниці (грам проти кілограмів проти кілограмів; метри, фути, милі, км), можливо, через об'єднання декількох наборів даних (Примітка: Маркіт Орбітера вважався таким чином втраченим, тому навіть вчені НАСА ракети можуть зробити це помилка)
  • Використання кодів, таких як 0, -1, -99999 або 99999, щоб означати щось нечислове, наприклад "не застосовується" або "стовпець недоступний", і просто скидати це в лінійну модель разом з дійсними даними

Введення специфікації для того, що є "дійсними даними" для кожного стовпця, може допомогти вам позначити недійсні дані. Наприклад, зріст людини в см повинен бути в діапазоні, скажімо, 100-300 см. Якщо ви знайдете 1,8 для висоти, яка є друкарською помилкою, і хоча ви можете припустити, що вона була 1,8 м, і змінити її на 180 - я б сказав, що зазвичай безпечніше викинути її, і краще задокументувати якнайбільше фільтрування, наскільки це можливо.


1

Для лінійної регресії ви могли б використовувати повторну серединну пряму підгонку.


0

Статистичні тести, що використовуються в якості основи для виключення: - стандартизовані залишки - статистика важелів - відстань Кука, що є комбінацією двох вище.

З досвіду виключення має обмежуватися випадками неправильного введення даних. Збільшення маси тіла в лінійній регресійній моделі є дуже хорошим компромісним методом. Застосування цього в R пропонує Роб. Чудовий приклад тут: http://www.ats.ucla.edu/stat/r/dae/rreg.htm

Якщо необхідно виключення, "одне правило" стосується статистики Dfbeta (міняє зміну в оцінці, коли видаляється екслієр), так що якщо абсолютне значення статистики DfBeta перевищує 2 / sqrt (n), то це підтверджує видалення зовнішнє.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.