Зовнішнє виявлення за допомогою регресії


11

Чи може бути використана регресія для виявлення лієрів. Я розумію, що є способи вдосконалити регресійну модель шляхом видалення залишків. Але головна мета тут - не підходити до регресійної моделі, а з’ясувати корисність за допомогою регресії


Коли підгонка поліпшується після встановлення моделі без накладної вартості, є докази того, що це надзвичайне значення. Це може бути суперечливим, якщо у вас багато даних, тому що придатність буде відносно менш покращеною.
Роман Луштрик

@ RomanLuštrik: це дуже гезотеричне визначення людей, що переживають люди. Наприклад, це не узгоджується з поглядом на людей, які не використовуються у відповіді Glen_b (або, з цього приводу, з визначенням випускників, що використовуються в підручнику з такої теми, як "Надійна статистика: теорія та методи"). Хочете цитувати джерело, щоб підтримати ваше визначення?
user603

Я не можу навести жодної посилання. Ви, звичайно, праві, що таке поліпшення придатності? Поліпшення може бути дуже суб'єктивним питанням, і його слід використовувати як орієнтир, а не робототехнічне відсічне значення та оцінювати в кожному конкретному випадку.
Роман Луштрик

Iteratively Reweighted Least Squares - це надійний метод регресії, який зазвичай використовується для пошуку інших людей у ​​даних.
whuber

Відповіді:


13

Найкращим варіантом використання регресії для пошуку інших людей є використання стійкої регресії.

Звичайні регреси можуть впливати на людей, що переживають люди, двома способами:

По-перше, екстремальний вигляд у напрямку y у значеннях x поблизу може впливати на прилягання до цієї області так само, як зовнішній вплив може впливати на середнє значення.x¯

По-друге, «зовнішнє» спостереження у x-просторі є впливовим спостереженням - воно може тягнути прилягання лінії до нього. Якщо достатньо далеко, лінія пройде через впливову точку:

введіть тут опис зображення

У лівій частині сюжету є досить впливовий момент, і він досить сильно витягує лінію з великої маси даних. У правильному сюжеті він переміщений ще далі - і тепер лінія проходить через точку. Коли значення x є таким крайнім, коли ви рухаєте цю точку вгору і вниз, лінія рухається по ній, проходячи середнє значення інших точок і через одну впливову точку.

Впливовий момент, який цілком відповідає решті даних, може бути не такою великою проблемою, але той, який знаходиться далеко від лінії через решту даних, зробить рядок відповідним, а не даним.

Якщо ви подивитеся на правий графік, червона лінія - найменша квадратна регресійна лінія - взагалі не показує крайню точку як зовнішню - її залишкові значення 0. Натомість великі залишки від лінії найменших квадратів знаходяться в основна частина даних!

Це означає, що ви можете повністю пропустити стороння людина .

Ще гірше, що при багаторазовій регресії зовнішній вигляд у x-просторі може не виглядати особливо незвично для будь-якої однієї x-змінної. Якщо є можливість такої точки, застосувати найменше регресію квадратів, можливо, дуже ризиковано.

Міцна регресія

Якщо ви підходите до міцної лінії - зокрема однієї, яка є надійною для впливових людей, - як зелена лінія у другому сюжеті - тоді у вибуху є дуже великий залишок.

У такому випадку ви маєте надію визначити інших людей - вони будуть пунктами, які не є - в деякому сенсі - близькими до лінії.


Видалення залишків

Ви, звичайно, можете використовувати надійну регресію, щоб ідентифікувати та тим самим видалити залишків.

Але після того, як у вас є міцний регресійний пристрій, який вже не сильно впливає на людей, які не страждають, не обов’язково знімати залишків - у вас вже є модель, яка добре підходить.


1
«Вам не обов'язково потрібно видалити викиди» іноді, знаходячи викидів є метою дослідження (наприклад , виявлення шахрайства)
user603

1
@ user603 Я згоден, досить часто - але знаходжу
nq

3
(+1) Приємна відповідь, але шкода, що ви не згадуєте жодних методів стійкої регресії. Наприклад, як була побудована зелена лінія на правій субплоті (і чому ви віддаєте перевагу цьому алгоритму над іншими)? Можливо, це посилання може бути корисним тут: Швидка лінійна регресія, яка є надійною для людей, що переживають людину, - мабуть, найкраща нитка в CV, що обговорює надійну регресію.
амеба

-2

Чи може бути використана регресія для виявлення зовнішньої форми.

Так. Ця відповідь та відповідь Glen_b вирішують це.

Основна мета тут - не підходити до регресійної моделі, а з’ясувати корисність за допомогою регресії

Спираючись на коментар Романа Лустрика, тут є евристичний пошук аутлієрів за допомогою (множинної лінійної) регресії.

Скажімо, у вас розмір вибірки . Потім виконайте наступне:n

  1. Встановіть регресійну модель на прикладах. Запишіть його залишкову суму помилок квадратів .r t o t a ln rtotal

  2. Для кожного зразка i встановіть регресійну модель на прикладах n-1 (за винятком прикладу i) і запишіть відповідну залишкову суму помилок квадратів .ri

  3. Тепер порівняйте з для кожного , якщо , то кандидат останець.г т про т я г я < < г т про т л яrirtotiri<<rtotali

Відставляючи очки цих кандидатів, ми можемо повторити всю вправу знову зі зменшеним зразком. В алгоритмі ми набираємо приклади в даних, які впливають на регресію, що не підходить (що є одним із способів позначити приклад як чужий).


1
Ви спробували цю стратегію на наборі даних, показаному тут ? Більш принципово, ваша стратегія полягає в тому, щоб стверджувати, що аутлієри можуть бути надійно знайдені за результатами ланцюга пристосувань, що мінімізують функцію опуклої втрати, що є відомою помилкою, коли більше одного одиниці (це посилання показує це для пов'язаної проблеми знаходження багатоваріантних людей, які осіли, але результати застосовуються і до регресії).
user603

Я радий видалити свою відповідь. Але по-перше, я не розумію, як ви даєте відповіді, і більше того, я не впевнений, чому вони роблять мою відповідь неправильною. Де перша стратегія? Чи можете ви вказати на конкретну відповідь там? Яка сторінка та рядок другого реферату є релевантними тут і обговорює «помилковість»?
Теджа

1
Вибачте, я лише зараз міг повернутися до цього. Розділ коментарів трохи короткий, щоб навести приклад, і я не буду використовувати розділ "Відповідь", оскільки це не питання ОП. Все-таки, чи встигли ви спробувати свою методологію на даних, з якими я пов’язаний?
user603
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.