Чи може бути використана регресія для виявлення лієрів. Я розумію, що є способи вдосконалити регресійну модель шляхом видалення залишків. Але головна мета тут - не підходити до регресійної моделі, а з’ясувати корисність за допомогою регресії
Чи може бути використана регресія для виявлення лієрів. Я розумію, що є способи вдосконалити регресійну модель шляхом видалення залишків. Але головна мета тут - не підходити до регресійної моделі, а з’ясувати корисність за допомогою регресії
Відповіді:
Найкращим варіантом використання регресії для пошуку інших людей є використання стійкої регресії.
Звичайні регреси можуть впливати на людей, що переживають люди, двома способами:
По-перше, екстремальний вигляд у напрямку y у значеннях x поблизу може впливати на прилягання до цієї області так само, як зовнішній вплив може впливати на середнє значення.
По-друге, «зовнішнє» спостереження у x-просторі є впливовим спостереженням - воно може тягнути прилягання лінії до нього. Якщо достатньо далеко, лінія пройде через впливову точку:
У лівій частині сюжету є досить впливовий момент, і він досить сильно витягує лінію з великої маси даних. У правильному сюжеті він переміщений ще далі - і тепер лінія проходить через точку. Коли значення x є таким крайнім, коли ви рухаєте цю точку вгору і вниз, лінія рухається по ній, проходячи середнє значення інших точок і через одну впливову точку.
Впливовий момент, який цілком відповідає решті даних, може бути не такою великою проблемою, але той, який знаходиться далеко від лінії через решту даних, зробить рядок відповідним, а не даним.
Якщо ви подивитеся на правий графік, червона лінія - найменша квадратна регресійна лінія - взагалі не показує крайню точку як зовнішню - її залишкові значення 0. Натомість великі залишки від лінії найменших квадратів знаходяться в основна частина даних!
Це означає, що ви можете повністю пропустити стороння людина .
Ще гірше, що при багаторазовій регресії зовнішній вигляд у x-просторі може не виглядати особливо незвично для будь-якої однієї x-змінної. Якщо є можливість такої точки, застосувати найменше регресію квадратів, можливо, дуже ризиковано.
Міцна регресія
Якщо ви підходите до міцної лінії - зокрема однієї, яка є надійною для впливових людей, - як зелена лінія у другому сюжеті - тоді у вибуху є дуже великий залишок.
У такому випадку ви маєте надію визначити інших людей - вони будуть пунктами, які не є - в деякому сенсі - близькими до лінії.
Видалення залишків
Ви, звичайно, можете використовувати надійну регресію, щоб ідентифікувати та тим самим видалити залишків.
Але після того, як у вас є міцний регресійний пристрій, який вже не сильно впливає на людей, які не страждають, не обов’язково знімати залишків - у вас вже є модель, яка добре підходить.
Чи може бути використана регресія для виявлення зовнішньої форми.
Так. Ця відповідь та відповідь Glen_b вирішують це.
Основна мета тут - не підходити до регресійної моделі, а з’ясувати корисність за допомогою регресії
Спираючись на коментар Романа Лустрика, тут є евристичний пошук аутлієрів за допомогою (множинної лінійної) регресії.
Скажімо, у вас розмір вибірки . Потім виконайте наступне:
Встановіть регресійну модель на прикладах. Запишіть його залишкову суму помилок квадратів .r t o t a l
Для кожного зразка i встановіть регресійну модель на прикладах n-1 (за винятком прикладу i) і запишіть відповідну залишкову суму помилок квадратів .
Тепер порівняйте з для кожного , якщо , то кандидат останець.г т про т я г я < < г т про т л я
Відставляючи очки цих кандидатів, ми можемо повторити всю вправу знову зі зменшеним зразком. В алгоритмі ми набираємо приклади в даних, які впливають на регресію, що не підходить (що є одним із способів позначити приклад як чужий).