Чи це обман для того, щоб скинути авангардистів на основі осередкової середньої абсолютної помилки для вдосконалення регресійної моделі


15

У мене є модель прогнозування, протестована чотирма методами, як ви бачите на малюнку boxplot нижче. Атрибут, який передбачає модель, знаходиться в межах 0-8.

Ви можете помітити, що існує одна верхня межа та три нижньої межі, що вказана усіма методами. Цікаво, чи доцільно видалити ці дані з даних? Або це свого роду обман, щоб покращити модель передбачення?

введіть тут опис зображення


1
(1) Я бачу результати для чотирьох методів, а не трьох. (2) Як можливе усунення доказів можливостей прогнозування може покращити методи?
whuber

@whuber (1) виправлено. Для (2), значить, вилучення екземпляра, який дуже неточно прогнозується, не призведе до кращої ефективності прогнозування в цілому (це я мав на увазі під «покращити модель» ?
renakre

7
зняття спостереження з будь-якої причини (скажімо, 4 найменш добре придатні точки) - це сам вибір моделі. Ви повинні оцінити ефективність прогнозування цього другого вибору моделі теж . Важливим моментом є збереження цілісності підсумкового тестового набору, що використовується для оцінки ефективності загального методу прогнозування. З вашого запитання незрозуміло, чи плануєте ви переобладнати моделі (Lasso тощо) після видалення погано прогнозованих даних.
user603

2
В якості побічного зауваження я додам, що колись велика цінність прихована в чужих людях і варто уважно їх уважно подивитися.
Dror Atariah

@DrorAtariah Спасибі Dror, я згоден. Екстремальні випадки цінні.
renakre

Відповіді:


22

Це майже завжди Обман , щоб видалити спостереження для поліпшення регресійній моделі. Вам слід відмовлятися від спостережень лише тоді, коли ви справді думаєте, що це насправді переживачі.

Наприклад, у вас є смарт-годинник, підключений до вашого смарт-годинника. Якщо ви подивитеся на серіал, легко помітити, що були б помилкові спостереження з показаннями на зразок 300 кбіт / с. Їх слід видалити, але не тому, що ви хочете вдосконалити модель (що б це не означало). Вони помилки в читанні, які не мають нічого спільного з вашим серцевим ритмом.

Однак слід бути обережним - співвідношення помилок із даними. У моєму прикладі можна стверджувати, що у вас є помилки, коли монітор серцевого ритму зміщується під час вправ, таких як біг або стрибки. Що зробить ці помилки співвіднесеними зі швидкістю харт. У цьому випадку слід бути обережним у усуненні цих викрадачів та помилок, оскільки вони не є випадковими

Я наведу вам сформульований приклад того, коли не знімати людей, що не впадають у життя . Скажімо, ви вимірюєте рух ваги на пружині. Якщо вага мала відносно сили ваги, то ви помітите, що закон Гука працює дуже добре: де F - сила, k - коефіцієнт напруги і Δ x - позиція ваги .

Ж=-кΔх,
ЖкΔх

Δх

ОНОВЛЕННЯ У вашому випадку я б запропонував витягнути ці точки даних і ознайомитися з ними ближче. Чи може це бути несправністю лабораторного інструменту? Зовнішнє втручання? Дефект проби? тощо.

Далі спробуйте визначити, чи може співвідношення цих людей, що переживають ці люди, співвідноситься з тим, що ви вимірюєте, як у прикладі, який я дав. Якщо є кореляція, то немає простого способу зробити це. Якщо кореляції немає, ви можете видалити залишків


2
It is always a cheating to remove outliers to improve a regression model. Ви вважаєте регресію сплайну як обман ? FWIW проводить спостереження за вагою, щоб покращити [локальну] регресійну модель ~
user603

1
Я б не погоджувався: "Це завжди обман для видалення інших людей, щоб покращити регресійну модель". Є багато інструментів для проведення регресійної діагностики, і метою цього є виявлення та "вилучення" людей, що переживають людину, та вдосконалення моделі.
Хайтао Ду

6
@ hxd1011 такі інструменти, як Grubbs, не повинні автоматично видаляти залишків. Вони вказують лише на те, що може бути чужа людина, тоді ви вирішуєте, чи справді це екслієр. Це дуже небезпечний підхід для поліпшення діагностики придатності шляхом автоматичного видалення залишків. Ви повинні проаналізувати їх у кожному випадку.
Аксакал

2
Гаразд, я розумію. Моя оригінальна мова була занадто жорсткою. Я відредагував вступне речення. Дякуємо за відгук коментаторам
Аксакал,

1
@renakre, якщо ти не вважаєш, що це люди, що переживають люди, то не знімай спостереження. Однак те, що вам може знадобитися врахувати, є мірою корисності прогнозу, окрім квадратної помилки. Наприклад, якщо ці екземпляри для вас не такі важливі, можливо, вам не потрібно зважувати їх у квадраті, а натомість використовувати абсолютне відхилення тощо. Захід повинен відображати важливість помилки прогнозу, наприклад втрати долара за кожною помилкою прогнозування . Крім того, те, що це рахунки, не означає автоматично, що немає помилок на інструменті, плагіни веб-сторінки, що рахують кліки, можуть вийти з ладу
Aksakal

4

Спочатку я хотів опублікувати це як коментар до іншої відповіді, але це було занадто довго, щоб підходити.

Коли я дивлюся на вашу модель, вона не обов'язково містить одну велику групу та кілька людей, що випадають. На мою думку, вона містить 1 групу середнього розміру (від 1 до -1), а потім 6 менших груп, кожна з яких знаходиться між 2 цілими числами. Ви можете досить чітко бачити, що при досягненні цілого числа спостерігається менше спостережень на цих частотах. Єдиний особливий момент - 0, де насправді не спостерігається падіння спостережень.

На мою думку, варто розібратися, чому цей розподіл поширюється так:

  • Чому в результаті розподілу кількість цих спостережень падає на цілі числа?
  • чому падіння цієї кількості спостережень не відбувається при 0?
  • Чим настільки особливе в цих людей, що вони не є людьми?

Вимірюючи дискретні людські дії, ви завжди матимете людей, що вижили. Це може бути цікаво дізнатись, чому ці люди не відповідають вашій моделі, і як їх можна використовувати для покращення майбутніх ітерацій вашої моделі.


+1. Здається, що розрив у цілій чисельності не завжди відповідає правильній цілій кількості, тому ми можемо більше нас бачити шаблон, який не існує, але це може бути артефактом збору, кодування чи дискретизації, який може пролити світло на дані в цілому. Можливо, навіть може бути розрив у 0, який перекривається великою кількістю перекриваються та, можливо, затуманеними крапками. Безумовно, варто повернутися до походження, щоб побачити, чи є ці дані такими, як ми думаємо.
Уейн

2

Існують плюси і мінуси, як вилучити людину, що побудує, і створити модель лише для «нормального шаблону».

  • Плюси: продуктивність моделі краща. Інтуїція полягає в тому, що дуже важко використовувати ОДНУ модель для зйомки як "нормального шаблону", так і "зовнішнього шаблону". Таким чином, ми видаляємо іншу людину і кажемо, що ми лише будуємо модель для "нормального шаблону".

  • Мінуси: ми не зможемо передбачити випускників. Іншими словами, припустимо, що ми поставимо нашу модель у виробництво, не було б жодних прогнозів, що відсутні у моделі

Я б запропонував зняти іншу людину і побудувати модель, і, якщо можливо, спробувати створити окрему модель лише для випередження.

Щодо слова "обман", якщо ви пишете папір і чітко перераховуєте, як визначити та видалити залишків, а згадка про покращену ефективність є лише на чистих даних. Це не обман.


3
Я не проти того, щоб мене принизили, але хтось може мені сказати причину?
Хайтао Ду

Я схвалив :) Чи вважаєте ви також, що це гарна ідея видалити залишки, а потім переупорядкувати дані для подальшого тестування моделі прогнозування?
renakre

1
@renakre Я б запропонував вам подумати над тим, що робити на виробництві. Скажімо, якщо ви виявили, що це не більше 1%, і це добре, щоб не виробляти жодної продукції у виробництві. Потім просто видаліть їх. Якщо ви виявили, що більше, ніж 30%, не можна пропускати прогнози у виробництві. Потім спробуйте створити окрему модель для цього.
Хайтао Ду

Ми в основному тестуємо речі, щоб побачити, чи можемо ми передбачити якусь змінну результатів. Чиif it is fine to produce no output in production означає те саме? Отже, якщо ми почнемо використовувати нашу модель у реальній програмі для тестування змінної результату та використання прогнозованого результату в додатку, тоді не було б добре видаляти залишків (особливо якщо їх багато, як ви згадали)? Це ви мали на увазі?
renakre

1
@renakre Ви мертві на! Це те, що ми нещодавно зробили з AITOBOX, де прогнозні межі базуються не тільки на вазі пси, але на повторній вибірці помилок, заповнених вибухами. Це робиться не тільки для моделей ARIMA, але і причинних моделей, де невизначеність в прогнозах також вкладена аналогічно.
IrishStat

2

Я вважаю, що видаляти людей, які не мають статусу, є розумним лише тоді, коли для цього є вагомі якісні причини. Я маю на увазі, що є інформація, що інша змінна, яка відсутня в моделі, впливає на зовнішні спостереження. Тоді вибираєте видалення зовнішньої форми або додавання додаткових змінних.

Я вважаю, що коли у мене є зовнішні спостереження в моєму наборі даних, вивчаючи, щоб визначити, чому існує інше, я дізнаюся більше про свої дані та можливі інші моделі, які слід враховувати.


1
Ласкаво просимо до статистики.SE! Будь ласка, знайдіть хвилинку, щоб переглянути наш тур . Було б корисно, якби ви розширили свою відповідь, щоб більш повно відповісти на питання (наприклад, визначення сторонніх даних, заснованих на boxplot, вплив цього методу на модель прогнозування та ін.).
Таврок

2

Я навіть не впевнений, що вони "пережиті люди". Можливо, ви хочете зробити звичайний графік ймовірності. Це дані чи залишки від відповідності моделі?


вони є різницею між прогнозованими та реальними значеннями.
renakre
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.