Можливо, я б ішов з вашою оригінальною моделлю з вашим повним набором даних. Як правило, я вважаю, що це полегшує аналіз чутливості. Тобто вони вказують вам на те, що слід перевірити, щоб у вас не було результату лише через щось дурне. У вашому випадку у вас є деякі потенційно впливові моменти, але якщо ви повторно перейдете на модель без них, ви отримаєте фактично таку ж відповідь (принаймні, щодо аспектів, які вас, мабуть, хвилюють). Іншими словами, використовуйте будь-який поріг, який вам подобається - ви повторно встановлюєте модель як чек, а не як "справжню" версію. Якщо ви думаєте, що інші люди будуть достатньо стурбовані потенційними випускниками, ви можете повідомити про обидві моделі. Що б ви сказали, це уздовж,
Ось мої результати. Можна потурбувати, що ця картина з'являється лише через пару незвичайних, але дуже впливових спостережень. Це результати тієї ж моделі, але без цих спостережень. Суттєвих відмінностей немає.
Можна також видалити їх і використовувати другу модель як основний результат. Зрештою, перебування з початковим набором даних - це припущення про те, які дані належать в моделі стільки ж, скільки і з підмножиною. Але люди, ймовірно, дуже скептично ставляться до ваших повідомлених результатів, оскільки психологічно хтось занадто легко переконати себе, без будь-якого фактичного корупційного наміру, піти з набором пост-хок-настроїв (таких як відкидання деяких спостережень), що дає їм результат, який вони найбільше очікували побачити. Завжди використовуючи повний набір даних, ви перешкоджаєте цій можливості і запевняєте людей (скажімо, рецензентів), що це не те, що відбувається у вашому проекті.
Інша проблема тут полягає в тому, що люди в кінцевому підсумку " переслідують міхур ". Коли ви відмовляєтеся від потенційних людей, що перебувають у віці, і повторно запускаєте свою модель, ви отримуєте результати, які показують нові, різні спостереження як потенційні люди. Скільки ітерацій ви повинні пройти? Стандартна відповідь на це полягає в тому, що ви повинні залишатися з оригінальним повним набором даних і замість цього виконувати надійну регресію . Знову ж таки, це можна зрозуміти як аналіз чутливості.