"Outlier" - це зручний термін для збору даних разом, який не відповідає тому, як ви очікуєте, щоб виглядав ваш процес, щоб вилучити його з аналізу.
Я б запропонував ніколи (зауважувати пізніше) не знімайте людей, що пережили своє життя. Моє підґрунтя - контроль статистичних процесів, тому часто маємо справу з великими обсягами автоматично генерованих даних часових рядів, які обробляються за допомогою діаграми запуску / графіку переміщення поля / тощо залежно від даних та розподілу.
Річ, що стосується людей, що пережили люди, - це те, що вони завжди надаватимуть інформацію про ваш "процес". Часто те, що ви думаєте як один процес, насправді є багатьма процесами, і це набагато складніше, ніж ви йому належите.
Використовуючи приклад у вашому запитанні, я б припустив, що може бути ряд «процесів». буде різниця через ...
- зразки, взяті одним електропровідним пристроєм
- зразки, взяті між струмопровідними пристроями
- коли суб'єкт видалив зонд
- коли предмет перемістився
- відмінності в шкірі одного суб'єкта по всьому тілу або між різними днями відбору проб (волосся, волога, олія тощо)
- відмінності між предметами
- навчання особи, яка проводить вимірювання та коливання між персоналом
Усі ці процеси будуть створювати додаткові зміни в даних і, ймовірно, зміщуватимуть середнє значення та змінюватимуть форму розподілу. Багато з них ви не зможете розділити на окремі процеси.
Тож переходжу до ідеї видалення точок даних як "сторонніх людей" ... Я видаляв би лише пункти даних, коли я точно можу віднести їх до певного "процесу", який я не хочу включати в свій аналіз. Потім потрібно переконатися, що причини невключення записуються як частина вашого аналізу, тому це очевидно. Не допускайте атрибуції, це головне, що робити додаткові замітки під час спостереження під час збору даних.
Я б заперечив ваше твердження "тому що більшість із них є помилками в будь-якому випадку", оскільки це не помилки, а лише частина іншого процесу, який ви визначили у своїх вимірах як різні.
У вашому прикладі я вважаю, що розумно виключити точки даних, які ви можете віднести до окремого процесу, який ви не хочете аналізувати.