Поки ваші дані надходять із відомого розповсюдження з відомими властивостями, ви можете суворо визначити зовнішній вигляд як подію, яка занадто малоймовірна, щоб була створена спостережуваним процесом (якщо ви вважаєте, що "занадто малоймовірна" не є суворою, тоді тестування всіх гіпотез є).
Однак такий підхід є проблематичним на двох рівнях: він передбачає, що дані надходять із відомого розподілу з відомими властивостями, і це створює ризик того, що люди, що переживають люди, розглядаються як точки даних, які були завезені у ваші дані, встановлені деякими магічними феями.
За відсутності чарівних феєричних даних усі дані надходять з вашого експерименту, і тому насправді неможливо мати видатки, просто дивні результати. Вони можуть виникати через помилки запису (наприклад, будинок у спальні на 400 000 доларів за 4 долари), систематичні питання вимірювань (алгоритм аналізу зображень повідомляє про величезні площі, якщо об’єкт знаходиться занадто близько до межі), експериментальні проблеми (іноді кристали осаджуються з рішення, які дають дуже високий сигнал) або особливості вашої системи (клітина іноді може ділитися на три замість двох), але вони також можуть бути результатом механізму, який ніхто ніколи не вважав, тому що це рідко, і ви робите дослідження, що означає, що деякі речі, якими ви займаєтесь, просто ще не відомі.
В ідеалі ви витрачаєте час, щоб дослідити кожну зовнішню групу, і вилучаєте її з набору даних лише після того, як зрозумієте, чому вона не відповідає вашій моделі. Це трудомістко і суб'єктивно, оскільки причини сильно залежать від експерименту, але альтернатива є гіршою: якщо ви не розумієте, звідки взялися люди, що випадають, у вас є вибір між тим, як дозволити інтралієрам "зіпсувати" свої результати, або визначити якийсь "математично суворий" підхід, щоб приховати нерозуміння. Іншими словами, домагаючись «математичної суворості», ви вибираєте між тим, щоб не отримати суттєвого ефекту і не потрапити на небо.
EDIT
Якщо у вас є лише список номерів, не знаючи, звідки вони беруться, ви не можете сказати, чи є якась точка даних стороннім, оскільки ви завжди можете припустити розподіл, де всі дані є інлайєрами.