Виявлення залишків за допомогою стандартних відхилень


27

Після мого запитання тут мені цікаво, чи існують чіткі погляди на або проти використання стандартного відхилення для виявлення людей, що втрачають похилого віку (наприклад, будь-яка точка даних, що перевищує 2 стандартних відхилення, - це більше).

Я знаю, що це залежить від контексту дослідження, наприклад, точка даних, що становить 48 кг, безумовно, буде вищою для вивчення ваги немовлят, але не для дослідження ваги дорослих.

Отримані люди є результатом ряду факторів, таких як помилки введення даних. У моєму випадку ці процеси є надійними.

Я думаю, що питання, яке я задаю, таке: чи є використання стандартного відхилення звуковим методом виявлення людей, що вижили?


1
Ви говорите: "У моєму випадку ці процеси є надійними". Що означає що? Ви впевнені, що не маєте помилок введення даних?
Уейн

Тут так багато хороших відповідей, що я не впевнений, яку відповідь прийняти! Будь-які вказівки щодо цього були б корисні
Amarald

Взагалі виберіть той, який, як вам здається, відповідає на ваше запитання найбільш прямо і чітко, і якщо це занадто важко сказати, я б пішов з тим, хто отримав найбільше голосів. Навіть трохи боляче вирішувати, який саме, важливо нагородити того, хто знайшов час, щоб відповісти.
Уейн

1
PS Чи не могли б ви пояснити зауваженням, що ви маєте на увазі під "цими процесами надійними"? Це не важливо для відповідей, які зосереджуються на нормальності тощо, але я думаю, що це має певне значення.
Уейн

3
Випускники не є модельними. Незвичайний зовнішній вигляд під однією моделлю може бути абсолютно звичайною точкою під іншою. Перше питання повинно бути "чому ви намагаєтесь виявити людей, що не впадають у життя?" (замість того, щоб робити щось інше, як-от використовувати наділені для них методи), а другим було б "що робить спостереження надмірним у вашій конкретній програмі?"
Glen_b -Встановіть Моніку

Відповіді:


26

Деяким випускникам явно неможливо . Ви згадуєте 48 кг для ваги дитини. Це явно помилка. Це не статистичне питання, це суттєве. Людських немовлят на 48 кг немає. Будь-який статистичний метод визначить такий момент.

Особисто, замість того, щоб покладатися на будь-який тест (навіть відповідний, як рекомендує @Michael), я б графік даних. Показано, що певне значення даних (або значень) є малоймовірним за деяким гіпотезованим розподілом, не означає, що значення неправильне, і тому значення не слід автоматично видаляти лише тому, що вони є крайніми.

Крім того, запропоноване вами правило (2 SD від середнього значення) - це старе, яке застосовувалося за часів, перш ніж комп'ютери спрощували речі. Якщо N - 100 000, то ви, звичайно, очікуєте зовсім небагато значень, що перевищують 2 SD від середнього, навіть якщо ідеальний нормальний розподіл.

Але що робити, якщо розподіл невірний? Припустимо, серед населення цінна змінна зазвичай не розподілена, але має більш важкі хвости, ніж це?


1
Яке найбільше значення ваги дитини, яке ви вважаєте можливим?
mark999

2
Не знаю. Але можна було б шукати запис. За даними відповідей.com (від швидкого google) це було 23,12 фунта, народжене двома батьками з гігантизмом. Якби я робив дослідження, я би ще перевірив.
Пітер Флом - Відновити Моніку

Що робити, якщо неможливо візуально перевірити дані (тобто це може бути частиною автоматичного процесу?)
user90772

Додайте графіки до автоматизації.
Пітер Флом - Відновити Моніку

24

Так. Це поганий спосіб "виявити" багатоплідників. Для звичайно розподілених даних такий метод назвав би 5% ідеально хороших (але трохи екстремальних) спостережень "залишків". Крім того, коли у вас є вибірка розміру n і ви шукаєте надзвичайно високі або низькі спостереження, щоб викликати їх інших людей, ви дійсно переглядаєте статистику надзвичайних порядків. Максимальний і мінімум нормально розподіленої вибірки зазвичай не розподіляється. Тож тест має ґрунтуватися на розподілі крайнощів. Це тест Груббса і тест на відношення Діксона, як я вже згадував кілька разів. Навіть коли ви використовуєте відповідний тест для людей, які не вибувають, спостереження не слід відкидати лише тому, що воно надзвичайно екстремальне. Вам слід дослідити, чому екстремальне спостереження відбулося спочатку.


1
Так само "погано", як і відхилення H0 на основі низького p-значення.
Лев

16

Коли ви запитуєте, скільки стандартних відхилень від середньої величини потенційного аутлера, не забувайте, що сам аутлер підніме значення SD, а також вплине на значення середнього. Якщо у вас N значень, відношення відстані від середньої величини, поділеної на SD, ніколи не може перевищувати (N-1) / sqrt (N). Це найбільше стосується, звичайно, крихітних зразків. Наприклад, якщо N = 3, жоден зовнішній вигляд не може бути більше 1,155 * SD від середнього значення, тому неможливо, щоб будь-яке значення колись було більше 2 SD від середнього. (Це, звичайно, передбачає, що ви обчислюєте зразок SD із даних, що є у вас, і не маєте теоретичних підстав знати SD населення).

Критичні значення для тесту Груббса були обчислені, щоб врахувати це, і тому залежать від розміру вибірки.


12

Я думаю, що контекст - це все. Для наведеного прикладу, так, очевидно, що дитина з 48 кг помиляється, і використання двох стандартних відхилень спричинить цей випадок. Однак немає підстав вважати, що використання двох стандартних відхилень (або будь-якого іншого кратного SD) є відповідним для інших даних. Наприклад, якщо ви дивитесь на залишки пестицидів у поверхневих водах, дані, що перевищують 2 стандартні відхилення, є досить поширеними. Ці особливо високі значення не є “пережилими людьми”, навіть якщо вони знаходяться далеко від середнього значення, оскільки вони пов'язані з подіями дощу, недавніми застосуваннями пестицидів тощо. SD, або 3.1415927 × SD?), Але відверто подібні правила важко захистити, і їхній успіх чи невдача зміниться залежно від даних, які ви вивчаєте. Я думаю, використовуючи судження та логіку, незважаючи на суб'єктивність, є кращим методом для позбавлення від інших людей, ніж використання довільного правила. У цьому випадку вам не знадобився 2 × SD для виявлення стовбура 48 кг - ви змогли це пояснити. Це не чудовий метод? У випадках, коли ви не можете це пояснити, ну чи є кращі довільні правила?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.