Що ґрунтується на визначенні граніту "Графік" та "Віскі"?


17

Стандартне визначення викиду для ділянки Box і бакенбард точки за межами діапазону , де я Q R = Q 3 - Q 1 і Q 1 є перший квартал і Q 3 - третій квартал даних.{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

Що є основою для цього визначення? Маючи велику кількість балів, навіть абсолютно нормальний розподіл повертає видатки.

Наприклад, припустимо, що ви починаєте з послідовності:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Ця послідовність створює відсотковий рейтинг 4000 балів даних.

Нормальність тестування для qnormцієї серії призводить до:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

Результати точно такі, як і очікувалося: нормальність нормального розподілу в нормі. Створення qqnorm(qnorm(xseq))створює (як очікувалося) прямий рядок даних:

qqnorm графік даних

Якщо створена однакова інформація з однотипних даних, видається boxplot(qnorm(xseq))результат:

поле даних

Boxplot, на відміну від shapiro.test, ad.testабо qqnormідентифікує кілька точок як видаткові, коли розмір вибірки є досить великим (як у цьому прикладі).


що ви маєте на увазі під «основою»? це певне визначення, і ніхто не каже, що абсолютно нормальний розподіл не має авангардів
Хайтао Ду

2
@ hxd1011, визначення розподілу не може бути чужим від себе. Це визначення для тестування на людину, що залишилася, на коробці та вусі - це тестування / щось / для надання результату, незалежно від того, що це тестування, буде основою тесту.
Таврок

Я вважаю, що визначення камери та вуса - це лише якась евристика ... Крім того, чому визначення розподілу не може мати аутлер від себе?
Хайтао Ду

3
Не має значення, яке правило ви обрали, ви нарешті говорите "з великою кількістю очок, навіть ідеально нормальний розподіл повертає сторонні люди". [Спробуйте придумати спосіб корисного виявлення людей, які не можуть відхилити жодних балів, якщо ви
пробите

1
Багаторазово повторюваний анекдот полягає в тому, що Джона Тукі, який придумав це правило, запитали, чому 1,5; і сказав, що 1 буде занадто мало, а 2 буде занадто багато. Зважаючи на те, скільки разів я бачив це неправильне прочитання як певний, оракулярний критерій, я був би більш ніж радий, що він зникне. Зараз у всіх нас є комп’ютери, які можуть показувати всі дані!
Нік Кокс

Відповіді:


25

Boxplots

Ось відповідний розділ від Hoaglin, Mosteller та Tukey (2000): Розуміння надійного та дослідницького аналізу даних. Вілі . Глава 3, "Порівняння коробки та партії", написана Джоном Д. Емерсоном та Джудіт Стреніо (зі сторінки 62):

ЖL-32гЖЖU+32гЖ

ЖLЖUdFFUFL ).

Вони продовжують і показують заявку населенню Гаусса (стор. 63):

0100.67450.67451.34943322.02352±2.69822399.3% розподілу. [...]

Так

0.7% населення знаходиться поза межами скорочення; ця цифра забезпечує стандарт порівняння для судження про розміщення відсічних відсіків [...].

Далі вони пишуть

[...] Таким чином, ми можемо судити, чи здаються наші дані більш тяжкими, ніж Гаусса, на скільки очок випадають за межі відрізання. [...]

Вони надають таблицю з очікуваною пропорцією значень, які виходять за межі відрізних розмірів (з позначкою "Загальний відсоток"):

Таблиця 3-2

Тож ці відсічки, коли ніколи не мали наміру бути суворим правилом щодо того, які точки даних є вигідними чи ні Як ви зазначали, очікується, що навіть ідеальний звичайний розподіл демонструватиме "чужих людей" у коробці.


Випускники

Наскільки мені відомо, не існує загальновизнаного визначення зовнішнього вигляду. Мені подобається визначення Хокінса (1980):

Зовнішнє спостереження - це спостереження, яке настільки відхиляється від інших спостережень, що викликає підозри, що воно породжене іншим механізмом.

В ідеалі ви повинні ставитися до точок даних лише до інших людей, коли ви зрозумієте, чому вони не належать до решти даних. Просте правило недостатньо. Гарне поводження з людьми, що переживають люди, можна знайти в Аґгарвалі (2013).

Список літератури

Aggarwal CC (2013): зовнішній аналіз. Спрингер.
Hawkins D (1980): Визначення Outliers. Чапман і Холл.
Hoaglin, Mosteller and Tukey (2000): Розуміння надійного та дослідницького аналізу даних. Вілі.


7

Слово "outlier" часто вважається таким, що означає щось на кшталт "значення даних, яке є помилковим, оманливим, помилковим або порушеним, і тому його слід опустити з аналізу", але це не те, що Тукі мав на увазі під своїм використанням "outlier". Залишки - це просто точки, що знаходяться на відстані від медіани даних.

Ваша думка щодо того, як очікувати людей, що випадають у багатьох наборах даних, є правильною та важливою. І є багато хороших запитань і відповідей по темі.

Видалення інших людей із асиметричних даних

Чи доцільно ідентифікувати та видаляти чужих людей, оскільки вони створюють проблеми?


2

Як і у всіх методах виявлення зовнішніх дій, для визначення того, які значення є справді пережилими людьми, слід доглядати і продумувати. Я думаю, що Boxplot просто забезпечує хорошу візуалізацію поширення даних, і будь-які справжні люди, що переживають, будуть легко зловити.


0

Я думаю, що ви повинні бути стурбовані, якщо ви не отримаєте якісь люди, що випадають, як частину звичайного розповсюдження, інакше, можливо, вам слід шукати причини, яких немає. Очевидно, їх слід переглянути, щоб вони не записували помилок, але в іншому випадку їх слід очікувати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.