Наскільки точний IQR для виявлення людей, що вижили


11

Я пишу сценарій, який аналізує час запуску процесів. Я не впевнений у їх розподілі, але хочу знати, чи процес триває "занадто довго". Поки що я використовував 3 стандартні відхилення останніх періодів запуску (n> 30), але мені сказали, що це не дає нічого корисного, якщо дані не є нормальними (що, здається, не є). Я знайшов ще один тест, що говорить:

Знайдіть інтерквартильний діапазон, який є IQR = Q3 - Q1, де Q3 - третій квартал, а Q1 - перший квартиль. Потім знайдіть ці два числа:

а) Q1 - 1,5 * IQR b) Q3 + 1,5 * IQR

Суть - це вибірка, якщо <a або> b

Мої дані мають тенденцію бути такими як 2sec, 3sec, 2sec, 5sec, 300sec, 4sec, .... там, де 300sec, очевидно, більше.

Який метод краще? Метод IQR або метод відхилення std?


4
Ви можете перевірити відповідь @ user603 тут: чи існує варіант коробки для розподілених даних Пуассона для отримання інформації про те, як налаштувати це правило для перекошених даних.
gung - Відновіть Моніку

3
Цей метод "IQR" ніколи не передбачався застосовувати наосліп. Це частина процесу дослідницького аналізу даних (як описав Нік Кокс у своїй відповіді), під час якого ви вперше знайдете спосіб повторно висловити дані, щоб зробити їх приблизно симетрично розподіленими.
whuber

2
Виходячи з ваших коментарів до відповідей, правильна відповідь - "ні", тому що ваша основна проблема не стосується людей, що переживають людину, а саме про процес.
whuber


Цифри забираються часом, тому вони ніколи не будуть симетричними, якщо ви їх якось не переймените.
JP Bennett

Відповіді:


14

Дійсно є цілі книги про людей, що вижили.

Звичайна специфічна відповідь полягає в тому, що стандартне відхилення витягують люди, що перебувають у відставці, тому будь-яке правило, засноване на SD, може працювати погано.

Правила Tukey щодо квартилів +/- 1,5 IQR, які ви цитуєте, виходили з ручної роботи з невеликими наборами даних середнього розміру в 1970-х роках і були розроблені так, щоб вказати значення, про які ви могли б подумати окремо. Незрозуміло, що вони переносяться на набагато більші набори даних, або що вони застосовуються, коли ви очікуєте значних перекосів.

Більш загальна відповідь полягає в тому, що правило, яке виходить за межі, добре, якщо воно завжди приймає правильні рішення, але як ви це можете сказати?

Це суперечлива територія, але я б очікував, що на графіку стоїть чужа людина, яка дуже відрізняється від інших. Але це часто (зазвичай?) Важкий дзвінок, щоб розповісти про різницю між тим, що ви очікуєте в важкохвостому розповсюдженні, і тим, що занадто дико, щоб вважати що-небудь, крім чужого. Іноді трансформація робить зовнішній вигляд набагато звичайнішим.

Крім того, якщо ви користуєтеся надійними методами, ви можете трохи менше переживати про те, які саме значення заслуговують, як називатись позашляховиками, але переживаєте, а не про пережиті в цілому.


1

Ви кажете, що не впевнені в дистрибуції, але процеси, що тривають, легко зібрати та оцінити для розповсюдження. Просто заощадіть купу разів та проаналізуйте їх. З огляду на час, який ви розмістили, ви могли отримати партії за кілька годин.

Пошук правила для інопланетян не повинен бути таким загальним. Це може бути специфічно для вашого завдання. Ви можете зібрати безліч даних. Зберіть її, вивчіть її, а потім вирішіть, коли процес занадто довгий. Можливо, підхід, заснований на IQR, спрацює, але ви можете використовувати свій набір даних або параметричну підгонку, щоб робити симуляції та перевірити, чи працює він добре. Те саме стосується і SD. Це може бути просто те, що> 50-ті занадто довгі, і це все, що вам потрібно.


Я збираю дані про декілька процесів. Кожен з них може мати різні розподіли. Мені просто потрібен простий спосіб сказати "час роботи занадто великий", щоб попередити техніків, щоб далі вивчити речі. Це може бути загальним, якщо воно позначає речі, які слід позначити. Якщо з’явиться кілька помилкових позитивних результатів, так і нехай буде. Однак помилкові позитивні результати повинні бути зведені до мінімуму, оскільки якщо їх занадто багато, це перемагає мету сценарію, і я повинен просто скинути всі результати і дозволити технікам це. Мета сценарію - «звузити речі»
Кріс Бенд

Ви можете оцінити, чи процеси однакові, чи різні. Якщо вони насправді дуже різні, деяке загальне правило може спричинити певний процес, щоб викликати попередження частіше, ніж потрібно. Ця інформація справді повинна бути у вашому питанні.
Іван

3
Охарактеризувавши цю проблему як пошук вижили, Кріс, чи це несправедливість: ви насправді вирішуєте проблему контролю якості . Основні відмінності полягають у тому, що (1) у вас є поточний потік даних, а не статичний набір даних для аналізу, і (2) ви маєте намір задавати періодичні дії, які слід вжити в результаті кожного аналізу: тобто чи втручатися (і намагатися вдосконалити процес) чи ні (і нехай процес працює так, як є). Розуміння того, що така природа вашої проблеми, показує, що величезна література з контролю якості є актуальною, що забезпечує багатий асортимент рішень.
whuber

+1 @whuber. Тут не доречні люди, що випадають. Ні середній час пробігу, ні будь-який відсоток його не пов'язані з тим, що є "занадто довгим". Способом з'ясувати, що таке "занадто довго", може бути опитування користувачів, або перевірка з інженерами, або просто сидіння штанів, здогадування, або щось інше, але це не статистичне питання.
Пітер Флом
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.