Чи гарно видаляти людей, які не впадають у життя?

33

Я шукав спосіб видалити залишків із набору даних і знайшов це питання .

Однак у деяких коментарях та відповідях на це запитання люди згадували, що видаляти з людей, які втратили життя, є поганою практикою.

У моєму наборі даних є декілька людей, які, ймовірно, пов'язані лише з помилками вимірювання. Навіть якщо деяких з них немає, я не можу перевірити це окремо, оскільки є занадто багато точок даних. Чи є статистично справедливим, ніж просто видалити людей, що вижили? Або, як ні, що може бути іншим рішенням?

Якщо я просто залишу ці точки там, вони впливають, наприклад, на середнє значення таким чином, що не відображає дійсність (адже більшість з них все одно є помилками).

EDIT: Я працюю з даними про коефіцієнт провідності шкіри. Більшість екстремальних значень пояснюється артефактами, як хтось, що тягне за собою дроти.

EDIT2: Моя головна зацікавленість у аналізі даних полягає у визначенні, чи є різниця між двома групами

outliers

— Синіньо
джерело

3

А що ти хочеш робити? Підсумок даних? Прогностичний аналіз? Візуалізація даних? Доведення того, що існує (немає) суттєвої різниці між двома групами? Як і у випадку з усіма очищеннями даних, загальної відповіді немає.

— Пьотр Мігдал

4

Шукайте на нашому сайті питання з тегом outliers . Див. Зокрема. Як слід поводитися з випускниками в лінійному регресійному аналізі? & Чи слід видаляти випадки, які позначені статистичними програмними засобами як переживаючі при здійсненні багаторазової регресії? .

— Scortchi

5

Я інженер, який працює з великою кількістю статистики. Це було відмовою і визнанням, що означає, що я маю доставляти продукти. Нам дозволяється видаляти повністю віднесені "погані" точки. Чи можете ви довести, що це було від того, хто тягне дріт? Якщо у вас є кілька навмисних заходів, ви можете зв'язати і згрупувати там. Тоді ви можете розділити дані на кластер (pull vs non-pull), і це вже не про аутлайнери. Якщо ви не можете довести, що є першопричиною, ви повинні (повинні) зберегти її. Це говорить про різницю, і це великий шматок аналізу. Ви не можете його позбутися, якщо вам це не подобається.

— EngrStudent

4

Я думаю, ви починаєте з неправильного кінця. Перше питання - як ви в першу чергу ідентифікуєте випускників?

— user603

5

Замість довільного усунення довільно виявлених людей, які випадають, ви можете краще розглянути щось на кшталт "оскільки я маю забруднення від таких питань, як люди, які тягнуть за собою проводки, які методології я можу використовувати, які не сильно впливають на таке забруднення?"

— Glen_b -Встановити Моніку

26

Я не рекомендую виключати будь-які чужі люди з основного аналізу (якщо ви справді не впевнені, вони помиляються). Однак ви можете зробити це в аналізі чутливості та порівняти результати двох аналізів. У науці часто ви виявляєте нові речі саме тоді, орієнтуючись на таких людей.

Щоб детальніше розібратися, просто подумайте про відкриття пеніциліном насіння Флемінга, засноване на випадковому зараженні його експериментів із цвіллю:

http://www.abpischools.org.uk/page/modules/infetionarydiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

Дивлячись на недалеке минуле чи сьогодення, зовнішнє виявлення часто використовується для орієнтації на інновації в біомедичних науках. Дивіться, наприклад, наступні статті (з деякими відповідними кодами R):

http://www.la-press.com/a-comppare-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abrief?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Нарешті, якщо у вас є розумні підстави виключити деякі дані, ви можете зробити це, бажано, в аналізі чутливості, а не в первинному. Наприклад, ви можете виключити всі значення, які не є біологічно правдоподібними (наприклад, температура 48 градусів Цельсія у пацієнта-септика). Так само ви можете виключити всі перші та останні вимірювання для будь-якого пацієнта, щоб мінімізувати артефакти руху. Однак зауважте, що якщо ви робите це післяопераційне рішення (не засноване на заздалегідь визначених критеріях), це може становити ризик масажу даних.

— Joe_74
джерело

5

Погодьтеся, але я вважаю цю відповідь якось стислою, щоб підтвердити її. Можливо, ви могли б надати відпрацьований приклад або показати, чому і як можна виявити нові речі, зосередившись на інших людей? Це може бути не так очевидно з першого погляду.

— Тім

26

Один з варіантів полягає в тому, щоб виключити людей, що не впадають у рух, але ІМХО - це те, що вам слід зробити, лише якщо ви можете сперечатися (майже з певністю), чому такі точки недійсні (наприклад, обладнання для вимірювання вийшло з ладу, метод вимірювання чомусь був ненадійним, ...). Наприклад, у вимірюванні частотної області постійний струм часто відміняється, оскільки багато різних термінів сприяють постійному струму, що часто не пов'язане з явищем, яке ви намагаєтеся спостерігати.

Проблема з видаленням позашляховиків полягає в тому, що для визначення того, які пункти є сторонніми, потрібно мати хорошу модель того, що є чи ні "хороші дані". Якщо ви не впевнені в моделі (які фактори повинні бути включені, яку структуру має модель, які припущення щодо шуму, ...), ви не можете бути впевнені у своїх вихователях. Ці люди, що випадають, можуть бути просто зразками, які намагаються сказати вам, що ваша модель неправильна. Іншими словами: вилучення людей, що вижили, посилить вашу (неправильну!) Модель, а не дозволить вам отримати нову інформацію!

Інший варіант - використовувати надійну статистику. Наприклад, середнє та стандартне відхилення є чутливими до людей, що переживають інші люди, інші показники "розташування" та "поширення" є більш надійними. Наприклад, замість середнього, використовуйте медіану. Замість стандартного відхилення використовуйте міжквартильний діапазон. Замість стандартної регресії з найменшими квадратами ви можете використовувати стійку регресію. Усі ці надійні методи так чи інакше підкреслюють людей, що втрачають люди, але вони, як правило, не видаляють цілком давні відомості (тобто це добре).

— Егон
джерело

5

Чудова відповідь. Більшість людей не розуміють, що не кожна методика підходить для кожного типу даних . Зосередження уваги на середніх показниках, пов'язаних із переживаючими людьми, є одним із нещасних результатів. Чим більше дзвінків пробуджують, від таких відповідей, тим краще для всіх.

— румчо

16

Думав, я б додав застережливу розповідь про видалення інших людей:

Пам'ятаєте проблему з діркою в полярному озоновому шарі? Існував супутник, який був виведений на орбіту над полюсом спеціально для вимірювання концентрації озону. Протягом декількох років післяоброблені дані із супутника повідомляли, що полярний озон присутній у нормальних рівнях, хоча інші джерела чітко свідчили про відсутність озону. Нарешті хтось повернувся, щоб перевірити супутникове програмне забезпечення. Виявилося, що хто - то написав код , щоб перевірити , якщо сировина вимірювання знаходиться в межах очікуваного діапазону про типовий історичному рівні, і припустити , що будь-яке вимірювання поза діапазону був тільки інструментом «шип» (тобто останець), авто- виправлення значення . На щастя, вони також записували необроблені вимірювання; перевіривши їх, вони побачили, що про дірку повідомляли весь час.

— PMar
джерело

12

Було б добре включити посилання на інцидент : чому вони раніше не виявили цього явища? На жаль, програмне забезпечення для аналізу даних TOMS було запрограмовано для позначення та відхилення точок даних, які сильно відхилялися від очікуваних вимірювань, і тому початкові вимірювання, які мали б спричинити тривогу, були просто не помічені. Коротше кажучи, команді TOMS не вдалося виявити виснаження озону роками раніше, оскільки це було набагато важче, ніж очікували вчені.

— Джонні

3

Це чудова історія. і один багато разів повторюється, але для мене math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf переконливо визначає це як міф, заснований на непорозумінні. До речі, зауважте, що оскільки існує два полюси, "полярний озоновий шар" потребує перезапису.

— Нік Кокс

3

Дивіться також авторитетний рахунок Крісті. М. 2001. Озоновий шар Філософія наукової перспективи. Кембридж: Кембридж UP

— Нік Кокс

7

"Outlier" - це зручний термін для збору даних разом, який не відповідає тому, як ви очікуєте, щоб виглядав ваш процес, щоб вилучити його з аналізу.

Я б запропонував ніколи (зауважувати пізніше) не знімайте людей, що пережили своє життя. Моє підґрунтя - контроль статистичних процесів, тому часто маємо справу з великими обсягами автоматично генерованих даних часових рядів, які обробляються за допомогою діаграми запуску / графіку переміщення поля / тощо залежно від даних та розподілу.

Річ, що стосується людей, що пережили люди, - це те, що вони завжди надаватимуть інформацію про ваш "процес". Часто те, що ви думаєте як один процес, насправді є багатьма процесами, і це набагато складніше, ніж ви йому належите.

Використовуючи приклад у вашому запитанні, я б припустив, що може бути ряд «процесів». буде різниця через ...

зразки, взяті одним електропровідним пристроєм
зразки, взяті між струмопровідними пристроями
коли суб'єкт видалив зонд
коли предмет перемістився
відмінності в шкірі одного суб'єкта по всьому тілу або між різними днями відбору проб (волосся, волога, олія тощо)
відмінності між предметами
навчання особи, яка проводить вимірювання та коливання між персоналом

Усі ці процеси будуть створювати додаткові зміни в даних і, ймовірно, зміщуватимуть середнє значення та змінюватимуть форму розподілу. Багато з них ви не зможете розділити на окремі процеси.

Тож переходжу до ідеї видалення точок даних як "сторонніх людей" ... Я видаляв би лише пункти даних, коли я точно можу віднести їх до певного "процесу", який я не хочу включати в свій аналіз. Потім потрібно переконатися, що причини невключення записуються як частина вашого аналізу, тому це очевидно. Не допускайте атрибуції, це головне, що робити додаткові замітки під час спостереження під час збору даних.

Я б заперечив ваше твердження "тому що більшість із них є помилками в будь-якому випадку", оскільки це не помилки, а лише частина іншого процесу, який ви визначили у своїх вимірах як різні.

У вашому прикладі я вважаю, що розумно виключити точки даних, які ви можете віднести до окремого процесу, який ви не хочете аналізувати.

— Маркус Д
джерело

6

Якщо ви видаляєте людей, що не впадають у життя, у більшості ситуацій вам потрібно документувати, що ви робите так і чому. Якщо мова йде про науковий документ або в регуляторних цілях, це може призвести до скидання та / або відхилення остаточної статистики.

Краще рішення - визначити, коли ви думаєте, що отримуєте погані дані (наприклад, коли люди тягнуть провід), а потім визначити, коли люди тягнуть провід, і витягніть дані з цієї причини. Це, ймовірно, також призведе до відмови деяких "хороших" точок даних, але тепер у вас є "справжня" причина для тегів та знижок цих точок даних на кінці збору, а не в кінці аналізу. Поки ви робите це чисто і прозоро, набагато більше шансів бути прийнятними для третіх сторін. Якщо ви вилучите точки даних, пов’язані з витягнутими проводами, і все одно отримуєте нестабільний досвід, то ймовірний висновок полягає в тому, що витягнуті дроти не є єдиною проблемою - подальша проблема може бути з вашим дизайном експерименту або вашою теорією.

Одним із перших експериментів, які моя мама мала, повертаючись до університету, щоб закінчити ступінь бакалавра, був студент, який отримав «погану» теорію про те, як працює процес, а потім сказав вести експеримент. Студенти, які видалили або змінили отримані «погані» точки даних, не виконали завдання. Тим, хто правильно повідомив, що їхні дані суперечать результатам, передбаченим (поганою) теорією, перейшли. Суть завдання полягала в тому, щоб навчити учнів не «фіксувати» (фальсифікувати) свої дані, коли це було не те, що очікувалося.

Підсумок: якщо ви генеруєте погані дані, то виправте експеримент, а не дані.

— darkonc
джерело

5

Це моральна дилема точно. З одного боку, чому ви повинні дозволити кілька підозрілих точок даних зруйнувати пристосованість вашої моделі до основної маси даних? З іншого боку, видалення спостережень, які не узгоджуються з концепцією реальності вашої моделі, - це своєрідна цензура. До точки зору @ Егона, ці люди, що пережили люди, можуть намагатися розповісти вам щось про цю реальність.

У доповіді статистичного персонажа Стіва Маккерхера він визначив, що люди, що належать до ", не є репрезентативним явищем, що вивчається." , можливо, вони не належать до аналізу. Або якщо їм дозволяють залишитися, слід застосовувати метод, який обмежує їх вплив. У тій же презентації МакЕхерн наводив приклади надійних методів, і я пам’ятаю, що в цих кількох прикладах класичні методи з вилученими випадаючими людьми завжди узгоджувались із надійними аналізами з все ще включеними людьми. Особисто я схильний працювати з класичними прийомами, які мені найбільше подобаються і живу з моральною невизначеністю видалення сторонніх людей.

— Бен Огорек
джерело

8

У Box, Hunter & Hunter: "Статистика для експериментаторів" вони говорять про те, що в хімічній промисловості люди , що переживають люди, часто призводять до нових патентів . Ви хочете викинути свій новий патент?

— kjetil b halvorsen

2

Ні, я не хочу пропускати жодні патенти. Але я також не хочу крутити дванадцять циклів, намагаючись змусити свою модель розмістити "когось, що тягне за дроти". Це майже точно не досліджуване явище. Мені подобається ідея, що випадає, як можливість, і одне, що слід сказати для прямого видалення, полягає в тому, що принаймні код надасть документацію про ці вилучення, тоді як у надійних методах люди, що переживають, просто співіснують з іншими моментами.

— Бен Огорек

2

Ви праві, що конкретні обставини потрібно враховувати. Що не слід робити, це застосувати деякі безконтекстні "правила" для відхилення зовнішньої форми. Не існує таких гарних правил.

— kjetil b halvorsen

1

Моя улюблена думка про силу контексту проілюстрована питанням: "Чи здорові бари снікерсів?" Що ж, якщо ви загубилися в лісі на три дні, і ви просто знайшли їх кілька на землі, виявляється, вони все-таки здорові. Я відчуваю, що популярні тут відповіді говорять нам: "Ніколи не їжте бар Snickers, якщо ви абсолютно не впевнені, що помрете, якщо цього не зробите".

— Бен Огорек

0

Якщо я веду випадкову вибірку з 100 людей, і один з цих людей трапляється як Білл Гейтс, то, наскільки я можу сказати, Білл Гейтс є представником 1/100 населення.

Обрізане середнє значення показує мені, що середній заробіток від лотереї становить 0 доларів.

— АдамО
джерело

Нічого ненормального, підстрижене засіб не підходить для перекошених розподілів.

— Ів Дауст

-2

Звичайно, ви повинні вилучити людей, що переживають люди, оскільки, за визначенням, вони не слідкують за розповсюдженням під контролем і є паразитарним явищем.

Справжнє запитання - «як я можу надійно виявити людей, що вижили»!

— Ів Дауст
джерело

Що робити, якщо такий розподіл є Коші?

— АдамО

@AdamO: справжнє питання, звичайно, залишається.

— Ів Дауст

Чому це знищення?

— Ів Дауст

3

(-1) тому, що я не думаю, що це адекватний внесок, про який повідомляє теорія, приклад чи практика. Що таке "паразитарне явище", а не поетичне розуміння даних? У роботі з кров'яним тиском, натрієм у сечі та неврологічними візуалізаціями я щодня бачу "виснажувачів", які є репрезентативними для населення, що розглядається. Видалення їх може бути важливим джерелом упередженості. Сказати, що вони є "паразитарним явищем" - це сугестивно і оманливо, що дозволяє ризикувати статистичною практикою.

— АдамО

@adam: ти просто виступаєш за те, щоб зберегти інлієри, з чим я повністю згоден.

— Ів Дауст