Дані хімічної концентрації часто мають нулі, але вони не представляють нульових значень : це коди, які по-різному (і заплутано) представляють обох невідкритих (вимірювання вказувало, з великою часткою ймовірності, що аналітику немає) і "без кількісної оцінки" значення (вимірювання виявило аналізований матеріал, але не могло дати достовірного числового значення). Давайте просто невиразно назвемо тут ці "НД".
Зазвичай існує обмеження, пов'язане з ND, відомим як "межа виявлення", "обмеження кількості" або (набагато чесніше) "межа звітування", оскільки лабораторія вирішує не надавати числового значення (часто для юридичного причини). Про все, що ми дійсно знаємо про ND, це те, що справжнє значення, ймовірно, менше, ніж пов'язана межа: це майже (але не зовсім) форма лівої цензури. (Ну, це теж не так: це зручна вигадка. Ці межі визначаються за допомогою калібрування, яке в більшості випадків має слабкі до жахливих статистичних властивостей. Вони можуть бути сильно завищеними або недооціненими. Це важливо знати, коли ви дивитеся на набір даних про концентрацію, які, мабуть, мають лонормальний правий хвіст, який відрізаний (скажімо) у , плюс "шип" на представляє всі НД. Це настійно підказує, що межа звітування є лише трохи менше , але лабораторні дані можуть спробувати сказати вам, що це або або щось подібне.)1.3301.330.50.1
За останні 30 років було проведено широке дослідження щодо того, як найкраще узагальнити та оцінити такі набори даних. Денніс Гельсель опублікував книгу з цього приводу «Nondetects and Analysis Data» (Wiley, 2005), викладає курс і випустив R
пакет, що базується на деяких прийомах, яким він надає перевагу. Його веб-сайт є вичерпним.
Це поле загрожує помилками та неправильним уявленням. Гельсель відвертий з цього приводу: на першій сторінці глави 1 своєї книги він пише:
... найпоширеніший сьогодні метод екологічних досліджень, заміщення половини межі виявлення, НЕ є розумним методом інтерпретації цензурованих даних.
Отже, що робити? Варіанти включають в себе ігнорування цієї гарної поради, застосування деяких методів у книзі Гельселя та використання деяких альтернативних методів. Правильно, книга не є всеосяжною, і дійсні альтернативи існують. Додавання константи до всіх значень у наборі даних ("запуск" їх) - це одне. Але врахуйте:
Додавання - це не вдале місце для початку, оскільки цей рецепт залежить від одиниць вимірювання. Додавання мкг на децилітр не матиме такого ж результату, як додавання мілімоля на літр.111
Після запуску всіх значень у вас все ще з’явиться шип при найменшому значенні, що представляє собою колекцію ND. Ви сподіваєтесь, що цей стрибок узгоджується з кількісно визначеними даними в тому сенсі, що його загальна маса приблизно дорівнює масі логічного розподілу між та початковим значенням.0
Прекрасним інструментом для визначення стартового значення є лонормальний графік ймовірності: крім ND, дані повинні бути приблизно лінійними.
Колекція НД також може бути описана так званим "дельта-лонормальним" розподілом. Це суміш точкової маси та лонормальної.
Як видно з наступних гістограм симульованих значень, цензуровані та дельта-розподіли неоднакові. Дельта-підхід є найбільш корисним для пояснювальних змінних в регресії: ви можете створити змінну "манекен" для позначення ND, прийняти логарифми виявлених значень (або іншим чином перетворити їх у міру необхідності) і не турбуватися про значення заміни для ND .
У цих гістограмах приблизно 20% найнижчих значень були замінені нулями. Для порівняння вони базуються на одних і тих же 1000 модельованих базових лонормальних значеннях (лівий верхній). Розподіл дельти було створено шляхом заміни 200 значень на нулі навмання . Цензурований розподіл був створений заміною 200 найменших значень нулями. "Реалістичний" розподіл відповідає моєму досвіду, який полягає в тому, що ліміти звітування насправді різняться на практиці (навіть коли це не визначено лабораторією!): Я змусив їх змінюватися випадковим чином (лише трохи, рідко більше 30 будь-який напрямок) і замінив усі змодельовані значення, менші за їх межі звітності, нулями.
Щоб показати корисність діаграми ймовірності та пояснити її інтерпретацію , на наступному малюнку відображаються нормальні графіки ймовірності, пов'язані з логарифмами попередніх даних.
У верхньому лівому куті відображаються всі дані (перед будь-якою цензурою чи заміною). Це добре підходить до ідеальної діагональної лінії (ми очікуємо деяких відхилень у крайніх хвостах). Цього ми прагнемо досягти у всіх наступних графіках (але, завдяки НД, ми неминуче будемо відставати від цього ідеалу.) Праворуч вгорі є графіком ймовірності для цензурованого набору даних, використовуючи початкове значення 1. Це жахливо підходить, тому що всі ND (побудовано на 0, тому щоlog(1+0)=0) нанесені занадто низько. Внизу зліва - графік ймовірності для цензурованого набору даних із початковим значенням 120, що наближається до типового межі звітності. Тепер пристосування внизу ліворуч пристойне - ми лише сподіваємось, що всі ці значення приходять десь поблизу, а праворуч від приталеної лінії - але кривизна у верхньому хвості показує, що додавання 120 починає змінювати значення форма розподілу. У нижньому правому куті видно, що відбувається з дельта-лонормальними даними: там добре підходить верхній хвіст, але деяка виражена кривизна біля межі звіту (в середині сюжету).
Нарешті, давайте вивчимо деякі більш реалістичні сценарії:
У верхньому лівому куті зображено цензурований набір даних із нулями, встановленими на половину межі звітності. Це досить добре підходить. У верхньому правому куті розташований більш реалістичний набір даних (з випадковим чином змінюються обмеженнями для звітування). Стартове значення 1 не допомагає, але - в нижньому лівому куті - для стартового значення 120 (біля верхнього діапазону звітних меж) цілком підходить. Цікаво, що кривизна біля середини в міру підняття точок від ND до кількісно визначених значень нагадує дельта-логічний розподіл (хоча ці дані не були сформовані з такої суміші). У нижньому правому куті - графік ймовірності, який ви отримуєте, коли реалістичні дані замінюють свої ND на половину (типового) межі звітності. Це найкраще підходить, незважаючи на те, що він демонструє деяку дельта-лонормальну поведінку в середині.
Тоді ви повинні зробити графіки ймовірності для вивчення розподілів, оскільки замість ND використовуються різні константи. Почніть пошук з половини номінального, середнього, ліміту звітування, після чого змініть його вгору та вниз. Виберіть сюжет, який виглядає як внизу праворуч: приблизно діагональна пряма для кількісно визначених значень, швидке випадання на низьке плато та плато значень, що (ледь-ледь) відповідає розширенню діагоналі. Однак, дотримуючись порад Гельселя (що сильно підтримується в літературі), для фактичних статистичних резюме уникайте будь-якого методу, який замінює НД будь-якою постійною. Для регресії розглянемо додавання змінної манекена для позначення ND. Для деяких графічних дисплеїв постійна заміна ND на знайдене значення за допомогою вправи графіку ймовірності буде добре працювати. Для інших графічних дисплеїв може бути важливим зобразити фактичні межі звітності, тому замініть НД на їх ліміти звітування. Вам потрібно бути гнучким!