Яку малу кількість слід додати до x, щоб уникнути прийому журналу нуля?


57

Я проаналізував свої дані такими, які вони є. Тепер я хочу переглянути свої аналізи після взяття журналу всіх змінних. Багато змінних містять багато нулів. Тому я додаю невелику кількість, щоб не брати журнал нуля.

Поки що я додав 10 ^ -10, без жодного обґрунтування насправді, просто тому, що я вважав, що додати дуже малу кількість було б доцільно, щоб мінімізувати ефект моєї довільно вибраної кількості. Але деякі змінні містять в основному нулі, а тому при реєстрації в основному -23.02. Діапазон діапазонів моїх змінних становить 1,33-8819,21, а частота нулів також різко змінюється. Тому мій особистий вибір "малої кількості" впливає на змінні дуже по-різному. Зараз зрозуміло, що 10 ^ -10 є абсолютно неприйнятним вибором, оскільки більшість дисперсій у всіх змінних походить від цієї довільної "малої кількості".

Цікаво, який би був правильніший спосіб зробити це.

Може бути, краще вивести кількість з кожного змінного індивідуального розподілу? Чи є вказівки щодо того, якою має бути велика ця "мала кількість"?

Мої аналізи - це здебільшого прості моделі Кокса з кожною змінною та віком / статтю як IV. Змінні - це концентрації різних ліпідів крові з часто значущими коефіцієнтами коливання.

Редагувати : Додавання найменшого ненульового значення змінної здається практичним для моїх даних. Але, можливо, є загальне рішення?

Редагувати 2 : Оскільки нулі просто вказують концентрації нижче межі виявлення, можливо, встановлення їх на (межа виявлення) / 2 було б доцільним?


4
Чому ви приймаєте спостережень / змінних? log

2
Якщо ви додасте до своїх змінних, змінні, які були нулями в масштабі початкової, будуть нульовими в шкалі журналів. 1
MånsT

5
Чи є у вас це питання зі змінною відповіді або просто пояснювальними змінними? Якщо тільки остання, то залежно від міркувань щодо розміру вибірки одним із варіантів може бути додавання додаткових фіктивних змінних, що вказують на те, що концентрація даного аналіту була нижче межі виявлення. Це заглиблює ступінь свободи, але має перевагу не нав'язувати довільним спеціальним виборам дані. Він також може виявити нелінійності або розриви біля порогу виявлення, які в іншому випадку можуть враховуватися.
кардинал

2
@ Прокрастінатор Логарифмічний шкали є природними для концентрацій через експоненціальний зв’язок між рівноважною постійною та енергією Гіббса; насправді в "безперервній" хімії концентрація 0 дещо нереальна.

2
Альтернативою було б взяти, скажімо, кубічний корінь даних - не отримує вас повністю до журналу, але зберігає нулі без масштабування.
jbowman

Відповіді:


26

Оскільки нулі просто вказують на концентрації нижче межі виявлення, можливо, встановлення їх (межа виявлення) / 2 було б доцільним

Я просто набрав, що те, що мені спадає на думку, коли журнал (часто) має сенс і 0 може виникнути, - це концентрації, коли ти робив другу редакцію. Як ви кажете, для вимірюваних концентрацій 0 просто означає "я не міг виміряти цю низьку концентрацію".

Бічна примітка: ви маєте на увазі LOQ замість LOD?

Незалежно від того, чи буде встановити значення 0 на LOQ, це чи ні:12

  • з точки зору, що - це ваша "здогадка", що виражає, що c знаходиться десь між 0 і LOQ, це має сенс. Але врахуйте відповідну функцію калібрування: зліва функція калібрування дає c = 0 нижче LOQ. Праворуч замість 0 використовується .12LOQ

    введіть тут опис зображеннявведіть тут опис зображення
    12LOQ

  • Однак якщо доступне початкове вимірюване значення, це може дати кращу здогадку. Зрештою, LOQ зазвичай просто означає, що відносна похибка становить 10%. Нижче вимірювання все ще несе інформацію, але відносна похибка стає величезною.
    введіть тут опис зображення
    (синій: LOD, червоний: LOQ)

  • Альтернативою було б виключення цих вимірювань. Це теж може бути розумним,
    наприклад, подумайте про калібрувальну криву. На практиці ви часто спостерігаєте сигмоподібну форму: для низького c, сигналу - постійної, проміжної лінійної поведінки, потім насичення детектора. введіть тут опис зображення
    У цій ситуації ви можете обмежитися твердженнями про концентрації, які чітко знаходяться в лінійному діапазоні, оскільки і нижче, і вище інших процесів сильно впливають на результат.
    Обов’язково поясніть, що дані були вибрані саме так і чому.


редагувати: Що є розумним чи прийнятним, залежить, звичайно, від проблеми. Сподіваємось, ми говоримо тут про невелику частину даних, яка не впливає на аналіз.

Можливо, швидка та брудна перевірка полягає в тому, щоб: запустити аналіз даних із та без виключення даних (або будь-якого способу лікування, який ви пропонуєте) та побачити, чи щось зміниться суттєво.

Якщо ви бачите зміни, то, звичайно, у вас проблеми. Однак, з точки зору аналітичної хімії, я б сказав, що ваша проблема полягає не в тому, який метод ви використовуєте для обробки даних, але основна проблема полягає в тому, що аналітичний метод (або його робочий діапазон) не підходив для проблема під рукою. Звичайно, є зона, де кращий статистичний підхід може врятувати ваш день, але врешті-решт наближення "сміття, сміття виходить", як правило, також стосується більш вигадливих методів.

Цитати до теми:

  • Колись статистик сказав мені:

    Проблема з вами (хіміками / спектроскопістами) полягає в тому, що ваші проблеми або настільки важкі, що їх неможливо вирішити, або настільки прості, що в їх вирішенні немає задоволення.

  • Фішер про статистичний постсмертний експеримент


1
Я люблю цитату внизу (+1).
Відновіть Моніку

32

Дані хімічної концентрації часто мають нулі, але вони не представляють нульових значень : це коди, які по-різному (і заплутано) представляють обох невідкритих (вимірювання вказувало, з великою часткою ймовірності, що аналітику немає) і "без кількісної оцінки" значення (вимірювання виявило аналізований матеріал, але не могло дати достовірного числового значення). Давайте просто невиразно назвемо тут ці "НД".

Зазвичай існує обмеження, пов'язане з ND, відомим як "межа виявлення", "обмеження кількості" або (набагато чесніше) "межа звітування", оскільки лабораторія вирішує не надавати числового значення (часто для юридичного причини). Про все, що ми дійсно знаємо про ND, це те, що справжнє значення, ймовірно, менше, ніж пов'язана межа: це майже (але не зовсім) форма лівої цензури. (Ну, це теж не так: це зручна вигадка. Ці межі визначаються за допомогою калібрування, яке в більшості випадків має слабкі до жахливих статистичних властивостей. Вони можуть бути сильно завищеними або недооціненими. Це важливо знати, коли ви дивитеся на набір даних про концентрацію, які, мабуть, мають лонормальний правий хвіст, який відрізаний (скажімо) у , плюс "шип" на представляє всі НД. Це настійно підказує, що межа звітування є лише трохи менше , але лабораторні дані можуть спробувати сказати вам, що це або або щось подібне.)1.3301.330.50.1

За останні 30 років було проведено широке дослідження щодо того, як найкраще узагальнити та оцінити такі набори даних. Денніс Гельсель опублікував книгу з цього приводу «Nondetects and Analysis Data» (Wiley, 2005), викладає курс і випустив Rпакет, що базується на деяких прийомах, яким він надає перевагу. Його веб-сайт є вичерпним.

Це поле загрожує помилками та неправильним уявленням. Гельсель відвертий з цього приводу: на першій сторінці глави 1 своєї книги він пише:

... найпоширеніший сьогодні метод екологічних досліджень, заміщення половини межі виявлення, НЕ є розумним методом інтерпретації цензурованих даних.

Отже, що робити? Варіанти включають в себе ігнорування цієї гарної поради, застосування деяких методів у книзі Гельселя та використання деяких альтернативних методів. Правильно, книга не є всеосяжною, і дійсні альтернативи існують. Додавання константи до всіх значень у наборі даних ("запуск" їх) - це одне. Але врахуйте:

  • Додавання - це не вдале місце для початку, оскільки цей рецепт залежить від одиниць вимірювання. Додавання мкг на децилітр не матиме такого ж результату, як додавання мілімоля на літр.111

  • Після запуску всіх значень у вас все ще з’явиться шип при найменшому значенні, що представляє собою колекцію ND. Ви сподіваєтесь, що цей стрибок узгоджується з кількісно визначеними даними в тому сенсі, що його загальна маса приблизно дорівнює масі логічного розподілу між та початковим значенням.0

    Прекрасним інструментом для визначення стартового значення є лонормальний графік ймовірності: крім ND, дані повинні бути приблизно лінійними.

  • Колекція НД також може бути описана так званим "дельта-лонормальним" розподілом. Це суміш точкової маси та лонормальної.

Як видно з наступних гістограм симульованих значень, цензуровані та дельта-розподіли неоднакові. Дельта-підхід є найбільш корисним для пояснювальних змінних в регресії: ви можете створити змінну "манекен" для позначення ND, прийняти логарифми виявлених значень (або іншим чином перетворити їх у міру необхідності) і не турбуватися про значення заміни для ND .

Гістограми

У цих гістограмах приблизно 20% найнижчих значень були замінені нулями. Для порівняння вони базуються на одних і тих же 1000 модельованих базових лонормальних значеннях (лівий верхній). Розподіл дельти було створено шляхом заміни 200 значень на нулі навмання . Цензурований розподіл був створений заміною 200 найменших значень нулями. "Реалістичний" розподіл відповідає моєму досвіду, який полягає в тому, що ліміти звітування насправді різняться на практиці (навіть коли це не визначено лабораторією!): Я змусив їх змінюватися випадковим чином (лише трохи, рідко більше 30 будь-який напрямок) і замінив усі змодельовані значення, менші за їх межі звітності, нулями.

Щоб показати корисність діаграми ймовірності та пояснити її інтерпретацію , на наступному малюнку відображаються нормальні графіки ймовірності, пов'язані з логарифмами попередніх даних.

Діаграми ймовірності

У верхньому лівому куті відображаються всі дані (перед будь-якою цензурою чи заміною). Це добре підходить до ідеальної діагональної лінії (ми очікуємо деяких відхилень у крайніх хвостах). Цього ми прагнемо досягти у всіх наступних графіках (але, завдяки НД, ми неминуче будемо відставати від цього ідеалу.) Праворуч вгорі є графіком ймовірності для цензурованого набору даних, використовуючи початкове значення 1. Це жахливо підходить, тому що всі ND (побудовано на 0, тому щоlog(1+0)=0) нанесені занадто низько. Внизу зліва - графік ймовірності для цензурованого набору даних із початковим значенням 120, що наближається до типового межі звітності. Тепер пристосування внизу ліворуч пристойне - ми лише сподіваємось, що всі ці значення приходять десь поблизу, а праворуч від приталеної лінії - але кривизна у верхньому хвості показує, що додавання 120 починає змінювати значення форма розподілу. У нижньому правому куті видно, що відбувається з дельта-лонормальними даними: там добре підходить верхній хвіст, але деяка виражена кривизна біля межі звіту (в середині сюжету).

Нарешті, давайте вивчимо деякі більш реалістичні сценарії:

Діаграми ймовірності 2

У верхньому лівому куті зображено цензурований набір даних із нулями, встановленими на половину межі звітності. Це досить добре підходить. У верхньому правому куті розташований більш реалістичний набір даних (з випадковим чином змінюються обмеженнями для звітування). Стартове значення 1 не допомагає, але - в нижньому лівому куті - для стартового значення 120 (біля верхнього діапазону звітних меж) цілком підходить. Цікаво, що кривизна біля середини в міру підняття точок від ND до кількісно визначених значень нагадує дельта-логічний розподіл (хоча ці дані не були сформовані з такої суміші). У нижньому правому куті - графік ймовірності, який ви отримуєте, коли реалістичні дані замінюють свої ND на половину (типового) межі звітності. Це найкраще підходить, незважаючи на те, що він демонструє деяку дельта-лонормальну поведінку в середині.

Тоді ви повинні зробити графіки ймовірності для вивчення розподілів, оскільки замість ND використовуються різні константи. Почніть пошук з половини номінального, середнього, ліміту звітування, після чого змініть його вгору та вниз. Виберіть сюжет, який виглядає як внизу праворуч: приблизно діагональна пряма для кількісно визначених значень, швидке випадання на низьке плато та плато значень, що (ледь-ледь) відповідає розширенню діагоналі. Однак, дотримуючись порад Гельселя (що сильно підтримується в літературі), для фактичних статистичних резюме уникайте будь-якого методу, який замінює НД будь-якою постійною. Для регресії розглянемо додавання змінної манекена для позначення ND. Для деяких графічних дисплеїв постійна заміна ND на знайдене значення за допомогою вправи графіку ймовірності буде добре працювати. Для інших графічних дисплеїв може бути важливим зобразити фактичні межі звітності, тому замініть НД на їх ліміти звітування. Вам потрібно бути гнучким!


1
Надзвичайно приємна відповідь! Я повністю згоден. І я знайомий з почуттям, коли дивишся на дані і розумієш, що до того, як вони були перетворені "як завжди", був ідеально корисний набір даних ...
cbeleites підтримує Моніку

1
різні межі : існує кілька різних підходів до обчислення як LOD (межа виявлення -> для якісних відповідей), так і LOQ (межа кількісного визначення, яка призначена для кількісних вимірювань). Я здогадуюсь, що одна лабораторія, як правило, не змінить метод, як вони обчислюються (для того ж анаїтичного методу). Однак ці значення перераховуються щоразу, коли робиться розрахунок. Якщо метод потребує калібрування кожен робочий день, то кожен день у вас буде (трохи) інший ліміт.
cbeleites підтримує Моніку

1
межі та юридичні причини, що не забезпечують низьку кількість: юридичні причини не забороняють надавати (додаткову) більш багатослівну інформацію, наприклад, необроблений сигнал, відповідний інтервал концентрації та довіру / оцінку (наприклад, "нижче LOQ"). Крім того, ви можете запитати лабораторію аналізу для калібрувальної кривої. Я б очікував, що вам доведеться заплатити за це, оскільки це зайва робота, але я б очікував, що це стане можливим. Найдешевший компроміс може полягати в тому, що вони надають вам усі необроблені дані та залишають аналіз даних вам. Це може допомогти, якщо вони знають, що ви статистик / хімік / хімік-аналітик / ...
cbeleites підтримує Моніку

1
У моїй роботі ми часто стикаємося з нулями, оскільки дані округлені. У такому випадку це згруповані дані, див. Stats.stackexchange.com/questions/26950/…
Stéphane Laurent

2
Існує ціле поле, "хіміометрія", присвячене цій та суміжній тематиці, і цілі книги написані (і продовжують писатись), які стосуються виключно того, що таке "межа виявлення". Я зіткнувся з більш ніж 20 різними визначеннями! Питання повторного вираження змінної (наприклад, прийняття її логарифму) також є ключовим у аналізі даних та дослідженні даних; Значна частина багатьох книг (особливо книг з дослідницького аналізу даних) зосереджена на цьому питанні.
whuber

5

@miura

Я натрапив на цю статтю Білла Гулда в блозі Stata (я думаю, він насправді заснував Stata), який, на мою думку, може допомогти у вашому аналізі. Наприкінці статті він застерігає від використання довільних чисел, близьких до нуля, таких як 0,01, 0,0001, 0,0000001 і 0, оскільки в журналах вони -4,61, -9,21, -16,12 і . У цій ситуації вони зовсім не довільні. Він радить використовувати регресію Пуассона, оскільки він визнає, що вищевказане число насправді близько.


3

Ви можете встановити нулі змінної на значення де досить великий, щоб відрізнити ці випадки від решти (наприклад, 6 або 10).ithmean(xi)n×stddev(xi)n

Зауважте, що будь-які подібні штучні установки впливатимуть на ваші аналізи, тому вам слід бути обережними з інтерпретацією, а в деяких випадках відкидайте ці випадки, щоб уникнути артефактів.

Використання межі виявлення також є розумною ідеєю.


3

Щоб уточнити, як поводитися з журналом нуля в регресійних моделях, ми написали педагогічний документ, що пояснює найкраще рішення та поширені помилки, які люди роблять на практиці. Ми також вийшли з новим рішенням для вирішення цього питання.

Ви можете знайти папір, натиснувши тут: https://ssrn.com/ab абстракт=3444996

По-перше, ми вважаємо, що варто задатися питанням, чому використовувати перетворення журналу. У регресійних моделях зв'язок між логією і журналом призводить до ідентифікації еластичності. Дійсно, якщо , то відповідає еластичності до . Журнал також може лінеалізувати теоретичну модель. Він також може бути використаний для зниження гетероскедастичності. Однак на практиці часто трапляється, що змінна, взята в журнал, містить непозитивні значення.log(y)=βlog(x)+εβyx

Рішення, яке часто пропонується, полягає у додаванні позитивної константи c до всіх спостережень так, що . Однак, на відміну від лінійних регресій, лінійно-лінійні регресії не є стійкими до лінійної трансформації залежної змінної. Це пов’язано з нелінійним характером функції журналу. Перетворення журналу розширює низькі значення та видавлює високі значення. Тому додавання константи буде спотворювати (лінійну) залежність між нулями та іншими спостереженнями в даних. Величина зміщення, породженої постійною, фактично залежить від діапазону спостережень у даних. З цієї причини додавання найменшої можливої ​​константи не обов'язково є найкращим гіршим рішенням.YY+c>0

У нашій статті ми фактично наводимо приклад, коли додавання дуже малих констант насправді забезпечує найвищий ухил. Ми пропонуємо отримати вираз упередженості.

Власне, максимальна ймовірність псевдо Пуассона (PPML) може розглядатися як хороше рішення цього питання. Треба враховувати наступний процес:

yi=aiexp(α+xiβ) зE(ai|xi)=1

Цей процес мотивований кількома особливостями. По-перше, вона надає таку ж інтерпретацію як і модель напівлегналу. По-друге, цей процес генерування даних забезпечує логічну раціоналізацію нульових значень у залежній змінній. Ця ситуація може виникнути, коли термін мультиплікативної помилки, , дорівнює нулю. По-третє, оцінка даної моделі за допомогою PPML не стикається з обчислювальними труднощами, коли . За припущенням, що , маємо . Ми хочемо мінімізувати квадратичну помилку цього моменту, що призводить до таких умов першого порядку:βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

Ці умови визначаються навіть тоді, коли . Ці умови першого порядку чисельно еквівалентні умовам моделі Пуассона, тому їх можна оцінити за допомогою будь-якого стандартного статистичного програмного забезпечення.yi=0

Нарешті, ми пропонуємо нове рішення, яке також легко здійснити і що забезпечує неупереджений оцінювач . Потрібно просто оцінити:β

log(yi+exp(α+xiβ))=xiβ+ηi

Ми показуємо, що цей оцінювач є неупередженим і що його можна просто оцінити за допомогою GMM за допомогою будь-якого стандартного статистичного програмного забезпечення. Наприклад, це можна оцінити, виконавши лише один рядок коду з Stata.

Ми сподіваємось, що ця стаття може допомогти, і ми будемо раді отримати відгуки від вас.

Крістоф Белего та Луї-Даніель Папе, CREST - Політехніка Ecole - ENSAE

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.