Регресія помилок в змінних: чи дійсно об'єднання даних з трьох сайтів?


15

Нещодавно мені прийшов клієнт, щоб зробити аналіз завантаження, оскільки рецензент FDA сказав, що регресія їх помилок у змінних є недійсною, оскільки при об'єднанні даних із сайтів аналіз включає об'єднання даних із трьох сайтів, де два сайти включали деякі зразки, які були той самий.

Передумови

У клієнта був новий метод аналізу, який він хотів показати, "еквівалентний" існуючому затвердженому методу. Їх підхід полягав у порівнянні результатів обох методів, застосованих до одних і тих же зразків. Для тестування було використано три майданчики. Помилки в змінних (регрес Демінга) застосовано до даних на кожному сайті. Ідея полягає в тому, що якби регресія показала, що параметр нахилу буде близьким до 1, а перехоплення біля 0, це показало б, що два методи аналізу дали майже однакові результати, і тому новий метод повинен бути затверджений. На ділянці 1 у них було 45 зразків, що дало їм 45 парних спостережень. На сайті 2 було 40 зразків, а на ділянці 3 - 43 проби. Вони зробили три окремі регресії Демінга (припускаючи співвідношення 1 для помилок вимірювання для двох методів). Отже алгоритм мінімізував суму перпендикулярних відстаней у квадраті.

У своєму поданні клієнт зазначив, що деякі зразки, які використовувались на сайтах 1 і 2, були однаковими. У своєму огляді рецензент FDA зазначив, що регресія Демінга була недійсною, оскільки використовувались загальні зразки, що спричиняють "втручання", які недійсні припущення щодо моделі. Вони просили застосувати коригування завантаження для результатів Deming, щоб врахувати це втручання.

У той момент, оскільки клієнт не знав, як зробити завантажувальну систему, в яку мене ввели. Термін "втручання" був дивним, і я не був впевнений, в чому саме потрапляє рецензент. Я припускав, що справа справді полягає в тому, що через те, що об'єднані дані мають загальні вибірки, буде кореляція для загальних вибірок, і, отже, умови помилки моделі не всі будуть незалежними.

АНАЛІЗ КЛІЄНТА

Три окремі регресії були дуже схожими. Кожен мав параметри нахилу, близькі до 1, і перехоплення близько 0. Інтервал довіри 95% містив 1 і 0 для нахилу та перехоплення відповідно у кожному випадку. Основна відмінність полягала в дещо більшій залишковій дисперсії на ділянці 3. Крім того, вони порівняли це з результатами OLS і виявили, що вони дуже схожі (лише в одному випадку довірчий інтервал для схилу на основі OLS не містив 1). У випадку, коли OLS CI для схилу не містив 1, верхня межа інтервалу становила щось на зразок 0,99.

Оскільки результати настільки схожі на всіх трьох сайтах, що об’єднують дані про сайти, здаються розумними. Клієнт зробив об'єднану регресію Демінга, що також призвело до подібних результатів. Враховуючи ці результати, я написав звіт для клієнта, який спростував твердження про те, що регресії були недійсними. Мій аргумент полягає в тому, що оскільки в обох змінних є подібні помилки вимірювання, клієнт мав рацію використовувати регресію Демінга як спосіб виявити згоду / незгоду. В окремих регресіях сайту не було проблем з корельованими помилками, оскільки жодні зразки не повторювалися в межах даного сайту. Об'єднання даних для отримання більш чітких інтервалів довіри.

Цю складність можна було б усунути, просто об’єднавши дані із загальними зразками з сайту 1, що скажемо. Також три окремі моделі сайту не мають проблеми і є дійсними. Мені здається, це є надійним доказом згоди навіть без об'єднання. Крім того, вимірювання проводилися незалежно на ділянках 1 та 2 для загальних ділянок. Тому я вважаю, що навіть об'єднаний аналіз з використанням усіх даних є дійсним, оскільки помилки вимірювань для вибірки на ділянці 1 не співвідносяться з помилками вимірювання у відповідному зразку на майданчику 2. Це дійсно просто означає повторення точки в дизайні простір, який не повинен бути проблемою. Це не створює кореляції / "перешкод".

У своєму звіті я писав, що аналіз завантажувальної програми був непотрібним, оскільки немає кореляції, для якої слід підлаштовуватися. Три моделі сайтів були дійсними (можливих "втручань" в сайти) і об'єднаний аналіз можна було зробити, видаливши загальні зразки на місці 1 під час об'єднання. Такий об'єднаний аналіз не міг мати проблеми з перешкодами. Регулювання завантажувальної стрічки не буде необхідним, оскільки немає упередженості, для якої слід коригувати.

ВИСНОВОК

Клієнт погодився з моїм аналізом, але побоявся взяти його до FDA. Вони хочуть, щоб я все-таки здійснив коригування завантажувача.

МОЕ ЗАПИТАННЯ

A) Чи згодні ви з (1) моїм аналізом результатів клієнта та (2) моїм аргументом, що завантажувальна програма непотрібна.

Б) Враховуючи, що мені доведеться завантажувати регрес Демінга, чи є якісь процедури SAS або R, які мені доступні, щоб зробити регрес Демінга на зразках завантажувальної програми?

EDIT: Враховуючи пропозицію Білла Хубера, я планую розглянути межі регресії помилок у змінних за регресією як y на x, так і x на y. Ми вже знаємо, що для однієї версії OLS відповідь по суті є такою ж, як і помилки в змінних, коли два варіації помилок вважаються рівними. Якщо це стосується іншої регресії, то я думаю, що це покаже, що регресія Демінга дає відповідне рішення. Ви згодні?

Для того, щоб задовольнити запит клієнта, мені потрібно зробити запитуваний аналіз завантаження, який був невизначено визначений. Етично я вважаю, що було б неправильно просто надати завантажувальний інструмент, тому що він насправді не вирішує справжню проблему клієнта, яка полягає у виправданні їх процедури вимірювання аналізу. Тому я дам їм обидва аналізи і прошу принаймні, щоб вони сказали FDA, що на додаток до завантажувальної машини я зробив зворотну регресію і обмежував регресії Демінга, які, на мою думку, є більш підходящими. Також я думаю, що аналіз покаже, що їх метод еквівалентний еталонному, і тому регресія Демінга також є адекватною.

Я планую використовувати програму R, яку @whuber запропонував у своїй відповіді, щоб дозволити мені завантажувати регресію Демінга. Я не дуже знайомий з R, але думаю, що можу це зробити. У мене встановлено R разом із R Studio. Це зробить це досить легким для початківця, як я?

Також у мене є SAS і мені зручніше програмування в SAS. Тож якщо хтось знає спосіб зробити це в SAS, я би вдячний знати про це.


2
Я не знаю відповіді на це питання, але, суто політично, чи не було б краще робити те, що FDA хоче і показати (принаймні, імовірно), що результати схожі? (Добре запитання, BTW, +1)
Пітер Флом - Відновити Моніку

1
Так @ PeterFlom Я погоджуюся, що робити аналіз на FDA і показувати це не має значення. Але я думаю, що дипломатичне зазначення результатів регресій та їх наслідків та об'єднання без перекриття зразків зміцнює аргумент. Я збираюся зробити завантажувальну систему, але я можу скористатись допомогою, щоб знайти доступне програмне забезпечення, щоб зробити регрес Демінга самостійно, не кодуючи його самостійно.
Майкл Р. Черник

2
Майкл, можливість "зразків", загальних для "сайтів", ставить під сумнів деякі природні тлумачення того, що ці (абстрактні) терміни можуть означати. Наприклад, я спочатку вважав "сайти" як різні географічні місця та "зразки" як окремі сутності, пов'язані з цими місцями, кожне з яких піддавалося незалежним вимірюванням. У цій моделі неможливо, щоб зразки були спільними для різних сайтів. Не могли б ви пояснити, що ви маєте на увазі під цими термінами?
whuber

3
@whuber сайти є різними місцями. Зразки цитрують плазмою від особин. Тестування в лабораторії проводиться на різних ділянках у різний час. Порівняння стосуються двох вимірювальних приладів для аналізу, які призначені для виконання однакової функції. На ділянках 1 та 2 деякі зразки були повторно використані, але пристрої працювали незалежно на майданчику 1 та на ділянці 2. Тому я вважаю, що помилки вимірювань справді незалежні, навіть якщо використовуються ті самі зразки (або частини одних і тих же зразків). .
Майкл Р. Черник

1
a) Погодився, що виключення дублюваного зразка з об'єднаного аналізу знімає занепокоєння з приводу недостатньої незалежності. b) Дуже мало користувачів SAS вважають, що «просто» використовувати R для аналізу завантажувальних програм, що включає незвичайні методи регресії. Аналізи завантажувальної програми дійсно вимагають функціонального режиму програмування мислення, і це не режим, який SAS заохочує.
DWin

Відповіді:


10

Це взаємна проблема калібрування: тобто кількісне порівняння двох незалежних вимірювальних приладів.

Здається, два основних питання. Перший (що є лише неявним у питанні) полягає у постановці проблеми: як слід визначити, чи новий метод "еквівалентний" затвердженому? Друга стосується того, як проаналізувати дані, в яких деякі зразки могли бути виміряні не один раз.

Постановка питання

Найкращим (і, мабуть, очевидним) рішенням заявленої проблеми є оцінка нового методу за допомогою зразків із точно відомими значеннями, отриманими з порівнянних середовищ (наприклад, плазми людини). (Зазвичай це робиться шляхом присипання фактичних зразків стандартними матеріалами відомої концентрації.) Оскільки цього не було зроблено, припустимо, це або неможливо, або не буде прийнятним для регуляторів (з будь-якої причини). Таким чином, ми зводимось до порівняння двох методів вимірювання, один з яких використовується як еталонний, оскільки він вважається точним і відтворюваним (але без ідеальної точності).

Фактично, клієнт буде просити дозволити FDA дозволити новий метод як проксі або сурогат для затвердженого методу. Таким чином, їхня тяга полягає в тому, щоб продемонструвати, що результати нового методу з достатньою точністю передбачать, що визначив би затверджений метод, якби він був застосований. Тонкий аспект цього полягає в тому, що ми не намагаємося самі передбачити справжні цінності - ми навіть їх не знаємо. Таким чином, регресія помилок у змінних може бути не найбільш підходящим способом аналізу цих даних.

YХХYYХYХ. (На мій досвід, цей підхід має тенденцію бути досить консервативним: ці інтервали можуть бути напрочуд великими, якщо обидва вимірювання не є дуже точними, точними та лінійно пов'язаними.)

Адресація дублюючих зразків

Тут є відповідні поняття щодо вибірки та компонентів дисперсії. "Підтримка зразків" означає фізичну частину предмета (тут людини), яка фактично вимірюється. Після взяття деякої частини суб'єкта зазвичай його потрібно розділити на підпроби, придатні для процесу вимірювання. Ми можемо бути стурбовані можливістю зміни між підпробами. У рідкому зразку, який є добре змішаним, фактично не змінюється основна кількість (наприклад, концентрація хімічного речовини) у всьому зразку, але у зразках твердих речовин або напівтвердих тіл (до яких може входити кров) такі зміни можуть бути істотний. Зважаючи на те, що лабораторіям часто потрібні лише мікролітри розчину для проведення вимірювань, нам доводиться турбуватися про варіації майже в мікроскопічному масштабі. Це може бути важливим.

Можливість такої варіації в межахфізична вибірка вказує на те, що зміна результатів вимірювань має бути розподілена на окремі "компоненти дисперсії". Один компонент - це дисперсія від зміни в межах вибірки, а інші - внесок у відхилення від кожного незалежного етапу подальшого процесу вимірювання. (Ці етапи можуть включати фізичний акт піддиагностики, подальшу хімічну та фізичну обробку зразка - наприклад, додавання стабілізаторів або центрифугування - введення зразка в вимірювальний прилад, зміни всередині приладу, зміни між приладами та ін. відхилення внаслідок змін у тому, хто керує приладом, можливого забруднення навколишнього середовища в лабораторіях та ін. Я сподіваюся, що це дає зрозуміти, що для того, щоб зробити справді гарну роботу з відповіді на це питання, статистик потребує глибокого розуміння всього процесу вибірки та аналізу. Все, що я можу зробити, це надати загальні вказівки.)

Ці міркування стосуються питання, оскільки один «зразок», який вимірюється на двох різних «майданчиках», дійсно є двома фізичними зразками, отриманими від однієї і тієї ж людини і потім розділеними між лабораторіями. Для вимірювання затвердженим методом буде використовуватися одна частина розбитого зразка, а одночасне вимірювання за новим методом використовуватиме інший шматок розбитого зразка. Розглядаючи дисперсійні компоненти, з яких випливають ці розбиття, ми можемо вирішити головне питання. Тепер має бути зрозуміло, що відмінності між цими парними вимірюваннями слід віднести до двох речей: по-перше, фактичні відмінності між процедурами вимірювання - це те, що ми намагаємось оцінити, - по-друге, відмінності через будь-які зміни в межахвибірки, а також варіації, викликані фізичними процесами вилучення двох підпроборів, що підлягають вимірюванню. Якщо фізичні міркування про гомогенність вибірки та процес підсистеми можуть встановити, що друга форма дисперсії незначна, то дійсно немає «втручання», як стверджує рецензент. В іншому випадку ці компоненти дисперсії можуть потребувати явного моделювання та оцінки в ході аналізу зворотної регресії.


1
Дякую за дуже приємний аналіз, який пропонує найкращий спосіб вирішити цю проблему. Однак у моїй конкретній ситуації клієнт обрав метод регресії Демінга і не шукає іншого методу. Відмова від FDA до регресії Демінга, як видається, обумовлена ​​лише втручанням, і їх пропозиція подолати проблему - це певний тип корекції завантажувальної програми. Мене привезли лише тому, що вони не знають, як робити завантажувальну систему. У них немає участі у статистиці і вони не представили статистичний аналіз результатів, як я дав у своєму звіті.
Майкл Р. Черник

2
Я вдячний за обмеження (і мав би бути явним щодо цього). В цілому, однак, гарною основою для вирішення таких питань є прийняття відповідної моделі як точки відправлення. Якщо ви спробуєте обґрунтувати свій шлях до рішення, використовуючи невідповідний підхід та недійсну модель (щоб задовольнити клієнта), ви лише зведете помилки та не зможете досягти жодного чітко захищеного рішення. Тепер ви можете розглянути, як регресія Демінга відрізняється від зворотної регресії, а також, як регресія Демінга могла бути адаптована для розміщення кількох компонентів дисперсії.
whuber

1
Ви можете бути вмотивовані продемонструвати, що регресія Демінга, як уже застосовується, є достатньо близькою до того, що може спричинити звичайний чи відповідний метод: така демонстрація може бути найкращим можливим рішенням у вашій ситуації.
whuber

Натомість те, що вони зробили, було просто описати проблему та спосіб збирання даних та відображення результатів регресії Демінга. Якби був задіяний статистик, можливо, виникло менше статистичних питань щодо регресу Демінга. Все, що я можу зробити для клініки, - це надати аналіз для зробленого аналізу (який включав пояснення, чому більшість регресії можна було проаналізувати без турботи щодо втручання від повторного відбору проб із загального джерела) та надати запитувану завантажувальну програму. коригування залишкової дисперсії в об'єднаній моделі.
Майкл Р. Черник

Я не можу сказати їм робити зворотну регресію. Якщо метод вимірювання затверджено, я вважаю, що його можна розглядати як еталон, а навантаження на компанію полягає в тому, щоб показати, що новий метод виконує по суті ту ж роботу, що і еталонну. Для цього я думаю, що регресія Демінга може бути придатною і принаймні може бути прийнятною для FDA. Можливо, це було б, якби питання повторних зразків не виникло. Такого питання не виникло б, якби вони залишили один із повторних зразків, коли проводили об'єднання.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.