Нещодавно мені прийшов клієнт, щоб зробити аналіз завантаження, оскільки рецензент FDA сказав, що регресія їх помилок у змінних є недійсною, оскільки при об'єднанні даних із сайтів аналіз включає об'єднання даних із трьох сайтів, де два сайти включали деякі зразки, які були той самий.
Передумови
У клієнта був новий метод аналізу, який він хотів показати, "еквівалентний" існуючому затвердженому методу. Їх підхід полягав у порівнянні результатів обох методів, застосованих до одних і тих же зразків. Для тестування було використано три майданчики. Помилки в змінних (регрес Демінга) застосовано до даних на кожному сайті. Ідея полягає в тому, що якби регресія показала, що параметр нахилу буде близьким до 1, а перехоплення біля 0, це показало б, що два методи аналізу дали майже однакові результати, і тому новий метод повинен бути затверджений. На ділянці 1 у них було 45 зразків, що дало їм 45 парних спостережень. На сайті 2 було 40 зразків, а на ділянці 3 - 43 проби. Вони зробили три окремі регресії Демінга (припускаючи співвідношення 1 для помилок вимірювання для двох методів). Отже алгоритм мінімізував суму перпендикулярних відстаней у квадраті.
У своєму поданні клієнт зазначив, що деякі зразки, які використовувались на сайтах 1 і 2, були однаковими. У своєму огляді рецензент FDA зазначив, що регресія Демінга була недійсною, оскільки використовувались загальні зразки, що спричиняють "втручання", які недійсні припущення щодо моделі. Вони просили застосувати коригування завантаження для результатів Deming, щоб врахувати це втручання.
У той момент, оскільки клієнт не знав, як зробити завантажувальну систему, в яку мене ввели. Термін "втручання" був дивним, і я не був впевнений, в чому саме потрапляє рецензент. Я припускав, що справа справді полягає в тому, що через те, що об'єднані дані мають загальні вибірки, буде кореляція для загальних вибірок, і, отже, умови помилки моделі не всі будуть незалежними.
АНАЛІЗ КЛІЄНТА
Три окремі регресії були дуже схожими. Кожен мав параметри нахилу, близькі до 1, і перехоплення близько 0. Інтервал довіри 95% містив 1 і 0 для нахилу та перехоплення відповідно у кожному випадку. Основна відмінність полягала в дещо більшій залишковій дисперсії на ділянці 3. Крім того, вони порівняли це з результатами OLS і виявили, що вони дуже схожі (лише в одному випадку довірчий інтервал для схилу на основі OLS не містив 1). У випадку, коли OLS CI для схилу не містив 1, верхня межа інтервалу становила щось на зразок 0,99.
Оскільки результати настільки схожі на всіх трьох сайтах, що об’єднують дані про сайти, здаються розумними. Клієнт зробив об'єднану регресію Демінга, що також призвело до подібних результатів. Враховуючи ці результати, я написав звіт для клієнта, який спростував твердження про те, що регресії були недійсними. Мій аргумент полягає в тому, що оскільки в обох змінних є подібні помилки вимірювання, клієнт мав рацію використовувати регресію Демінга як спосіб виявити згоду / незгоду. В окремих регресіях сайту не було проблем з корельованими помилками, оскільки жодні зразки не повторювалися в межах даного сайту. Об'єднання даних для отримання більш чітких інтервалів довіри.
Цю складність можна було б усунути, просто об’єднавши дані із загальними зразками з сайту 1, що скажемо. Також три окремі моделі сайту не мають проблеми і є дійсними. Мені здається, це є надійним доказом згоди навіть без об'єднання. Крім того, вимірювання проводилися незалежно на ділянках 1 та 2 для загальних ділянок. Тому я вважаю, що навіть об'єднаний аналіз з використанням усіх даних є дійсним, оскільки помилки вимірювань для вибірки на ділянці 1 не співвідносяться з помилками вимірювання у відповідному зразку на майданчику 2. Це дійсно просто означає повторення точки в дизайні простір, який не повинен бути проблемою. Це не створює кореляції / "перешкод".
У своєму звіті я писав, що аналіз завантажувальної програми був непотрібним, оскільки немає кореляції, для якої слід підлаштовуватися. Три моделі сайтів були дійсними (можливих "втручань" в сайти) і об'єднаний аналіз можна було зробити, видаливши загальні зразки на місці 1 під час об'єднання. Такий об'єднаний аналіз не міг мати проблеми з перешкодами. Регулювання завантажувальної стрічки не буде необхідним, оскільки немає упередженості, для якої слід коригувати.
ВИСНОВОК
Клієнт погодився з моїм аналізом, але побоявся взяти його до FDA. Вони хочуть, щоб я все-таки здійснив коригування завантажувача.
МОЕ ЗАПИТАННЯ
A) Чи згодні ви з (1) моїм аналізом результатів клієнта та (2) моїм аргументом, що завантажувальна програма непотрібна.
Б) Враховуючи, що мені доведеться завантажувати регрес Демінга, чи є якісь процедури SAS або R, які мені доступні, щоб зробити регрес Демінга на зразках завантажувальної програми?
EDIT: Враховуючи пропозицію Білла Хубера, я планую розглянути межі регресії помилок у змінних за регресією як y на x, так і x на y. Ми вже знаємо, що для однієї версії OLS відповідь по суті є такою ж, як і помилки в змінних, коли два варіації помилок вважаються рівними. Якщо це стосується іншої регресії, то я думаю, що це покаже, що регресія Демінга дає відповідне рішення. Ви згодні?
Для того, щоб задовольнити запит клієнта, мені потрібно зробити запитуваний аналіз завантаження, який був невизначено визначений. Етично я вважаю, що було б неправильно просто надати завантажувальний інструмент, тому що він насправді не вирішує справжню проблему клієнта, яка полягає у виправданні їх процедури вимірювання аналізу. Тому я дам їм обидва аналізи і прошу принаймні, щоб вони сказали FDA, що на додаток до завантажувальної машини я зробив зворотну регресію і обмежував регресії Демінга, які, на мою думку, є більш підходящими. Також я думаю, що аналіз покаже, що їх метод еквівалентний еталонному, і тому регресія Демінга також є адекватною.
Я планую використовувати програму R, яку @whuber запропонував у своїй відповіді, щоб дозволити мені завантажувати регресію Демінга. Я не дуже знайомий з R, але думаю, що можу це зробити. У мене встановлено R разом із R Studio. Це зробить це досить легким для початківця, як я?
Також у мене є SAS і мені зручніше програмування в SAS. Тож якщо хтось знає спосіб зробити це в SAS, я би вдячний знати про це.