Форма інтервалів впевненості та прогнозування для нелінійної регресії


13

Чи повинні смуги довіри та прогнозування навколо нелінійної регресії бути симетричними навколо лінії регресії? Це означає, що вони не приймають форми годинного скла, як у випадку з смугами для лінійної регресії. Чому так?

Ось модель, про яку йдеться:
Ось цифра:

F(x)=(AD1+(xC)B)+D

http://i57.tinypic.com/2q099ok.jpg

і ось рівняння:

введіть тут опис зображення


Ваше запитання незрозуміле, оскільки ви переходите від запитання, чи є вони "симетричними" у першому реченні, до того, що вони не є у реченні 2, і запитуєте (імовірно), чому вони не є у реченні 3. Чи можете ви зробити це більш послідовно / зрозуміло?
gung - Відновіть Моніку

Гаразд, дозвольте запитати так: чому смуги довіри та прогнозування симетричні навколо регресійної лінії, коли регресія нелінійна, але приймають форму скляної години, коли вона лінійна?
Серж

00

Ти правий. Гурт переходить на негативну територію. Однак мене цікавлять не самі значення смуг, а скоріше значення EC50, що відповідають обмеженням смуг. Чи існує альтернатива побудувати смуги таким чином?
Серж

Так, але, як я задумав, вони можуть ускладнитися. Узагальнені методи найменших квадратів та часових рядів можуть впоратися з послідовним співвідношенням. Нелінійні перетворення залежної змінної є одним із інструментів для обробки помилок, що не додаються. Більш складним інструментом є узагальнена лінійна модель. Вибір частково залежить від природи залежної змінної. BTW, хоча я не впевнений, що ви маєте на увазі під "значеннями EC50" (це здається, що ви моделюєте співвідношення доза-відповідь), все, що буде обчислено з ілюстрованих діапазонів, буде підозрюваним.
whuber

Відповіді:


8

Діапазони впевненості та передбачення слід очікувати, що вони зазвичай розширюються ближче до кінців - і з тієї ж причини, що вони завжди роблять це у звичайній регресії; як правило, невизначеність параметра призводить до більш широких інтервалів біля кінців, ніж у середині

Це можна побачити за допомогою моделювання досить легко, або імітуючи дані з заданої моделі, або моделюючи з розподілу вибірки векторного параметра.

Звичайні (приблизно правильні) обчислення, зроблені для нелінійної регресії, включають в себе локальне лінійне наближення (це наведено у відповіді Гарві), але навіть без них ми можемо отримати деяке уявлення про те, що відбувається.

Однак робити фактичні обчислення нетривіально, і, можливо, програми можуть скористатися ярликом у розрахунку, який ігнорує цей ефект. Можливо також, що для деяких даних та деяких моделей ефект порівняно невеликий і важко помітний. Дійсно, з інтервалами прогнозування, особливо з великою дисперсією, але з великою кількістю даних, іноді буває важко помітити криву в звичайній лінійній регресії - вони можуть виглядати майже прямими, і відрізнити від прямолінійності досить легко.

Ось приклад того, як важко бачити лише середній довірчий інтервал (інтервали передбачення можна помітити набагато важче, оскільки їх відносна різниця набагато менша). Ось деякі дані та нелінійні найменші квадрати, що відповідають інтервалі довіри для середньої сукупності (у цьому випадку генерується з розподілу вибірки, оскільки я знаю справжню модель, але щось дуже подібне можна зробити за допомогою асимптотичного наближення чи шляхом завантаження):

введіть тут опис зображення

Фіолетові межі виглядають майже паралельно синім прогнозам ... але це не так. Ось стандартна помилка розподілу вибірки цих середніх прогнозів:

введіть тут опис зображення

що явно не є постійним.


Редагувати:

Ті вислови, які ви "опублікували", щойно опублікували, виходять прямо з інтервалу передбачення для лінійної регресії!


Ви також говорите, що збільшення невизначеності параметрів у міру відхилення від центру повинно розширюватися на кінцях смуги навіть у випадку нелінійної регресії, але це просто не так очевидно? Або є теоретична причина, чому цього розширення не відбувається у разі нелінійної регресії? Мої групи, звичайно, виглядають дуже симетрично.
Серж

1
Це розширення мало б бути типовим, але воно не відбуватиметься однаково з кожною нелінійною моделлю і не буде настільки очевидним з кожною моделлю, і тому що це не так просто зробити, можливо, не буде обчислено таким чином даною програмою . Я не знаю, як були розраховані групи, на які ви дивитесь - я не читач розуму, і я не можу побачити код програми, про яку ви навіть не згадали ім'я.
Glen_b -Встановити Моніку

@ user1505202, на це залишається складним питанням відповісти повністю. Чи можете ви вказати, яка ваша модель (її функціональна форма)? Чи можете ви прикріпити образ, який вас бентежить?
gung - Відновити Моніку

1
Спасибі. У мене є цифри, і вони по суті постійні - різниця між лінією регресії та кожною межею прогнозування коливається від 18,21074 в середині до 18,24877 на кінцях. Отже, незначне розширення, але дуже незначне. До речі, @gung, я отримав рівняння, яке обчислює інтервал прогнозування. Це:Y-hat +/- sp(Y-hat)
Серж

1
Мова йде про різновид варіації, яку ви можете побачити з інтервалом прогнозування з великими зразками. Що сп?
Glen_b -Встановіть Моніку

5

Математика обчислювальної смуги довіри та прогнозування кривих, що підходять за допомогою нелінійної регресії, пояснюється на цій перехресній валідаційній сторінці. Це показує, що смуги не завжди / зазвичай симетричні.

І ось пояснення з більшою кількістю слів та меншою кількістю математики:

Спочатку визначимо G | x, який є градієнтом параметрів при певному значенні X та використовуючи всі найкращі значення параметрів. Результат - вектор, з одним елементом на параметр. Для кожного параметра він визначається як dY / dP, де Y - значення Y кривої з урахуванням конкретного значення X та всіх значень параметрів, що найкраще підходять, а P - один із параметрів.)

G '| x - перенесений вектор градієнта, тож це стовпець, а не ряд значень. Cov - матриця коваріації (перевернута Гессіана від останньої ітерації). Це квадратна матриця з кількістю рядків і стовпців, що дорівнює кількості параметрів. Кожен елемент матриці є коваріацією між двома параметрами. Ми використовуємо Cov для позначення нормованої матриці коваріації , де кожне значення становить від -1 до 1.

Тепер обчислити

c = G '| x * Cov * G | x.

Результат - це єдине число для будь-якого значення X.

Діапазони достовірності та прогнозування зосереджені на кривій найкращого прилягання, а над кривою і нижче кривої на рівну суму.

Діапазони довіри простягаються вище та нижче кривої на:

= sqrt (c) * sqrt (SS / DF) * CriticalT (% впевненості, DF)

Діапазони прогнозування простягаються ще на відстань вище та нижче кривої, рівну:

= sqrt (c + 1) * sqrt (SS / DF) * CriticalT (% впевненості, DF)

В обох цих рівняннях значення c (визначене вище) залежить від значення X, тому смуги довіри та прогнозування не є постійною відстані від кривої. Значення SS - це сума квадратів для придатності, а DF - кількість ступенів свободи (кількість точок даних мінус кількість параметрів). CriticalT - константа від розподілу t на основі потрібного рівня довіри (традиційно 95%) та кількості ступенів свободи. Для обмежень 95% та досить великого коефіцієнта df ця величина близька до 1,96. Якщо DF невеликий, це значення вище.


Спасибі, Харві. Я працюю над тим, щоб отримати градієнт параметрів для своєї функції. Чи випадково ви знаєте відпрацьований приклад, бо мені також не зрозуміло, як отримується коваріаційна матриця.
Серж

Якщо ви використовуєте демонстраційний пристрій GraphPad Prism, ви можете пристосувати дані до будь-якої потрібної моделі та переглянути матрицю коваріації (необов'язковий результат, обраний на вкладці Діагностика) та діапазони довіри чи прогнозування (як числа, так і графік; також виберіть в Вкладка Діагностика). Це не дуже добре, як відпрацьований приклад, але принаймні ви можете порівняти коваріаційну матрицю і побачити, чи проблема є до або після ...
Харві Мотульський,

Однак дві речі. 1. Призма дала мені матрицю Cov. Однак це лише одне число для всього набору даних. Чи я не повинен отримувати одне значення на значення X? 2. Я отримую діаграму передбачення у графіку, але я хотів би, щоб вихід містив значення. Призма, здається, не робить цього. Я дуже новачок у Призмі, тому я, можливо, не всюди дивився, але спробував!
Серж

1. Коваріаційна матриця показує ступінь переплетення параметрів. Отже, для кожної пари параметрів є одне значення, яке ви вимагаєте, щоб нелінійна регресія підходила. 2. Подивіться на вкладку Діапазон, щоб попросити Призму скласти таблицю координат XY кривої, із значеннями плюс / мінус для діапазонів довіри чи прогнозування. 3. Для технічної підтримки з Prism надішліть електронну пошту support@graphpad.com Використовуйте цей форум для статистичних питань, а не технічної підтримки.
Харві Мотульський
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.