Уточнення щодо читання номограми


10

Далі йде номограма, створена з набору даних mtcars з пакетом rms для формули:

mpg ~ wt + am + qsec

введіть тут опис зображення

Сама модель здається гарною з R2 0,85 і P <0,00001

> mod

Linear Regression Model

ols(formula = mpg ~ wt + am + qsec, data = mtcars)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       32    LR chi2     60.64    R2       0.850    
sigma 2.4588    d.f.            3    R2 adj   0.834    
d.f.      28    Pr(> chi2) 0.0000    g        6.456    

Residuals

    Min      1Q  Median      3Q     Max 
-3.4811 -1.5555 -0.7257  1.4110  4.6610 

          Coef    S.E.   t     Pr(>|t|)
Intercept  9.6178 6.9596  1.38 0.1779  
wt        -3.9165 0.7112 -5.51 <0.0001 
am         2.9358 1.4109  2.08 0.0467  
qsec       1.2259 0.2887  4.25 0.0002  

Мені незрозуміло, що це за "Точки", "Загальні бали" та "Лінійний прогноктор". Який із них представляє mpg, змінну результату? Я буду вдячний за будь-яке пояснення.

Редагувати: враховуючи відмінні пропозиції від @Glen_b для легкого читання очок тощо, може бути альтернативна номограма:

введіть тут опис зображення

Оскільки змінна результату чи відповіді доступна, її можна використовувати замість терміна "Лінійний прогноктор". Це також стає зрозумілим щодо того, як потрібно читати номограму.


хороша схема редагування там
Glen_b -Встановіть Моніку

Відповіді:


11

Отже, оскільки ваша модель лінійна, очікуваний mpg дорівнює лінійному предиктору, ви можете читати mpg прямо з лінійної шкали прогноктора.

Для кожної змінної ви знаходите її значення у відповідній шкалі. Наприклад, уявіть, що ми хотіли знайти передбачуваний mpg для автомобіля з wt=4, am=1, qsec=18:

введіть тут опис зображення

що дає передбачуваний mpg приблизно 18,94. Заміщення рівняння дає 18,95, тож це досить близько. (На практиці ви, мабуть, працюєте лише до найближчої цілої точки - і так ви отримаєте приблизно 2 цифри точності - "19 мпг" - поза, а не 3-4 фігури, як тут.)

Однією з головних переваг такої діаграми, на мій погляд, є те, що миттєво бачиш відносний вплив змін у різних змінних предиктора (IV) на відповідь (DV). Навіть коли діаграма не потрібна для будь-яких обчислень, вона може мати велике значення з точки зору просто відображення відносних ефектів змінних.


Подальше запитання з коментарів:

Чи працює це однаково для нелінійних або поліноміальних регресій?

У випадках, коли є нелінійним в деяких прогнозах, потрібні деякі незначні - і, мабуть, очевидні - модифікації. Уявіть, що у нас єу = Ь 0 + Ь х 1 + F ( х 2 )E(Y)y^=b0+bx1+f(x2)

де:

(a) є монотонним; абоf

(b) не є монотоннимf

В будь-якому випадку шкала для працює точно так, як було зазначено вище, але у випадку:x1

(а) шкала для не буде лінійною; наприклад, якщо є монотонним зменшенням, але (приблизно) квадратичним, у вас може бути щось подібне: фx2f

введіть тут опис зображення

(b) немонотонна шкала для "зламається" у точці повороту і перевернеться. напрx2

введіть тут опис зображення

- тут функція має мінімум десь біляx = 2,23f(x)x=2.23

Можливо, що у таких функцій є кілька точок повороту, де масштаб би ламався і перевертався в кілька разів - але лінія осі має лише дві сторони.

З номограмами типу точок це не представляє труднощів, оскільки можна переміщувати додаткові масштабні відрізки вгору або вниз (або, загалом, ортогонально до осі) трохи, поки не відбудеться перекриття.

(Більше однієї точки повороту може бути проблемою для номограм типу вирівнювання; одне рішення, показане в книзі Гаррелла, полягає в тому, щоб злегка змістити всі шкали від опорної лінії, на якій насправді прийнято положення значення.)


У випадку ГЛМ з нелінійною функцією зв’язку ваги працюють як вище, але шкала лінійного предиктора буде позначена нелінійною шкалою для , щось на зразок (а) вище.Y

Приклади всіх цих ситуацій можна знайти в регресійних стратегіях моделювання Гаррелла .



Всього пара бічних записок

  1. Я вважаю за краще бачити дві шкали точок у верхній і нижній частині відповідного розділу; інакше важко точно «вишикуватися», тому що ви повинні здогадатися, що таке «вертикаль». Щось на зразок цього:

    введіть тут опис зображення

    Однак, як я зауважую в коментарях, для останнього розділу діаграми (загальна кількість балів та лінійний прогноктор) можливо кращою альтернативою другої шкали точок буде просто мати пару шкал "назад-назад" (загальна кількість балів на одній сторона, лінійний предиктор з іншого), як це:

    введіть тут опис зображення

    після цього ми уникаємо необхідності знати, що таке «вертикаль».

  2. Маючи лише два безперервні прогнози та єдиний бінарний коефіцієнт, ми можемо легко побудувати більш традиційну номограму вирівнювання :

    введіть тут опис зображення

    У цьому випадку ви просто знаходите значення wtта qsecзначення на їх шкалі та з'єднуєте їх з рядком; там, де вони перетинають mpgвісь, ми зчитуємо значення (тоді як amзмінна визначає, яку сторону mpgосі ви читаєте). У такому простому випадку подібні номограми є швидшими та простішими у використанні, але їх можна не так легко узагальнити для багатьох прогнозів, де вони можуть стати непростими. Номограма у вашому запитанні (як це реалізовано в стратегії регресійного моделювання та в rmsпакеті на R) може додавати більше змінних без змін. Це може бути цілком перевагою при роботі із взаємодіями.


Дякую за чітке, ілюстроване пояснення. Чи працює це однаково для нелінійних або поліноміальних регресій?
rnso

1
Я відредагував свою відповідь, щоб відповісти на це додаткове запитання.
Glen_b -Встановіть Моніку

2
Це дивовижний пост Глена. Я думаю, я збираюся змінити метод nomogramфункції, plotщоб додати додаткову Pointsшкалу за замовчуванням. Чудова пропозиція !!
Френк Харрелл

1
@FrankHarrell Ні, тому що ви не читаєте жодної залежності між балами та загальною кількістю балів - вони навіть не повинні знаходитися на одній сторінці. Проблема полягає у знаходженні "вертикалі", щоб ви могли точно читати від загальних точок до лінійного прогноктора. Якщо ці дві шкали дуже близькі або торкаються, а не говорять на два сантиметри один від одного, це не проблема. Коли вони в дюймах один від одного, кілька ступенів помилки у знаходженні вертикалі можуть означати неабияку помилку в результаті. У першому розділі вам все ще потрібні дві шкали балів, оскільки у вас може бути багато прогнозів, і всі вони не можуть бути суміжними зі шкалою балів.
Glen_b -Встановіть Моніку

1
@FrankHarrell Особисто я думаю, що сітка захаращує дисплей і має тенденцію затемнювати її значення; Я уникаю сіток, коли можу. Вони також не дозволяють отримувати однакову ступінь точності у вертикальній вертикалі, якщо сітка не буде такою ж тонкою, як шкала (що, на мою думку, було б жахливо візуально). Без іншого варіанту я б закінчив редагування у другій шкалі точок. (так само, як я це робив тут), щоб він був у тому, що я вважав би придатним станом для двох цілей, я бачу, що це має (я. робить досить точну оцінку передбачуваних значень без затемнення ii. ясність відносних внесків до відповіді) ..
Glen_b -Встановіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.