Як би ви пояснили узагальнені лінійні моделі людям, які не мають статистичного походження?


16

Мені завжди важко пояснити статистичні прийоми аудиторії, яка не має статистичної інформації. Якби я хотів пояснити, що таке ГЛМ для такої аудиторії (не викидаючи статистичний жаргон), що було б найкращим чи найефективнішим способом?

Я зазвичай пояснюю GLM трьома частинами - (1) випадковою складовою, яка є змінною відповіді, (2) систематичною складовою, яка є лінійними предикторами, і (3) функцією зв'язку, яка є "ключем" до з'єднання (1) і (2). Тоді я б наводив приклад лінійної чи логістичної регресії та пояснював, як функцію зв'язку вибирають на основі змінної відповіді. Отже, він виступає ключем, що з'єднує два компоненти.


Який фон має аудиторія? Пояснення ГЛМ математику чи біологу дуже відрізняється.

1
Буде мало математиків, які не мають статистичного походження, @Procrastinator. Але ваша думка хороша: мати більш чітке уявлення про передбачувану аудиторію допоможе зберегти відповіді послідовними та зосередженими. Ви б не хотіли змінити питання, щоб розширити це, Кен?
whuber

1
Я бачу вашу думку, @Procrastinator, але я сподівався отримати просту для розуміння відповідь для всіх (математиків та / або біологів), взагалі тому, що якщо я не маю математики чи біології (що так), Я б не знав, як пояснити їм GLM стосовно їхнього походження.
Кен

4
Я думаю, що важливо пам’ятати, що ви можете отримати бакалавр, магістр або навіть доктор біологічних наук, навіть не взявши статистичний клас, навіть у багатьох університетах першого рівня. Мій ступінь біохімії потребував двох семестрів вступного обчислення та одного семестру диференціальних рівнянь. Суть цих занять швидко забувається, оскільки багато учнів більше ніколи не використовуватимуть ці вміння! Тому я дійсно думаю, що потрібно притупити пояснення типовим нестатистам.
Олександр

Коментар, який слід додати до відповідей нижче; якщо ви можете натрапити на встановлення лінії (тобто функції зв’язку та лінійних предикторів), то з'єднання з ефективним зворотним відхиленням зважування не так важко спілкуватися; ми просто хочемо підвищити вагу точних внесків і зменшити вагу решти. Це дозволяє вам не говорити нічого занадто технічного про випадковість результатів. NB GLM були розроблені як (тільки) моделі, де IWLS можна використовувати для надання MLE, тому спосіб мислення про них, описаний вище, відображає більшість, чому вони насправді корисні.
гість

Відповіді:


25

Якщо аудиторія справді не має статистичного походження, я думаю, я б спробував ще трохи спростити пояснення. По-перше, я намалював би координатну площину на дошці з такою лінією:

y = mx + b

Кожен із ваших розмов буде знайомий з рівнянням для простої лінії, y = m x + b , тому що це щось, що вивчається в школі класу. Тож я би показав це поряд із малюнком. Однак я б написав це назад, як-от так: у=мх+б

 мх+б=у

Я б сказав, що це рівняння є прикладом простої лінійної регресії. Тоді я б пояснив, як ви (або комп'ютер) могли вмістити таке рівняння до розсіяного ділянки точок даних, як показане на цьому зображенні:

Діаграма розкиду

Я б сказав, що тут ми використовуємо вік організму, який ми вивчаємо, щоб передбачити, наскільки він великий, і що отримане рівняння лінійної регресії, яке ми отримаємо (показане на зображенні), може бути використане для прогнозування, наскільки великий організм це якщо ми знаємо його вік.

 мх+б=у

Тоді я ще раз поясню, що це був приклад простого рівняння лінійної регресії і що насправді існують більш складні різновиди. Наприклад, у різноманітності, що називається логістичною регресією , y може бути лише 1 або 0. Можливо, ви хочете використовувати цей тип моделі, якщо ви намагаєтесь передбачити відповідь "так" чи "ні", наприклад, чи є у когось захворювання чи ні. Ще один особливий сорт - це те, що називається регресією Пуассона , яка використовується для аналізу даних "підрахунку" або "події" (я б не заглиблювався в це далі, якщо це дійсно не потрібно).

Тоді я б пояснив, що лінійна регресія, логістична регресія та регресія Пуассона - це справді спеціальні приклади більш загального методу, що називається "узагальненою лінійною моделлю". Чудова річ у «узагальнених лінійних моделях» полягає в тому, що вони дозволяють нам використовувати дані «відповіді», які можуть приймати будь-яке значення (наприклад, наскільки великий організм в лінійній регресії), приймати лише 1 або 0 (наприклад, у когось чи ні захворювання в рамках логістичної регресії), або приймати дискретні підрахунки (наприклад, кількість подій в пуассонівській регресії)

Тоді я б сказав, що в цих типах рівнянь х (предиктори) підключаються до у (відповіді) через те, що статистики називають "функцією зв'язку". Ми використовуємо ці "функції зв’язку" в тих випадках, коли x не лінійно пов'язані з y.

У всякому разі, це мої два центи з цього питання! Можливо, моє запропоноване пояснення звучить трохи глухо і глупо, але якщо мета цієї вправи полягає лише в тому, щоб донести "суть" до аудиторії, можливо, пояснення на кшталт цього не надто погане. Я думаю, що важливо, щоб поняття пояснювалося інтуїтивно, і щоб ви не кидали навколо себе такі слова, як "випадковий компонент", "систематичний компонент", "функція зв'язку", "детермінований", "функція логіт" тощо. Якщо ви ' Знову розмовляючи з людьми, які справді не мають статистичного досвіду, як, наприклад, типовий біолог чи лікар, їх очі просто зазирнуть, почувши ці слова. Вони не знають, що таке розподіл ймовірностей, вони ніколи не чули про функцію зв'язку, і не знають, що таке "logit"

У вашому поясненні до нестатистичної аудиторії я також хотів би зосередитись на тому, коли використовувати яку різноманітність моделі. Я можу поговорити про те, скільки передбачувачів вам дозволено включити в лівій частині рівняння (я чув правила великого пальця, як не більше, ніж розмір вибірки, поділений на десять). Також непогано було б включити приклад розкладу з даними та пояснити аудиторії, як використовувати статистичний програмний пакет для створення моделі. Тоді я б переглянув результат цієї моделі крок за кроком і спробував би пояснити, що означають всі різні літери та цифри. Біологи не знають цього матеріалу і більше зацікавлені в тому, щоб дізнатися, який тест використовувати, а не насправді отримувати розуміння математики, що стоїть за графічним інтерфейсом SPSS!

Буду вдячний за будь-які коментарі чи пропозиції щодо запропонованого нами пояснення, особливо якщо хтось зауважує помилки чи думає про кращий спосіб пояснити це!


4
Не всі знайомі з рівнянням для рядка; навіть не всі аспіранти є, ні всі люди з докторами наук.
Пітер Флом - Відновіть Моніку

6
Я маю на увазі, я впевнений, що аспірант існує у світі, який не знає рівняння для лінії, але, мабуть, аудиторія, якій ви хочете пояснити узагальнені лінійні моделі, мала б принаймні половину підказки про високу шкільна алгебра рівня! : -o
Олександр

Я згоден з тобою, Олександре, і твій підхід мені здається дуже природним. Я б не зосереджувався на "g" glm занадто багато (або занадто рано), а також не пішов би на розрізнення у випадковому відносно фіксованого. Звичайно, це залежить від того, скільки часу вам доведеться пояснити.
Домінік Комтуа

Y=αХ+βα

10

Я б не назвав відповідь випадковою складовою. Це поєднання детермінованої та випадкової складових.

журнал(p/(1-p))[0,1]


3
Цікаво про таке використання "відповіді". Наша цільова аудиторія не буде , ймовірно , розуміє , що означає спостережуваний відповідь: так чи ні, 0 або 1, і т.д. У логістичної регресії ми модель що - то непомітне (і ніколи безпосередньо спостережуваний); а саме гіпотетичний шанс відповіді. "Посилання" - це лише питання вираження цих шансів як шансів журналу, а не як ймовірностей. Логістична регресія передбачає, що шанси журналу змінюються лінійно залежно від IV. (Моє використання «модель», «припускати» і «гіпотетичним» , а не «є» і «передбачати» , указует на інші пізнавальні та онтологічні точки зору, теж.)
whuber

1
Хороший точковий шубер.
Майкл Р. Черник

-2

Я б пояснив це, кажучи, що іноді мені потрібні речі, які можна передбачити. Наприклад, ціна на будинок дає деяку інформацію про нього. Скажімо, його розмір, місце розташування, скільки років споруджується тощо. Я хочу це віднести до моделі, яка враховує вплив цих факторів для прогнозування ціни.

Тепер, беручи підприклад, скажемо, я вважаю лише розмір будинку. Це означає, що більше нічого не впливає на ціну. Це може бути випадок, коли я порівнюю будинки, які знаходяться в одному населеному пункті, споруджувались в один і той же час і т. Д. Або може статися так, що я не хочу ускладнювати справи для себе, а отже, хочу, щоб реальне життя відповідало тому, як далеко я можу подумати. Рухаючись далі, я створюю модель, де у мене є перелік розмірів і відповідних цін подібних властивостей (скажімо, від продажів, що відбуваються останнім часом ... але це може мати серйозні упередження від будинків, які не продаються, а отже, впливати на ціну будинків, які є. Але нехай це ігнорують).

Тепер я бачу, що будинок на 100 кв футів коштує 1 мільйон доларів (подолайте себе, це спрощений приклад). Так, природно, ви б очікували, що будинок на 200 футів коштуватиме вдвічі. І це те, що ми би назвали «лінійною схемою». Звичайно, коли ми збираємо дані та розмір ділянки проти ціни, ми бачимо, що це не зовсім подвійно. Але, безумовно, є тенденція до зростання.

Тому я намагаюся оцінити тенденцію. Скільки збільшення на кожен збільшений квадратний фут? Це лінійна регресія.

INSERT термінологічна карта та продовжуйте статистичні поняття. Одним із способів пояснення випадкової та систематичної складової може бути те, що все, що ви забули моделювати, чи не змогли оцінити, є випадковим. Все, що ви могли, є систематичним. (Наприклад, скажіть, що це 2008 рік, і ви хочете продати будинок.)

Припущення, що лежать в основі цієї моделі, полягають у тому, що розсіювач повинен виглядати як стрижень. Це означає, що обидва X і Y є "нормальними". і всі мають подібну дисперсію.

Якщо це не так, введіть GLM. а тепер поясніть функцію зв'язку n все це.

Це спрощено, але воно має працювати як вступ.

Ви можете вкласти в історію ГЛМ та факторні моделі. Там, де Фішер вимагав, щоб речі почали змінюватись разом, і ця структура підходила для такої складності.

Сподіваюся, це допомагає ...


1
Ми цінуємо ваші зусилля, але немає потреби розміщувати ваш матеріал, поки ви фактично не закінчили його писати. У теперішньому вигляді спосіб, який в кінці розпадається на розріджені криптовалюти, розчарує читачів.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.