Якщо аудиторія справді не має статистичного походження, я думаю, я б спробував ще трохи спростити пояснення. По-перше, я намалював би координатну площину на дошці з такою лінією:
Кожен із ваших розмов буде знайомий з рівнянням для простої лінії, y = m x + b , тому що це щось, що вивчається в школі класу. Тож я би показав це поряд із малюнком. Однак я б написав це назад, як-от так: у= м x + b
m x + b = y
Я б сказав, що це рівняння є прикладом простої лінійної регресії. Тоді я б пояснив, як ви (або комп'ютер) могли вмістити таке рівняння до розсіяного ділянки точок даних, як показане на цьому зображенні:
Я б сказав, що тут ми використовуємо вік організму, який ми вивчаємо, щоб передбачити, наскільки він великий, і що отримане рівняння лінійної регресії, яке ми отримаємо (показане на зображенні), може бути використане для прогнозування, наскільки великий організм це якщо ми знаємо його вік.
m x + b = y
Тоді я ще раз поясню, що це був приклад простого рівняння лінійної регресії і що насправді існують більш складні різновиди. Наприклад, у різноманітності, що називається логістичною регресією , y може бути лише 1 або 0. Можливо, ви хочете використовувати цей тип моделі, якщо ви намагаєтесь передбачити відповідь "так" чи "ні", наприклад, чи є у когось захворювання чи ні. Ще один особливий сорт - це те, що називається регресією Пуассона , яка використовується для аналізу даних "підрахунку" або "події" (я б не заглиблювався в це далі, якщо це дійсно не потрібно).
Тоді я б пояснив, що лінійна регресія, логістична регресія та регресія Пуассона - це справді спеціальні приклади більш загального методу, що називається "узагальненою лінійною моделлю". Чудова річ у «узагальнених лінійних моделях» полягає в тому, що вони дозволяють нам використовувати дані «відповіді», які можуть приймати будь-яке значення (наприклад, наскільки великий організм в лінійній регресії), приймати лише 1 або 0 (наприклад, у когось чи ні захворювання в рамках логістичної регресії), або приймати дискретні підрахунки (наприклад, кількість подій в пуассонівській регресії)
Тоді я б сказав, що в цих типах рівнянь х (предиктори) підключаються до у (відповіді) через те, що статистики називають "функцією зв'язку". Ми використовуємо ці "функції зв’язку" в тих випадках, коли x не лінійно пов'язані з y.
У всякому разі, це мої два центи з цього питання! Можливо, моє запропоноване пояснення звучить трохи глухо і глупо, але якщо мета цієї вправи полягає лише в тому, щоб донести "суть" до аудиторії, можливо, пояснення на кшталт цього не надто погане. Я думаю, що важливо, щоб поняття пояснювалося інтуїтивно, і щоб ви не кидали навколо себе такі слова, як "випадковий компонент", "систематичний компонент", "функція зв'язку", "детермінований", "функція логіт" тощо. Якщо ви ' Знову розмовляючи з людьми, які справді не мають статистичного досвіду, як, наприклад, типовий біолог чи лікар, їх очі просто зазирнуть, почувши ці слова. Вони не знають, що таке розподіл ймовірностей, вони ніколи не чули про функцію зв'язку, і не знають, що таке "logit"
У вашому поясненні до нестатистичної аудиторії я також хотів би зосередитись на тому, коли використовувати яку різноманітність моделі. Я можу поговорити про те, скільки передбачувачів вам дозволено включити в лівій частині рівняння (я чув правила великого пальця, як не більше, ніж розмір вибірки, поділений на десять). Також непогано було б включити приклад розкладу з даними та пояснити аудиторії, як використовувати статистичний програмний пакет для створення моделі. Тоді я б переглянув результат цієї моделі крок за кроком і спробував би пояснити, що означають всі різні літери та цифри. Біологи не знають цього матеріалу і більше зацікавлені в тому, щоб дізнатися, який тест використовувати, а не насправді отримувати розуміння математики, що стоїть за графічним інтерфейсом SPSS!
Буду вдячний за будь-які коментарі чи пропозиції щодо запропонованого нами пояснення, особливо якщо хтось зауважує помилки чи думає про кращий спосіб пояснити це!