Обидва тести неявно моделюють співвідношення вік-відповідь, але вони роблять це по-різному. Який вибрати, залежить від того, як ви вирішите моделювати ці відносини. Ваш вибір повинен залежати від основної теорії, якщо така є; про те, яку інформацію ви бажаєте отримати з результатів; і про те, як відбирається зразок. Ця відповідь обговорює ці три аспекти по порядку.
Я опишу t-тест і логістичну регресію за допомогою мови, яка передбачає, що ви вивчаєте чітко визначену сукупність людей і хочете зробити висновки з вибірки для цієї сукупності.
Щоб підтримати будь-який вид статистичного висновку, ми повинні вважати, що вибірка є випадковою.
Т-тест передбачає, що люди у вибірці відповідають "ні" - це проста випадкова вибірка всіх не респондентів у популяції, і що люди у вибірці, що відповідають "так", є простою випадковою вибіркою всіх респондентів "так" населення.
Т-тест дає додаткові технічні припущення щодо розподілу віків у межах кожної з двох груп у сукупності. Існують різні версії t-тесту для обробки ймовірних можливостей.
Логістична регресія передбачає, що всі люди будь-якого віку є простою випадковою вибіркою людей цього віку в популяції. Окремі вікові групи можуть демонструвати різні показники відповідей "так". Ці показники, виражені у вигляді коефіцієнтів журналу (а не як прямі пропорції), вважаються лінійно пов'язаними з віком (або з деякими визначеними віковими функціями).
Логістична регресія легко розширюється для забезпечення нелінійних зв'язків між віком та реакцією. Таке розширення може бути використане для оцінки правдоподібності початкового лінійного припущення. Це можливо для великих наборів даних, які надають достатньо деталей для відображення нелінійностей, але навряд чи будуть корисними для малих наборів даних. Загальне правило - про те, що моделі регресії повинні мати вдесятеро більше спостережень, ніж параметри - дозволяє припустити, що для виявлення нелінійності потрібні значно більше 20 спостережень (для отримання яких необхідний третій параметр на додаток до перехоплення та нахилу лінійної функції ).
Т-тест визначає, чи відрізняються середні віки між респондентами, які не мають відповіді та так. Логістична регресія оцінює, як рівень відповіді змінюється залежно від віку. Як такий, він більш гнучкий і здатний надати більш детальну інформацію, ніж тест-тест. З іншого боку, він, як правило, менш потужний, ніж t-тест, з основною метою виявити різницю між середнім віком у групах.
Пара тестів може демонструвати всі чотири комбінації значущості та несуттєвості. Дві з них є проблемними:
T-тест не є важливим, але логістичний регрес є. Коли припущення обох тестів є правдоподібними, такий результат практично неможливий, оскільки t-тест не намагається виявити такий специфічний взаємозв'язок, як це викликано логістичною регресією. Однак, коли цей взаємозв'язок є достатньо нелінійним, щоб змусити старших та наймолодших суб'єктів ділитися однією думкою, а суб'єкти середнього віку - іншою, то розширення логістичної регресії на нелінійні відносини може виявити та кількісно оцінити цю ситуацію, яку жоден t-тест не міг би виявити. .
T-тест є вагомим, але логістична регресія відсутня, як у питанні. Це часто трапляється, особливо коли є група молодих респондентів, група старших респондентів і мало людей між ними. Це може створити великий розрив між швидкістю відповідей "не" та "відповіді". Це легко виявляється за допомогою t-тесту. Однак логістична регресія матиме або порівняно мало детальної інформації про те, як реально змінюється частота відповідей із віком, або б вона мала непереконливу інформацію: випадок "повної розлуки", коли всі літні люди відповідають одним способом, а всі молодші люди - але в цьому випадку обидва тести зазвичай мали б дуже низькі значення p.
Зауважте, що експериментальна конструкція може визнати недійсними деякі тестові припущення. Наприклад, якщо ви вибирали людей відповідно до їх віку за стратифікованою конструкцією, то припущення t-тесту (що кожна група відображає просту випадкову вибірку віків) стає сумнівним. Цей дизайн запропонував би покластися на логістичну регресію. Якщо замість цього у вас було два пули, один із невідповідальних та один із відповідей так і вибраний випадковим чином з тих, щоб встановити їх вік, то припущення вибірки логістичної регресії сумнівні, тоді як тест t-тесту буде дотриманий. Цей дизайн запропонував би використовувати якусь форму t-тесту.
(Друга конструкція тут може здатися нерозумною, але в умовах, коли "вік" замінюється якоюсь характеристикою, яку важко, дорого чи забирати багато часу, це може бути привабливим.)