Логістична регресія або Т-тест?

17

Група людей відповідає на одне запитання. Відповідь може бути "так" або "ні". Дослідник хоче знати, чи пов’язаний вік з типом відповіді.

Асоціацію оцінювали шляхом логістичної регресії, де вік є пояснювальною змінною, а тип відповіді (так, ні) - залежною змінною. Окремо це було розглянуто шляхом обчислення середнього віку груп, які відповіли відповідно "так" і "ні", та проведення Т- тесту для порівняння засобів.

Обидва тести були виконані за порадами різних людей, і жоден з них не впевнений, яким правильним є шлях. З огляду на дослідницьке питання, що було б кращим тестом?

Для тестування гіпотез значення р були не значущими (регресія) та значущими (Т-тест). Вибірка становить менше 20 випадків.

regression logistic t-test

— Гвен
джерело

2

Я не впевнений, що це ваше справжнє питання. Ви вже провели обидва аналізи, про які ви питаєте. Я здогадуюсь, що те, що ви насправді хочете знати, - це щось із порівняння між стосунками або стосунків між цими тестами, наприклад, що краще. Відредагуйте своє запитання, щоб виправити це.

— Джон

Обидва тести виконувались за порадами різних людей, і жоден з них не впевнений, чи це правильний шлях. З огляду на питання дослідження (чи пов’язаний вік із типом відповіді?), Що було б кращим тестом, логістичною регресією типу відповіді за віком або Т-тестом, порівнюючи середній вік осіб, які відповіли "так" із середнім рівнем вік осіб, які відповіли "ні"?

— Гвен

19

Обидва тести неявно моделюють співвідношення вік-відповідь, але вони роблять це по-різному. Який вибрати, залежить від того, як ви вирішите моделювати ці відносини. Ваш вибір повинен залежати від основної теорії, якщо така є; про те, яку інформацію ви бажаєте отримати з результатів; і про те, як відбирається зразок. Ця відповідь обговорює ці три аспекти по порядку.

Я опишу t-тест і логістичну регресію за допомогою мови, яка передбачає, що ви вивчаєте чітко визначену сукупність людей і хочете зробити висновки з вибірки для цієї сукупності.

Щоб підтримати будь-який вид статистичного висновку, ми повинні вважати, що вибірка є випадковою.

Т-тест передбачає, що люди у вибірці відповідають "ні" - це проста випадкова вибірка всіх не респондентів у популяції, і що люди у вибірці, що відповідають "так", є простою випадковою вибіркою всіх респондентів "так" населення.

Т-тест дає додаткові технічні припущення щодо розподілу віків у межах кожної з двох груп у сукупності. Існують різні версії t-тесту для обробки ймовірних можливостей.
Логістична регресія передбачає, що всі люди будь-якого віку є простою випадковою вибіркою людей цього віку в популяції. Окремі вікові групи можуть демонструвати різні показники відповідей "так". Ці показники, виражені у вигляді коефіцієнтів журналу (а не як прямі пропорції), вважаються лінійно пов'язаними з віком (або з деякими визначеними віковими функціями).

Логістична регресія легко розширюється для забезпечення нелінійних зв'язків між віком та реакцією. Таке розширення може бути використане для оцінки правдоподібності початкового лінійного припущення. Це можливо для великих наборів даних, які надають достатньо деталей для відображення нелінійностей, але навряд чи будуть корисними для малих наборів даних. Загальне правило - про те, що моделі регресії повинні мати вдесятеро більше спостережень, ніж параметри - дозволяє припустити, що для виявлення нелінійності потрібні значно більше 20 спостережень (для отримання яких необхідний третій параметр на додаток до перехоплення та нахилу лінійної функції ).

Т-тест визначає, чи відрізняються середні віки між респондентами, які не мають відповіді та так. Логістична регресія оцінює, як рівень відповіді змінюється залежно від віку. Як такий, він більш гнучкий і здатний надати більш детальну інформацію, ніж тест-тест. З іншого боку, він, як правило, менш потужний, ніж t-тест, з основною метою виявити різницю між середнім віком у групах.

Пара тестів може демонструвати всі чотири комбінації значущості та несуттєвості. Дві з них є проблемними:

T-тест не є важливим, але логістичний регрес є. Коли припущення обох тестів є правдоподібними, такий результат практично неможливий, оскільки t-тест не намагається виявити такий специфічний взаємозв'язок, як це викликано логістичною регресією. Однак, коли цей взаємозв'язок є достатньо нелінійним, щоб змусити старших та наймолодших суб'єктів ділитися однією думкою, а суб'єкти середнього віку - іншою, то розширення логістичної регресії на нелінійні відносини може виявити та кількісно оцінити цю ситуацію, яку жоден t-тест не міг би виявити. .
T-тест є вагомим, але логістична регресія відсутня, як у питанні. Це часто трапляється, особливо коли є група молодих респондентів, група старших респондентів і мало людей між ними. Це може створити великий розрив між швидкістю відповідей "не" та "відповіді". Це легко виявляється за допомогою t-тесту. Однак логістична регресія матиме або порівняно мало детальної інформації про те, як реально змінюється частота відповідей із віком, або б вона мала непереконливу інформацію: випадок "повної розлуки", коли всі літні люди відповідають одним способом, а всі молодші люди - але в цьому випадку обидва тести зазвичай мали б дуже низькі значення p.

Зауважте, що експериментальна конструкція може визнати недійсними деякі тестові припущення. Наприклад, якщо ви вибирали людей відповідно до їх віку за стратифікованою конструкцією, то припущення t-тесту (що кожна група відображає просту випадкову вибірку віків) стає сумнівним. Цей дизайн запропонував би покластися на логістичну регресію. Якщо замість цього у вас було два пули, один із невідповідальних та один із відповідей так і вибраний випадковим чином з тих, щоб встановити їх вік, то припущення вибірки логістичної регресії сумнівні, тоді як тест t-тесту буде дотриманий. Цей дизайн запропонував би використовувати якусь форму t-тесту.

(Друга конструкція тут може здатися нерозумною, але в умовах, коли "вік" замінюється якоюсь характеристикою, яку важко, дорого чи забирати багато часу, це може бути привабливим.)

— дзижчати
джерело

Не вдасться усунути більшість проблем щодо нелінійності та розмежування за допомогою сплайну на вікову змінну? З цього приводу вибачте, але я не можу зрозуміти, чому "об'єднаний" дизайн може визнати недійсними результати логістичної регресії. Звичайно, припущення про випадкову вибірку вже немає, але чи нас хвилює, враховуючи, що ми робимо цей вибір дизайну? Ви натякаєте на ухил відбору? (Дизайн, який ви описуєте, здається мені як дослідження контрольного випадку, але я можу помилитися ...) (+1 очевидно)

— usεr11852 каже Reinstate Monic

@ usεr11852 Дякую за ваші продумані коментарі. Я переписав кілька уривків, щоб уточнити моменти, які ви наводили. Хоча сплайнування віку може впоратися з нелінійністю в логістичній регресії, це може збільшити можливість повного розмежування. Я не впевнений, що ви маєте на увазі під "об'єднаним дизайном", але я б з підозрою ставився до зусиль інтерпретувати p-значення логістичної регресії, де модель ймовірності не може бути виправдана (що те, що дозволяє нам робити випадкові вибірки).

— whuber

Дякую за це. Так, я цілком оціню ваші точки щодо повного розлучення (ефекти Хока-Доннера), я не вважав їх. Гаразд, я бачу, що ти зараз маєш на увазі щодо цих двох басейнів. У такому випадку у нас буде узгоджена концепція спостережного дослідження (ми спостерігаємо / визначаємо два басейни), тому нам слід шукати спосіб контролю за нею (кажанами про схильність тощо)

— usεr11852 каже Reinstate Monic

5

$t$ $X$ $Y$

Х | Y = i \sim N ({мк}_{i}, σ^{2}) .

$X|Y=i \sim N(\mu_i,\sigma^2).$

Y \sim bernoulli (p)

$Y \sim \operatorname{bernoulli}(p)$

Y

$Y$

X = x

$X=x$

\begin{aligned} P (Y = 1 | X = x) & = \frac{f_{X | Y = 1} (x) P (Y = 1)}{\sum_{i = 0}^{1} f_{X | Y = i} (x) P (Y = i)} \\ = \frac{p e^{- \frac{1}{2 σ^{2}} (x - μ_{1})^{2}}}{p e^{- \frac{1}{2 σ^{2}} (x - μ_{1})^{2}} + (1 - p) e^{- \frac{1}{2 σ^{2}} (x - μ_{0})^{2}}} \\ = \frac{1}{1 + \frac{1 - p}{p} e^{- \frac{1}{2 σ^{2}} (x - μ_{0})^{2} + \frac{1}{2 σ^{2}} (x - μ_{1})^{2}}} \\ = {logit}^{- 1} (β_{0} + β_{1} x) \end{aligned}

$\begin{align} P(Y=1|X=x) &=\frac{f_{X|Y=1}(x)P(Y=1)}{\sum_{i=0}^1 f_{X|Y=i}(x)P(Y=i)} \\&=\frac{pe^{-\frac1{2\sigma^2}(x-\mu_1)^2}}{pe^{-\frac1{2\sigma^2}(x-\mu_1)^2} + (1-p)e^{-\frac1{2\sigma^2}(x-\mu_0)^2}} \\&=\frac1{1+\frac{1-p}pe^{-\frac1{2\sigma^2}(x-\mu_0)^2+\frac1{2\sigma^2}(x-\mu_1)^2}} \\&=\operatorname{logit}^{-1}(\beta_0 + \beta_1 x) \end{align}$

\begin{aligned} β_{0} & = \ln \frac{p}{1 - p} - \frac{1}{2 σ^{2}} (μ_{1}^{2} - μ_{0}^{2}) \\ β_{1} & = \frac{1}{σ^{2}} (μ_{1} - μ_{0}) . \end{aligned}

$\begin{align}\beta_0 &= \ln\frac p{1-p} -\frac1{2\sigma^2}(\mu_1^2-\mu_0^2) \\ \beta_1&=\frac1{\sigma^2}(\mu_1-\mu_0). \end{align}$

So in this sense the two conditional models are compatible.

— Jarle Tufto
джерело

3

The better test is the the one that better addresses your question. Neither is just better on it's face. The differences here are equivalent to those found when regressing y on x and x on y and the reasons for different results are similar. The variance being assessed depends on which variable is being treated as the response variable in the model.

Your research question is terribly vague. Perhaps if you considered direction of causality you'd be able to come to a conclusion about which analysis you want to use. Is age causing people to respond "yes" or is responding "yes" causing people to get older? It's more likely the former, in which case the variance in the probability of a "yes" is what you wish to model and therefore the logistic regression is the best choice.

That said, you should examine assumptions of the tests. Those can be found online at wikipedia or in your text books on them. It may well be that you have good reasons not to perform the logistic regression and, when that happens you may need to ask a different question.

— John
джерело

1

Do you mean "not to perform the logistic regression"?

— mark999