Використання ANOVA у відсотках?


13

У мене є таблиця з чотирма групами (4 групи ІМТ) як незалежна змінна (коефіцієнт). У мене залежна змінна величина - це "відсоток матері, що палить під час вагітності".

Чи дозволено використовувати для цього ANOVA або мені потрібно використовувати хі-квадрат або якийсь інший тест?

Відповіді:


21

Існує різниця між наявністю бінарної змінної як залежної змінної і пропорцією як залежної змінної.

  • Бінарна залежна змінна :

    • Це звучить як те, що у вас є. (тобто кожна мати або курила, або вона не курила)
    • У цьому випадку я б не використовував ANOVA. Логістична регресія з якоюсь формою кодування (можливо, фіктивне кодування) для категоричної змінної предиктора є очевидним вибором, якщо ви концептуалізуєте бінарну змінну як залежну змінну (інакше ви можете зробити чи-квадрат).
  • Пропорція як залежна змінна :

    • Це не схоже на те, що у вас є. (тобто ви не маєте даних про частку загального часу неспання, що мати курила під час вагітності у зразку куріння вагітних жінок).
    • У цьому випадку підходи ANOVA та стандартної лінійної моделі в цілому можуть бути або не бути розумними для ваших цілей. Дивіться відповідь @Ben Bolker для обговорення питань.

Для бінарної залежної змінної, якщо я маю лише зведені дані для двійкових пропорцій (тобто # у групах A, B і C, а також # успіхів у групі A, B і C), а не власне необроблені дані, як ми можемо йти на використання логістичної регресії? Мені лише знайоме використання його з необробленими даними.
Браян

15

Це залежить від того, наскільки близькі відповіді в різних групах до 0 або 100%. Якщо екстремальних значень багато (тобто багато значень, накопичених на 0 або 100%), це буде складно. (Якщо ви не знаєте "знаменників", тобто кількості предметів, з яких обчислюються відсотки, тоді ви все одно не можете використовувати підходи до таблиці непередбачених ситуацій.) Якщо значення в групах більш розумні, ви можете перетворити змінна відповідь (наприклад, класична дуга-квадрат-корінь або, можливо, перетворення logit). Існує безліч графічних (кращих) та нульових гіпотезних тестувань (менш бажаних) підходів для вирішення того, чи ваші трансформовані дані адекватно відповідають припущенням ANOVA (однорідність дисперсії та нормальність, перша важливіша за останню). Графічні тести: боксплоти (однорідність дисперсії) та графіки QQ (нормальність) [останні слід робити в групах або на залишках]. Тести нульової гіпотези: наприклад, тест Бартлетта або Флігнера (гомогенність дисперсії), Шапіро-Вілк, Жарк-Бера тощо.


11

Потрібно мати необроблені дані, щоб змінна відповіді становила 0/1 (не дим, дим). Тоді можна скористатися бінарною логістичною регресією. Неправильно групувати ІМТ в інтервали. Точки вирізу невірні, напевно, не існує, і ви офіційно не перевіряєте, чи ІМТ асоціюється з курінням. Ви зараз перевіряєте, чи ІМТ з великою частиною викинутої інформації пов'язаний з курінням. Ви побачите, що особливо зовнішні інтервали ІМТ досить неоднорідні.


2
@Frank - чому "неправильно" групувати ІМТ? це здається цілком розумним, якщо результати належним чином інтерпретуються. Ви цілком можете перевірити, наприклад, чи пов’язані «куріння з вагою», «здорова вага», «надмірна вага» та «ожиріння» курінням, де ці терміни визначаються діапазоном ІМТ. Я не бачу тут "неправильного".
ймовірністьлогічного

Я вважаю, що ОП працює з загальним набором даних з інструкціями і може не мати вихідного ІМТ. Хоча для дискретизації постійних регресорів взагалі не ідеально, це не "неправильно". Це може бути навіть корисним, щоб вдатися до цього, коли ми підозрюємо, що вимірювання галасливі і немає іншого звернення. Дійсно, справжня гіпотеза, яку ми хотіли б перевірити, полягає в тому, що ожиріння пов'язане з курінням; ІМТ - це лише один із способів вимірювання ожиріння (і є свої проблеми з того, що я розумію).
JMS

4
Навіть коли вимірювання шумні, аналіз змінних як суцільних є кращим. Категоризація ІМТ створює більше проблем, ніж різні варіанти аналізу можуть виправити. Насправді оцінки при категоризації більше не мають наукового тлумачення. Наукова кількість - це значення, яке має значення поза поточним експериментом. Ви знайдете, що групові оцінки (наприклад, коефіцієнти журналу, що Y = 1 для високих та низьких інтервалів X) є функціями всього набору спостережуваних ІМТ. Наприклад, якщо додати до вибірки більш надзвичайно високі або надзвичайно низькі ІМТ, "ефекти" посиляться.
Френк Харрелл

Для тих, хто встановив R та RStudio, інтерактивну демонстрацію можна знайти на biostat.mc.vanderbilt.edu/BioMod - дивіться зелену марку NEW. Вам потрібно завантажити скрипт в RStudio, а також встановити пакет Hmisc.
Френк Харрелл

"Навіть коли вимірювання шумні, аналіз змінних як безперервних є вищим" Це просто неправильно (загальність цього, тобто - зазвичай це правда). Уявіть, у вас є безперервний коваріат, коли похибка в його вимірюванні збільшується, наприклад, з його величиною. Звичайно, найкраще зробити моделювання помилки або отримати кращі вимірювання тощо. Але сказати, що це неправильно, це просто занадто сильне твердження.
JMS

3

Якщо ви вирішили зробити звичайну ANOVA за пропорційними даними, важливо перевірити припущення про однорідні відхилення помилок. Якщо (як це часто зустрічається з відсотковими даними), відхилення помилок не є постійними, більш реалістичною альтернативою є спробувати бета-регресія, яка може враховувати цю гетеросцедастичність в моделі. Ось документ, який обговорює різні альтернативні способи поводження зі змінною відповіді, яка є відсотком або пропорцією: http://www.ime.usp.br/~sferrari/beta.pdf

Якщо ви використовуєте R, корисний може бути корисний бетарег пакету .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.