Продовження: У змішаному діапазоні між графіком ANOVA, який оцінюється середньоквадратичними або фактичними SE


14

Наразі я закінчую статтю і наткнувся на це питання з вчорашнього дня, яке змусило мене поставити те ж саме питання. Чи краще надати моєму графіку фактичну стандартну помилку в даних або оцінку, отриману з моєї ANOVA?
Оскільки питання від вчорашнього дня було досить невизначеним, а моє досить специфічним, я вважав, що було б доцільно поставити це подальше запитання.

Докладніше:
я провів експеримент у якійсь когнітивній психології (умовне міркування), порівнюючи дві групи (індуктивна та дедуктивна інструкція, тобто маніпулювання між суб'єктами) з двома маніпуляціями всередині суб'єктів (тип проблеми та зміст проблеми, кожна з два рівні фактора).

Результати виглядають приблизно так (ліва панель із оцінками SE з результату ANOVA, права панель із SE, оцінені за даними): alt текст
Зауважте, що різні лінії представляють дві різні групи (тобто маніпулювання між суб'єктами) та внутрішньо- Маніпуляції з суб'єктами будуються на осі x (тобто рівні коефіцієнта 2х2).

У тексті я надаю відповідні результати ANOVA і навіть планові порівняння критичної перехресної взаємодії в середині. SE є там, щоб дати читачеві підказку про мінливість даних. Я віддаю перевагу ДП над стандартними відхиленнями та довірчими інтервалами, оскільки це не є загальним для побудови СД, і виникають серйозні проблеми при порівнянні ІС між суб'єктами та між суб'єктами (як те ж саме, що стосується ІП, це не так часто, щоб помилково зробити суттєві відмінності від них).

Повторю моє запитання: чи краще побудувати СЕ, оцінену з ANOVA, або я повинен побудувати СЕ, оцінений із необроблених даних?

Оновлення:
Я думаю, що я повинен бути трохи зрозумілішим у тому, що оцінюють ПТ. Вихід ANOVA в SPSS дає мені estimated marginal meansвідповідні SE та CI. Це те, що накреслено в лівій графіку. Наскільки я це розумію, вони повинні бути СД залишків. Але, зберігаючи залишки, їх СД не є якось близьким до розрахункових СЕ. Отже, вторинним (потенційно специфічним для SPSS) питанням було б:
Що це за SE?


ОНОВЛЕННЯ 2: Нарешті мені вдалося написати R-функцію, яка повинна бути в змозі скласти сюжет, як це мені нарешті сподобалось (див. Мою прийняту відповідь) самостійно. Якщо у когось є час, я дуже вдячний, якщо ви могли це поглянути. Ось.


1
Чи можете ви уточнити прогнозовану змінну "середнє схвалення" ?. Це шкала 0-100, яку використовували учасники для відповіді, чи це міра частки випробувань, на яких учасники сказали "так, я схвалюю" (проти "ні, я не схвалюю"). Якщо остання, то недоцільно аналізувати ці дані як пропорції. Натомість вам слід проаналізувати необроблені дані пробних даних, використовуючи модель змішаних ефектів з функцією біноміального зв’язку.
Майк Лоуренс

Вибачте, що пропустіть це: це 0-100 шкали відповідей.
Генрік

У вас багато 0-х чи 100-х? Якщо ні, то я б розглядав поділ на 100 та виконання перетворення logit, щоб врахувати обмеження діапазону в крайніх межах. Це, по суті, те, що досягається функцією біноміального зв’язку, коли у вас є двійкові дані, але корисно, якщо у вас є лише дані пропорції, як, здається, тут. Однак ви не можете увімкнути перетворення 1 або 0, тому вам доведеться підкинути будь-які відповіді 100 або 0.
Майк Лоуренс

На жаль, я зрозумів, що мій перший коментар не на 100% правильний. Кожне графічне середнє значення означає середнє значення двох відповідей за шкалою 0-100. У цих даних дуже багато значень, близьких до 100, а деякі безпосередньо на 100, але насправді дуже мало на 0 і близько 0. У вас є література для обгрунтування вашої рекомендації?
Генрік

1
Інші люди із візуалізації даних можуть стверджувати, що гістограми є злочином проти людства: Op
Майк Лоуренс

Відповіді:


9

Як наслідок натхненних відповідей та обговорень на моє запитання, я побудував наступні сюжети, які не покладаються на жодні параметри на основі моделі, але представляють основні дані.

Причини полягають у тому, що незалежно від того, який тип стандартної помилки я вибираю, стандартна помилка є параметром на основі моделі. Отже, чому б не представити основні дані і тим самим не передати більше інформації?

Крім того, якщо вибирати ДП з ANOVA, у мене виникають дві проблеми.
По-перше, (принаймні для мене) якось незрозуміло, що SPSSнасправді є ДП з ANOVA Output ( див. Також цю дискусію, у коментарях ). Вони якимось чином пов'язані з MSE, але як саме я не знаю.
По-друге, вони розумні лише тоді, коли виконані основні припущення. Однак, як показують наступні сюжети, припущення про однорідність дисперсії явно порушуються.

Сюжети з коробками: alt текст

Діаграми з усіма точками даних: alt текст

Зауважте, що дві групи дислоковані трохи ліворуч або праворуч: дедуктивна зліва, спонукальна справа. Засоби все ще нанесені чорним кольором, а дані або бокс-схеми на задньому плані - сірим кольором. Відмінність між ділянками зліва та праворуч полягає в тому випадку, якщо засоби розміщені так само, як точки або коробки, або якщо вони представлені централізовано.
Вибачте за неоптимальну якість графіків та відсутніх міток осі x.

Залишається питання, який із наведених сюжетів вибрати саме зараз. Я мушу подумати над цим і запитати іншого автора нашої роботи. Але саме зараз я віддаю перевагу "балам із засобами, дислокованими". І я все ще був би дуже зацікавлений у коментарях.


Оновлення: Після деякого програмування мені нарешті вдалося написати R-функцію, щоб автоматично створити сюжет на зразок точки з дислокацією. Перевірте це (і надішліть мені коментарі) !


Чудовий Генрік. Я також віддаю перевагу "балам із засобами дислокації". Зв'язування об'єктів із сегментами рядків може виглядати занадто захаращеним. Шкода. Щодо однорідності дисперсії, я трохи більше сангвінік. Проблема дисперсії може бути не такою поганою, як це виглядає в необроблених даних. Здебільшого я підозрюю, що ви порівнюєте контрасти - в межах групових відмінностей. Контрастні відхилення будуть більш однорідними, ніж дисперсії необроблених даних. Якщо порівнювати необроблені заходи з різними відхиленнями (наприклад, індуктивний та дедуктивний у групі MP-valiad & правдоподібна), непараметричний тест може бути використаний як резервне копіювання.
Thylacoleo

1
Мені подобаються точки з середнім значенням по центру. Він має більш вірне представлення ліній. Ви можете зробити очки меншими.
Джон

8

Ви не знайдете жодної розумної панелі помилок для інфекційних цілей з цим типом експериментальної конструкції. Це стара проблема, яка не має чіткого рішення.

Здається, неможливо мати тут оцінку SE, яку ви маєте. У такій конструкції є два основні помилки, між помилкою S і всередині. Зазвичай вони сильно відрізняються один від одного і не порівнянні. Просто насправді немає жодної хорошої панелі помилок, яка б представляла ваші дані.

Можна стверджувати, що необгрунтовані ПЕ або СД з даних є найважливішими в описовому, а не в інфекційному розумінні. Вони або розповідають про якість оцінки центральної тенденції (SE) або про мінливість даних (SD). Однак навіть тоді це дещо нечесно, бо те, що ви тестуєте та вимірюєте в межах S, - це не те, яке значення має, а скоріше ефект змінної S. Отже, повідомлення про мінливість вихідних значень є безглуздим або оманливим щодо ефектів S.

Я, як правило, не схвалював смужок помилок на таких графах та суміжних графах ефектів, що вказує на мінливість ефектів. На цьому графіку може бути CI, який є цілком розумним. Див. Masson & Loftus (2003) для прикладів графіків ефектів. Просто усуньте їх ((майже повністю марні) смужки помилок навколо середніх значень, які вони показують, і просто використовуйте смуги помилок ефекту.

Для вашого дослідження я спершу перепрофілював би дані, як це 2х2х2 дизайн (2-панельний 2х2), а потім побудує графік негайно поруч із графіком з довірчими інтервалами дійсності, правдоподібності, інструкцій та ефектів взаємодії. Помістіть SD та SE для груп інструкцій в таблицю або в тексті.

(очікуючи очікуваної відповіді на аналіз змішаних ефектів;))

ОНОВЛЕННЯ: Добре, після редагування зрозуміло, що єдине, що ви хочете, - це використання SE для показу якості оцінки вартості. У такому випадку використовуйте значення вашої моделі. Обидва значення базуються на моделі, і у вашому зразку немає «справжнього» значення. Скористайтеся тими з моделі, яку ви застосували до своїх даних. Але переконайтеся, що ви попередили читачів у підписі про те, що ці SE не мають жодного зараженого значення для ваших S ефектів чи взаємодій.

ОНОВЛЕННЯ2: Озираючись на представлені вами дані ..., це підозріло схоже на відсотки, які не слід було б аналізувати в першу чергу з ANOVA. Чи є, чи ні, це змінна, яка досягає 100 і має зменшення відхилень у крайніх межах, тому її все одно не слід аналізувати за допомогою ANOVA. Мені дуже подобаються ваші сюжети rm.plot. Я б все-таки спокусився зробити окремі графіки між умовами, показуючи необроблені дані та в умовах, що показують дані з видаленою мінливістю S.


1
У мене є вагомі (нестатистичні) причини побудувати графік таким, який він є: Ви безпосередньо бачите відповідь на питання дослідження. Крім того, я не шукаю смужок помилок для інфекційних цілей, оскільки знаю про проблеми, що знаходяться між ними. Але, завдяки чіткому вказівці мене на Mason & Loftus, я, мабуть, забув, що вони мали змішаний приклад. Я маю подумати над тим, чи відповідає це моєму призначенню.
Генрік

7

Це виглядає як дуже приємний експеримент, тож вітаємо!

Я погоджуюся з Джоном Крісті, це змішана модель, але за умови, що вона може бути чітко визначена в дизайні ANOVA (і збалансована), я не бачу, чому це не можна так сформулювати. Два фактора всередині та 1 фактор між суб'єктами, але між фактором суб'єктів (індуктивний / дедуктивний) чітко взаємодіють (модифікують) ефекти всередині суб'єктів. Я припускаю, що накреслені засоби є з моделі ANOVA (LHS), і тому модель правильно вказана. Молодці - це нетривіально!

Деякі моменти: 1) "Оцінка" проти "фактична" "помилка" - хибна дихотомія. Обидва беруть за основу модель і складають оцінки на цій основі. Якщо модель є розумною, я б стверджував, що краще використовувати оцінки на основі моделі (вони базуються на об'єднанні більших зразків). Але, як згадує Джеймс, помилки відрізняються залежно від порівняння, яке ви робите, тому просте представлення неможливе.

2) Я вважаю за краще бачити графіки поля або окремі точки даних, нанесені на графік (якщо їх не так багато), можливо, з деяким боковим тремтінням, тож можна виділити точки з однаковим значенням.

http://en.wikipedia.org/wiki/Box_plot

3) Якщо ви повинні побудувати оцінку середньої похибки, ніколи не будуйте СД - вони є оцінкою стандартного відхилення вибірки і стосуються мінливості популяції, а не статистичного порівняння засобів. Як правило, краще побудувати 95% довірчі інтервали, а не SE, але не в цьому випадку (див. Пункт 1 та точку Івана)

4) Одне питання, що стосується цих даних, - це припущення, що однакова дисперсія, ймовірно, порушена, оскільки дані "МП" Дійсні та правдоподібні "явно обмежені 100-відсотковою межею, особливо для дедуктивних людей. Я підкидаю на власну думку, наскільки важливим є це питання. Перехід до логіту зі змішаними ефектами (біноміальна ймовірність) - це, мабуть, ідеальне рішення, але це важко запитати. Можливо, найкраще дозволити іншим відповісти.


Я не зовсім впевнений, що я розумію вашу рекомендацію в 1. Оскільки фактичні SE [тобто SD / sqrt (n)] та прогнозована SE є обома моделями, ви рекомендуєте використовувати на основі моделі. То який із них? Або ви маєте на увазі: перейдіть зі складнішою моделлю (тут: ANOVA), тому що обидві моделі розумні.
Генрік

повністю погодитись з пунктом 1
Іван

Привіт Генріку, простий приклад - порівняйте дві групи (x1, x2), припущені ND. Припущення та моделі: 1) незалежно відібрано вибірки, різна дисперсія. SE для x1, x2 оцінюються окремо. Це неявно припущення у багатьох графічних презентаціях. Орієнтовні ПП відрізняються. 2) Індеп., Той же вар. Звичайне припущення ANOVA. Оцініть SE за допомогою об'єднаного RSS. Оцінка є більш обґрунтованою, якщо припущення ІФ вірні. 3) Кожен х1 має пару x2. SE, оцінені з x1-x2. Для їх ефективного побудови потрібно побудувати різницю x1-x2. Після того, як ви змішаєте 1) та 2), у вас виникає реальна проблема побудови значущих SE або CI.
Thylacoleo

Генрік, коментар до сюжету. Скільки предметів у вас є? Настійно рекомендую будувати дані окремо та використовувати сегменти рядків для зв’язку осіб. (Сегменти ліній, що пов'язують засоби, є оманливими.) Не потрібно будувати SE. Ідея полягає у візуальній підтримці вашого статистичного аналізу. За умови, що сюжет не стане занадто захаращеним, читач повинен побачити (наприклад), що явна більшість балів зростає від MP-дійсного імплаусу до AC-inval-plaus для індуктивної групи та знижується для групи дедуктивних. Дивіться: jstor.org/stable/2685323?seq=1 Особливо Рисунки 1 та 9 нижніх панелей.
Thylacoleo

3

Останнім часом я використовую змішаний аналіз ефектів, і в спробі розробити супровідний підхід до аналізу візуальних даних я використовую завантажувальну систему ( див. Опис тут ), який дає довірчі інтервали, які не сприйнятливі до проблем між звичайних КІ.

Крім того, я б уникнув відображення декількох змінних на ту саму візуальну естетику, як ви це робили на графіку вище; у вас є 3 змінні (MP / AC, дійсні / недійсні, правдоподібні / неправдоподібні), відображені на вісь x, що ускладнює розбір дизайну та шаблонів. Я б запропонував замість того, щоб відображати, скажімо, MP / AC на осі x, допустимі / недійсні для граней стовпців і правдоподібні / неправдоподібні для фасетних рядків. Перевірте ggplot2 в R, щоб легко досягти цього, наприклад:

library(ggplot2)
ggplot(
    data = my_data
    , mapping = aes(
        y = mean_endorsement
        , x = mp_ac
        , linetype = deductive_inductive
        , shape = deductive_inductive
)+
geom_point()+
geom_line()+
facet_grid(
    plausible_implausible ~ valid_invalid
)

Майк, в мові пакетаR функція pvals.fnc робить MCMC для оцінки гіпотез lmer-моделі - однак вона не обробляє конструкції з випадковими нахилами - що приводить мене до підозри, що з певних причин робити MCMC з випадковими нахилами якимось чином проблематичним, ти остаточно знаєш, що такої проблеми немає?
russellpierce

Я мушу визнати, що досі не зрозумів, як працює MCMC, що є однією з причин, коли я вибрав замість завантаження. Хоча завантажувальне завантаження повинно бути можливим із випадковими нахилами, як ви інтимували, можливо, pvals.fnc не дозволяє вам робити CI для моделей зі випадковими нахилами, оскільки це з певних причин недійсне, і, можливо, може бути, що ця недійсність поширюється і на завантаження таких моделей. Я не думаю, що інтуїтивно може виникнути якась проблема з завантаженням, але це може бути функцією мого обмеженого досвіду.
Майк Лоуренс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.