Значення 2,04 стандартних помилок? Значно відрізняються засоби, коли довірчі інтервали широко перетинаються?


10

Зображення нижче - з цієї статті в « Психологічній науці» . Колега вказав на це дві незвичайні речі:

  1. Згідно з підписом, рядки помилок показують "± 2,04 стандартних помилок, довірчий інтервал 95%". Я коли-небудь бачив ± 1,96 SE, що використовується для 95% ІС, і я не можу знайти нічого про те, що 2,04 SE використовується для будь-яких цілей. Чи має 2,04 SE якесь прийняте значення ?
  2. У тексті зазначено, що планові парні порівняння знайшли значні відмінності для середньої величини пуску в похибці порівняно з правильними передбачуваними випробуваннями (t (30) = 2,51, p <.01) та помилками проти правильних непередбачуваних випробувань (t (30) = 2,61, p <.01) (тест омнібуса F також був значущим при p <.05). Однак на графіку показано смужки помилок для всіх трьох умов, які суттєво перекриваються. Якщо інтервали ± 2,04 SE перекриваються, як значення можуть істотно відрізнятися при p <0,05? Перекриття досить велике, що я припускаю, що інтервали ± 1,96 SE також перекриваються.

гістограма, що показує 2,04 смужки помилок SE


1
Чудові відповіді. Я хотів би підкреслити, що (як уже зазначалося) порівняння 95% довірчих інтервалів не те саме, що проведення статистичних тестів на рівні значущості 0,05. Є, звичайно, документи, які займаються цим. Якщо довірчі інтервали є єдиною доступною статистикою, Payton та ін пропонують використовувати 85% інтервали для рівня значущості 0,05 для даних Гаусса. Вони продовжують свою роботу тут .
Мартін Берглунд

1
Дякую, @Martin. Щоб закрити цикл: хоча я не переглянув папір Payton et al , основа для 85% зрозуміла: z-значення, що відповідає 84%, при квадраті дорівнює2; додавання двох з цих дає4; його квадратний корінь2, що в значній мірі z-значення, що відповідає інтервалу 95%. Я вважаю, що Пейтон округлила 84% до 85%. Іншими словами, їх рекомендацію (однак вона була отримана) можна пояснити тим самим аналізом, який я надав.
whuber

@MartinBerglund та whuber Подивились на ваші відповіді, коли цікавились, чи був мій незалежний розрахунок довірчих інтервалів 83,4% для проведення статистичних тестів на рівні 0,05 - очевидно, ні! Дякую за паперовий довідник, дуже корисно.
Трістан

Відповіді:


11
  1. 2.04є множником, який потрібно використовувати при розподілі Стьюдента з 31 ступенем свободи. Цитати підказують30 ступеня свободи доречна, і в цьому випадку правильний множник 2.0422722.04.

  2. Засоби порівнюються з точки зору стандартних помилок . Стандартна помилка, як правило,1/н разів більше стандартного відхилення, де н (імовірно, навколо 30+1=31тут) - розмір вибірки. Якщо підписи правильно називають ці бари "стандартними помилками", то стандартні відхилення повинні бути принаймні315.5 разів більше, ніж значення приблизно 6як показано. Набір даних31 позитивні значення при стандартному відхиленні 6×5.5=33 і середнє значення між 14 і 18 повинні були мати більшість значень поруч 0і невелика кількість колосальних великих цінностей, що здається цілком малоймовірним. (Якби це було так, то весь аналіз, заснований на статистиці студентських t, все одно був би недійсним.) Ми повинні зробити висновок, що ця цифра, ймовірно, показує стандартні відхилення, а не стандартні помилки .

  3. Порівняння засобів не ґрунтується на перекритті (або їх відсутності) довірчих інтервалів. Два 95% ІС можуть перетинатися, але все ще можуть вказувати на дуже значні відмінності. Причина полягає в тому, що стандартна помилка різниці в ( незалежних ) засобах - принаймні приблизно, квадратний корінь суми квадратів стандартних помилок засобу. Наприклад, якщо стандартна помилка середнього значення14 дорівнює 1 і стандартна похибка середнього значення 17 дорівнює 1, то CI першого значення (використовуючи кратне число 2.04) пошириться від 11.92 до 16.08 і CI другого пошириться від 14.92 до 19.03, зі значним перекриттям. Тим не менш, SE різниця буде рівною12+121,41. Різниця засобів,17-14=3, більше, ніж 2.04 разів ця величина: вона значна.

  4. Це попарні порівняння. Окремі значення можуть виявляти велику мінливість, хоча їх відмінності можуть бути дуже послідовними. Наприклад, набір пар на кшталт(14,14.01), (15,15.01), (16,16.01), (17,17.01)і т. д. демонструє зміну в кожному компоненті, але відмінності послідовно 0,01. Хоча ця різниця невелика порівняно з будь-яким компонентом, проте її послідовність показує, що вона є статистично значною.


Дуже дякую. У статті ніде не зазначено, що тести після спеціальних досліджень були парними порівняннями між відповідями кожного учасника на два типи випробувань, і тому я прийшов до висновку, що вони трактують це як порівняння між суб'єктами (хоча це було б менш відповідний і менш потужний). Я думаю, ви повинні мати рацію, і вони робили більш чутливий (і складніше для графічного) тест. Що стосується пункту №3, то моя єдина відповідь полягає в тому, що мені чітко потрібно вивчити деякі статистичні дані ...
жовтень

Я підбирав фразу у вашому запитанні "заплановані попарні порівняння". Хоча решта результатів, які ви цитуєте, припускають, що вони не були парними порівняннями, але, швидше за все, виходили з розрахунку, аналогічного тому, що в пункті №3 моєї відповіді.
whuber

Я мав на увазі під цим те, що вони робили пост-спеціальні тести, порівнюючи два з трьох умов безпосередньо один одного, а не робили тест всебічного, який порівнював усі 3 умови. Вибачте за плутанину. Але тепер, коли я дивлюся на це, я думаю, що ви все-таки були правильні. Те, як вони повідомляють про статистику омнібусного тесту ( F(2,60)=5.64, p<.05), означає, що це був тест повторних заходів, і тому, ймовірно, були і post-hoc тести.
жовтень

Дякую за чудову відповідь. "Причина полягає в тому, що стандартна помилка різниці в (незалежних) засобах - принаймні приблизно, квадратний корінь суми квадратів стандартних помилок засобів." Я шукаю посилання, які обговорюють це, але не знайшли жодної. Буду вдячний у цьому відношенні. Можливо, хтось міг би мені допомогти?
Йоганнес

@ Johannes Площа SE пропорційна дисперсії середньої вибірки. (Константа пропорційності залежить від визначення людини і може дещо відрізнятися залежно від розміру вибірки.) Незалежність передбачає дисперсію розподілу вибірки різниці середніх значень - це сума квадратів SE.
whuber

3

Частина плутанини тут - заплутане представлення даних. Схоже, це повторне проектування заходів, але смуги помилок - це довірчі інтервали того, наскільки добре було оцінено справжнє середнє значення. Основна мета повторних заходів - уникнути збору достатньої кількості даних, щоб отримати оцінку якості вихідної середньої величини. Тому рядки помилок, такі як представлені, насправді майже не мають стосунку до розповіданої історії. Значення критичного інтересу - ефект. З метою графіків, щоб виділити основну точку історії, графічні ефекти та їх інтервали довіри були б більш доречними.


Дякую! Я трохи намагався висловити, чому графік здався, що він не представляє аналіз.
октябрь
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.