Інтерпретація несуттєвих результатів як "тенденції"


16

Нещодавно двоє різних колег використовували своєрідний аргумент щодо відмінностей між умовами, які мені здаються неправильними. Обидва ці співробітники використовують статистику, але вони не є статистиками. Я початківець у статистиці.

В обох випадках я стверджував, що, оскільки в експерименті не було суттєвої різниці між двома умовами, неправильно було робити загальну претензію щодо цих груп щодо маніпуляцій. Зауважте, що "подання загальної претензії" означає щось на кшталт написання: "Група А використовується X частіше, ніж група B".

Мої співробітники заперечували з тим, що "хоча суттєвої різниці немає, тенденція все ще існує" і "хоча істотної різниці немає, все-таки є різниця". Мені обидва звучать як еквівокація, тобто вони змінили значення "різниці" з: "різниці, яка, ймовірно, є результатом чогось іншого, ніж випадковість" (тобто, статистична значимість), на "будь-яке не -зеро різниця в вимірюванні між групами ".

Чи була відповідь моїх колег правильною? Я не брався за них, бо вони перевершили мене.


Я знайшов ці статті корисно ще не має істотного значення і Незначно Signficant
user20637

Відповіді:


26

Це чудове питання; відповідь багато залежить від контексту.

Загалом я б сказав, що ви праві : заява про некваліфіковану загальну претензію на кшталт "група А використовується частіше, ніж група В" вводить в оману. Було б краще сказати щось на кшталт

в нашій експериментальній групі А використовували X частіше, ніж у групі B, але ми не впевнені, як це складеться серед загальної сукупності

або

хоча група A використовувала X 13% частіше, ніж група B в нашому експерименті, наша оцінка різниці в загальній сукупності не є зрозумілою : правдоподібні значення коливаються від A, використовуючи X 5% рідше, ніж група B до A, використовуючи X 21% частіше, ніж група В

або

група A використовувала X 13% частіше, ніж група B, але різниця не була статистично достовірною (95% ДІ -5% до 21%; р = 0,75)

З іншого боку: ваші колеги мають рацію, що в цьому конкретному експерименті група А використовувала X частіше, ніж група В. Однак люди рідко дбають про учасників певного експерименту; вони хочуть знати, як ваші результати узагальнюватимуться для більшої сукупності, і в цьому випадку загальною відповіддю є те, що ви не можете впевнено сказати, чи буде випадково вибрана група А використовувати X більш-менш часто, ніж випадково вибрана група B.

Якщо вам сьогодні потрібно було зробити вибір щодо того, чи слід застосовувати лікування А чи лікування Б для збільшення використання Х, за відсутності будь-якої іншої інформації або відмінностей у витратах тощо, то вибір А буде найкращим варіантом. Але якщо ви хотіли, щоб вам було зручно, що ви, напевно, робили правильний вибір, вам знадобиться додаткова інформація.

Зауважте, що ви не повинні говорити "немає різниці між групою A і групою B у їх використанні X", або "група A і група B використовують X однакову кількість". Це вірно ні з учасників вашого експерименту (де А використовували X на 13% більше), ні серед загальної сукупності; у більшості реальних контекстів ви знаєте, що дійсно повинен бути якийсь ефект (незалежно від того, наскільки незначний) А проти В; ви просто не знаєте, в якому напрямку йде.


5
Прекрасна відповідь, Бен! Цікаво, чи може ваш другий приклад твердження змінено для ясності для відображення суті першого прикладного твердження: "хоча група A використовувала X 13% частіше, ніж група B в нашому досвіді, різниця у ВИКОРИСТАННІ X МІЖ ГРУПАМИ В ЗАГАЛІ НАСЕЛЕННЯ не було зрозумілим : правдоподібний діапазон, ЩО РАЗЛИЧНО переходив від A, використовуючи X 5% рідше, ніж група B до A, використовуючи X 21% частіше, ніж групу B. "
Ізабелла Гхемент

3
спасибі, частково включена (намагається збалансувати стислість / чіткість та точність ...)
Бен Болкер

8
+1 Я думаю, що багато людей не усвідомлюють, що за відсутності статистичних доказів спостерігаються відмінності можуть бути протилежними тому, що відбувається з населенням!
Дейв

@Dave: навіть якщо наявність "статистичних доказів" (статистично значущого p-значення?), "Спостережувані відмінності можуть бути цілком протилежними тому, що відбувається з населенням"
boscovich

@boscovich Впевнений, я говорив в абсолютах, коли ми робимо статистику, але я вважаю це незначним значенням p, що означає, що ти насправді не маєш поняття, що відбувається з населенням. Принаймні зі значущим значенням p ви досягли певного встановленого порогу доказів, який дозволяє припустити, що ви щось знаєте. Але, безумовно, можна отримати значну p-величину, коли вона неправильно визначила напрямок. Ця помилка повинна час від часу траплятися.
Дейв

3

Це складне питання!

По-перше, спочатку будь-який поріг, який ви можете вибрати для визначення статистичної значущості, є довільним. Той факт, що більшість людей використовують a5% p

H0ABXY H0ppH0 бути правдою (тобто немає тенденції).

pH0H0pH0

p23%23%23%H0:=0.5% p

XβH0: β=0β0

β=0

4%

Я сподіваюся, що це занадто багатослівне пояснення допоможе вам сортувати свої ідеї. Підсумок полягає в тому, що ви абсолютно праві! Ми не повинні наповнювати наші звіти, будь то наукові дослідження, бізнес чи інше, дикими претензіями, підтвердженими незначними доказами. Якщо ви дійсно вважаєте, що існує тенденція, але ви не досягли статистичної значущості, то повторіть експеримент з більшою кількістю даних!


1
+1 для вказівки на те, що будь-який поріг значущості є довільним (і, як наслідок, неможливо вивести абсолютні твердження щодо загальної сукупності з результатів у вибірці - все, що ви отримаєте, є кращими ймовірностями).
Пітер -

0

Значний ефект просто означає, що ви виміряли малоймовірну аномалію (навряд чи, якщо нульова гіпотеза, відсутність ефекту, буде правдою). І як наслідок, слід сумніватися з високою ймовірністю (хоча ця ймовірність не дорівнює p-значенню, а також залежить від попередньої думки).

Залежно від якості експерименту, ви можете виміряти один і той же розмір ефекту , але це може бути не аномалія (малоймовірний результат, якщо нульова гіпотеза буде істинною).

Якщо ви спостерігаєте за ефектом, але він не є значущим, то він дійсно може бути (він є), але він є лише незначним (вимірювання не вказують на те, що нульову гіпотезу слід сумнівувати / відкидати з великою часткою ймовірності). Це означає, що вам слід вдосконалити експеримент, зібрати більше даних, щоб бути впевненішими.

Тож замість ефекту дихотомії проти ефекту без ефекту вам слід перейти до наступних чотирьох категорій:

чотири категорії

Зображення з https://en.wikipedia.org/wiki/Equivalence_test пояснює процедуру двосторонніх t-тестів (TOST)

Ви ніби перебуваєте в категорії D, тест є непереконливим. Ваші колеги можуть неправильно сказати, що є ефект. Однак однаково неправильно сказати, що ефекту немає!


p

@David, я повністю погоджуюся з вами, що значення p є точніше мірою для "ймовірності того, що ми робимо помилку, що обумовлює нульову гіпотезу істинної" (або ймовірності побачити такі крайні результати), і це не так прямо висловити "ймовірність того, що нульова гіпотеза неправильна". Однак я вважаю, що значення p не має використовуватися в цьому "офіційному" розумінні. Значення р використовується для вираження сумнівів у нульовій гіпотезі, для вираження того, що результати вказують на аномалію, а аномалії повинні змусити нас сумніватися у нульовій ....
Sextus

.... у вашому випадку, коли ви показуєте, щоб оскаржити нульовий ефект (киньте виклик ідеї, що монети не можна передбачити), надавши рідкісний випадок (як і дама для дегустації чаю), тоді ми справді повинні мати сумніви в нульовому гіпотеза. На практиці нам знадобиться встановити для цього відповідне значення p (оскільки дійсно можна оскаржити нуль випадково), і я не використовував би рівень 1%. Висока ймовірність сумніву в нулі не повинна порівнюватися з значенням p-значення (оскільки ця ймовірність більше байєсівська концепція).
Секст

Я адаптував текст, щоб зняти це неправильне тлумачення.
Секст

0

Здається, вони сперечаються з p-значенням проти визначення "Trend".

Якщо ви розміщуєте дані на діаграмі запуску, ви можете побачити тенденцію ... пробіг точок сюжету, які показують тенденцію, що піднімається або спадає з часом.

Але, коли ви робите статистику щодо нього, значення р говорить про те, що це не суттєво.

Щоб значення p мало мало значення, але для них бачити тенденцію / пробіг у серії даних ... це повинно бути дуже незначною тенденцією.

Отже, якби це було так, я б повернувся на p-значення .. IE: добре, так, в даних є тенденція / пробіг .., але це настільки незначно і незначно, що статистика дозволяє припустити, що далі не варто аналіз.

Незначна тенденція - це те, що може бути пов’язане з деяким упередженням у дослідженні.

Якби я був менеджером групи, я б сказав їм перестати витрачати час і гроші, копаючись на незначні тенденції, і шукати більш значущі.


0

Здається, що в цьому випадку вони мало обгрунтовують свою заяву і просто зловживають статистикою, щоб дійти висновку, який вони вже мали. Але бувають випадки, коли нормально не бути настільки суворими з обрізанням p-val. Це (як використовувати статистичну значущість та обмеження рівня) - це дискусія, яка триває з моменту, коли Фішер, Нейман та Пірсон вперше заклали основи статистичного тестування.

Скажімо, ви будуєте модель, і ви вирішуєте, які змінні включати. Ви збираєте небагато даних для попереднього дослідження потенційних змінних. Зараз є ця змінна, яка справді зацікавлена ​​в команді бізнесу, але ваше попереднє дослідження показує, що ця змінна не є статистично значимою. Однак «напрямок» змінної відповідає тому, що очікувала бізнес-команда, і хоча вона не відповідала межі значущості, вона була близькою. Можливо, підозрювалося, що вона має позитивну кореляцію з результатом, і ви отримали бета-коефіцієнт, який був позитивним, але pval був трохи вище відрізку .05.

У такому випадку ви можете піти наперед і включити його. Це свого роду неофіційна байєсівська статистика - існувала сильна попередня думка, що це корисна змінна, і початкове розслідування її показало певні докази в цьому напрямку (але не статистично значущі докази!), Тож ви даєте їй користь сумнівів і тримати його в моделі. Можливо, при більшій кількості даних буде зрозуміліше, який стосунок він має з результатом, що цікавить.

Іншим прикладом може бути те, коли ви будуєте нову модель і дивитесь на змінні, які використовувались у попередній моделі - ви можете продовжувати включати граничну змінну (ту, яка є на суті значущості), щоб підтримувати деяку наступність від моделі моделювати.

В основному, залежно від того, що ви робите, є причини бути більш менш суворими щодо подібних речей.

З іншого боку, також важливо пам’ятати, що статистична значимість не повинна означати практичного значення! Пам'ятайте, що в основі всього цього розмір вибірки. Зберіть достатньо даних, і стандартна помилка оцінки зменшиться до 0. Це призведе до різниці, незалежно від того, наскільки мало, "статистично значущого", навіть якщо ця різниця не може становити нічого в реальному світі. Наприклад, припустимо, що ймовірність посадки певної монети на голови становила .500000000000001. Це означає, що теоретично ви могли б розробити експеримент, на якому можна зробити висновок, що монета не є справедливою, але з усіма намірами та цілями монета може розглядатися як справедлива монета.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.