Як би ви пояснили статистичну значимість людям, які не мають статистичного походження?


11

Передумови:
мені довелося провести аналіз даних для клієнта (якогось юриста), який був абсолютно початківцем статистики. Він запитав мене, що означає термін "статистична значимість", і я дійсно намагався пояснити це ... але оскільки я не вмію пояснювати речі, я не зміг;

Відповіді:


15

Відмінності трапляються в результаті випадковості.

Коли ми віримо, що щось є статистично значущим, ми вважаємо, що різниця більша, ніж це можна розумно пояснити як випадковий випадок.


Мені подобається використання випадкових випадків, але я думаю, що це дуже вводить в оману щодо того, як зазвичай використовується тестування на значимість. Наприклад, великий розмір вибірки означає, що ви майже завжди отримаєте значення завдяки «випадковій» базовій різниці. Досить широко прийнято вважати, що ці результати можна назвати "статистично значимими", незважаючи на те, що вони пояснюються досить випадково.
колба

@Flask: в якому сенсі випадкові відмінності через випадковість?
Scortchi

@Scortchi Якщо було проведено рандомізацію, то різниці можуть бути наслідком випадковості. Дивіться тут . Навіть якщо це було виконано, щось може ввести зміщення пізніше. Дивіться тут . Якщо рандомізація не проводилася, це може бути наслідком випадковості або упередженості слідчого або будь-якої кількості причин.
колба

1
Корисна відповідь, за винятком того, що вона стосується лише тестів на відмінності.
rolando2

2
+1 Це відмінна відповідь, оскільки вона уникає аркани p-значень, ймовірностей, розподілу, нульових гіпотез тощо, і отримує право до того, що стосується того, з чим буде мати справу більшість юристів. Про те, що це може бути не всебічним, є суттєвим: деталі та варіанти можуть бути оброблені пізніше. Якщо я наполягаю на вдосконаленні цього, головна зміна, яку я хотів би зробити, підкреслила б, що переконання про статистичну значимість ґрунтуються на даних : це дозволило б відрізняти цей опис від, скажімо, теологічних вірування.
whuber

3

ПРИМІТКА: у цій відповіді я хочу наголосити, що статистична значимість є корисним інструментом, але також відрізняється від істини.

Візьміть пачку з 52 карт. Якщо мій клієнт невинний, це звичайний пакет карт, 13 сердець. Якщо мій клієнт бреше, це фіксований пакет, і всі 52 картки - це серця.

Я малюю першу карту, і це серце. Ага, винен! Ну, очевидно, здоровий глузд говорить нам, що це не так: був один із чотирьох випадків, що це станеться, навіть якщо він невинний. Ми не маємо статистичної значущості лише від перегляду однієї карти.

Тож ми малюємо другу карту. Ще одне серце. Hhhmmm ... безумовно, винна тоді! Що ж, у цих 51 картці було ще 12 сердець, тож не неможливо. Математика (13/52 * 12/51 = 0,0588) говорить нам, що це відбувається приблизно в 6% часу, навіть якщо не винна. Для більшості вчених це все одно не зараховується.

Намалюйте третю карту, ще одне серце! Три поспіль. Шанси цього трапляються (13/52 * 12/51 * 11/50 = 0,01294), тому трохи більше 1% часу це може трапитися випадково.

У більшості наук 5% використовується як точка відключення. Тож якщо у вас немає інших доказів, крім цих трьох карт, у вас є статистично значимий результат, що він винен.

Важливим моментом є те, що чим більше карток вам дозволено дивитись, тим краще ви впевнені у своїй провині, що є ще одним способом сказати, чим вища стає статистична значимість.

ПРИМІТКА: ви ніколи не маєте доказів своєї вини, якщо вам не дозволяють переглянути 14 карток. З звичайним пакетом карт теоретично можливо намалювати 13 сердець поспіль, але 14 неможливо. [Окрім педантів: припустимо, цифри на картках не видно; усі картки - один із чотирьох можливих костюмів, і це все.]

ПРИМІТКА: у вас є доказ його невинуватості, коли ви малюєте будь-яку картку, крім серця. Це тому, що було лише дві можливі пачки: звичайна або всі серця. Реальне життя складніше, а математика теж ускладнюється.

До речі, якщо ваш клієнт не є гравцем на картці, спробуйте Monopoly: кожен закидає двічі шість разів; але якщо хтось котиться двічі шість кожного разу, коли ви ставитесь підозріло. Статистика просто дозволяє нам вказати точну кількість того, наскільки ми повинні бути підозрілими.


3

Моя власна порада - не говорити про наступні речі:

  1. p-значення,
  2. тестова статистика,
  3. ймовірність того, що щось станеться випадково.

Не будьте занадто жорсткі щодо себе щодо адвоката. Це освічена людина, яка провів принаймні семестр в університетському класі статистики, і не трохи його застрягло. Це та сама історія практично для кожного іншого невченого, з яким я працював - статистичне значення не залишається . Це занадто неприродне поняття.

Я закликаю вас пояснити статистичну значимість з точки зору доказів . Класичні статистики кодували докази за шкалою від 0 до 1, де менші значення складають більше доказів, а 0,05 - це місце, де умовно намальована лінія.


imo ідея сиг. може дотримуватися невчених; те, що часто сприймається як неприродне, - це технічне визначення, якщо люди так далеко дістаються. Щодо доказів, звичайно, це стосується доказів: питання полягає в тому, як можна ставитись до доказів статистично, щоб прийняти рішення про сиг.
rolando2

Мені подобається ваш оптимізм, але я не погоджуюся з тим, що для типової людини очевидно, що статистична значимість стосується лише доказів. Я думаю, що вони сприймають це як певний перемикач при переверненні, коли ваш набір даних стає достатньо великим і всі обчислені цифри тепер якось є "дійсними". Ви стверджуєте, що для непересічних людей важливо знати, як докази кількісно оцінюються, тому будьте готові поговорити про ймовірності, обчислені під гіпотезою, що ви, мабуть, не вірили, що це правда в першу чергу.
Бен Огорек

Ах, але якщо ви говорите про докази, ви входите до Байєсової землі.
Артур Б.

1
Я не думаю, що баєси мають «доказів» (концепцію), хоча вони, безумовно, формалізували це. Я б заперечував, що невелика р-величина є свідченням чогось.
Бен Огорек

1

"Статистично значуще" означає, що щось могло просто трапитися випадковим чином, але це малоймовірно. Натомість набагато більше шансів на те, що є якась причина. Вам слід зробити це конкретніше на прикладі, що стосується вашого клієнта, оскільки це пояснення настільки абстрактне.

Наприклад, якби адвокат Енн вигравав у середньому набагато більше справ, ніж Білл, це могло бути просто випадковим чином. Однак, якщо Енн виграла статистично значуще більше випадків, то набагато ймовірніше, що є щось, що може допомогти пояснити, чому Енн виграла більше справ, ніж Білл. Ми не знаємо причини. Можливо, Енн - кращий юрист або Білл цілеспрямовано вибирає справи, які складніші.


0

Нехай це буде просто і стисло!

Значення р визначається як ймовірність отримання результатів настільки ж екстремальних, як і те, що ми спостерігали, вважаючи, що нуль є істинним. Якщо значення р досить мало, нуль, швидше за все, не відповідає дійсності. Ми довільно вибираємо межу для того, що вважаємо "досить малим" (альфа), і для всіх p-значень, які опускаються нижче альфа, відкидаємо нуль.

Ось так я пояснюю це своєму класу введення статистики.


Але що робити, якщо у вас немає можливості підібрати правдоподібну нульову гіпотезу (тобто, дві групи людей ніколи не є абсолютно рівними, але ви також не маєте достатньо інформації, щоб передбачити щось краще, ніж mean1 = mean2)? Пояснення статистичної значущості без згадування обмежень може завдати шкоди.
колба

0

Я спробую.

Спочатку ви обчислюєте p-значення, виходячи із середніх даних та того, наскільки змінні дані. Чим більше змінною, тим менше шансів отримати невелике p-значення. З іншого боку, якщо, наприклад, ви порівнюєте дві групи, чим більша різниця середніх серед них, тим менша р-величина.

Також мінливість даних може бути дещо скасована, отримавши більше даних. Зображення двох наборів даних з однаковою різницею між двома середніми і однаковою кількістю змінності. У цьому випадку набір з більшим розміром вибірки матиме менше p-значення.

Тестова частина просто бачить, чи значення р нижче деякого числа. Зазвичай люди використовують .05, але це довільний соціальний звичай. Дуже багато людей вважають, що немає сенсу використовувати довільне число, але це дуже поширене з історичних причин.

Також пам’ятайте, що те, що ваш тест на значимість говорить про різницю між двома групами, не означає, що ви знаєте, чому існує така різниця. З іншого боку, якщо тест говорить про відсутність суттєвої різниці, це може бути лише тому, що ваша мінливість була занадто великою і у вас не було достатньо даних, щоб отримати низьке значення p, це не означає, що фактичної різниці немає.

Редагувати:

Підводячи підсумок, нижнє значення р означає більше доказів проти прогнозування:

Відмінність від прогнозованого результату -> Зниження p-значення

Більше даних -> Зниження p-значення

Більше варіабельність -> Вгору p-значення

Зниження p-значення означає більше доказів, які говорять про хибність прогнозу. Кожне передбачення в історії було показано помилковим до десяткового знаку.


0

Статистичне значення - це поняття, яке використовується для надання обґрунтування прийняття або відхилення заданої гіпотези. Надаючи набір даних, аналітик може обчислити статистику та визначити величину різних зв’язків між різними змінними.

Завдання статистики полягає в тому, щоб визначити, чи містять дані достатньо доказів, які дозволять зробити висновок про те, що обчислювана статистика або зв'язки, що спостерігаються між змінними, можна інтерпретувати як істинні твердження або якщо результати, що спостерігаються у ваших вибіркових даних, просто обумовлені випадковістю. Це робиться шляхом визначення деякої вибіркової статистики, яка б демонструвала певні характеристики, якщо нульова гіпотеза є правдивою, але ні, якщо нульова гіпотеза помилкова. Чим більше відповідна статистика вибірки демонструє очікувані характеристики під нульовою гіпотезою, тим сильнішими є статистичні докази того, що нульова гіпотеза правильна. Аналогічно, чим менше статистика вибірки виявляє очікувані характеристики під нульовою гіпотезою, тим слабкіші статистичні докази правильності нульової гіпотези.

Сума, в якій вибіркова статистика демонструє характеристики, що очікуються під нульовим значенням, є питанням ступеня, але для того, щоб зробити висновок про прийняття або відхилення нульової гіпотези, має бути довільне відсічення. Як таке, вибирається значення зрізу. Якщо статистика вибірки потрапляє в межах або на одній стороні від значення обрізання, тоді, як стверджується, відповідає характеристикам, очікуваним за нульовою гіпотезою, і, таким чином, результат можна вважати статистично значущим для даного значення відсічення (наприклад, при 5% альфа рівень). Якщо відповідна статистика вибірки потрапляє на іншу сторону відрізаного значення, тоді, як кажуть, вона не відповідає характеристикам, очікуваним за нульовою гіпотезою, і, отже, результат не вважається статистично значущим для даного значення відсічення.


Але наскільки часто дійсно заздалегідь визначається чисельність населення, до якого слід застосувати результати. Зазвичай проводяться аргументи, щоб застосувати результат понад точну досліджувану сукупність, яка була унікальною вибіркою. Наскільки ця унікальність предметів / будь-яких питань невідомо за багатьох обставин. Виняток може бути виробничим контроль якості, але тестування значення використовується набагато ширше , ніж це. Я маю на увазі лише наголосити на обмеженнях процедури, які були виключені з моєї власної освіти.
колба

@Flask, це хороший момент. Я відредагував свою відповідь, щоб спробувати зробити її більш загальною.
tjnel
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.