Чому "статистично значущих" недостатньо?


46

Я завершив аналіз даних і отримав "статистично значущі результати", що відповідає моїй гіпотезі. Однак студент статистики сказав мені, що це передчасний висновок. Чому? Чи потрібно ще щось включити до мого звіту?


4
Багато що залежить від того, що ви маєте на увазі під "отриманням статистично значущих результатів, що відповідають гіпотезі". Якщо ваша гіпотеза полягає в тому, що вітер виробляють дерева, і ваш експеримент показує, що в 100% спостережень, коли дерева рухали свої гілки, був вітер, ви вважаєте це статистично значущим і вуалі ваш висновок доведений. Що, очевидно, неправильно. Отже, це може бути один із таких випадків.
сашкелло

1
Вам дійсно знадобиться подальше дослідження, щоб безпечно оголосити «значущу знахідку» з довірою - використовуючи добре розроблений збір даних, ту саму модель та тест-тест гіпотез. Також вам потрібно переконатися, що ваш поточний набір даних представляє "загальну сукупність населення", про яку ви заявляєте, зі значним висновком (це ключова проблема для висновку з "великими даними")
ймовірністьлогічний

1
Безумовно, відповідь така проста, як "кореляція - це не причинний зв'язок"?
дробовий

1
Ось моя улюблена : Люди, які їдять більше рису, народжують більше дітей. Перевіривши все населення світу, ви отримаєте статистично значущі результати ...
Karoly Horvath

4
Чудові відповіді, але я здивований, що ніхто не запропонував очевидного рішення: Запитайте його / її. Кожен раз, коли хтось скаже вам, що ви неправі в своїй роботі або щось інше, що вас хвилює, просто запитайте. Сказати комусь, що він помиляється, тому що X, y і Z круто - це можливість навчання. Але просто сказати комусь, що він помиляється, і відлупцювати - це хуй хід.
Сільвердраг

Відповіді:


53

Тестування гіпотези та оцінка параметрів

Зазвичай гіпотези оформляються бінарним способом. Я перекладу гіпотези, спрямовані на одну сторону, оскільки вони сильно не змінюють питання. Як правило, принаймні в психології, говорити про такі гіпотези, як: різниця між груповими засобами дорівнює або не дорівнює нулю; кореляція дорівнює або не дорівнює нулю; коефіцієнт регресії дорівнює або не дорівнює нулю; r-квадрат дорівнює або не дорівнює нулю. У всіх цих випадках існує нульова гіпотеза про відсутність ефекту та альтернативна гіпотеза про вплив.

Це бінарне мислення, як правило, не те, що нас найбільше цікавить. Коли ви задумаєтесь над своїм дослідницьким питанням, ви майже завжди виявите, що насправді зацікавлені в оцінці параметрів. Вас цікавить фактична різниця між груповими засобами, або розмір кореляції, або розмір коефіцієнта регресії, або пояснена кількість дисперсії.

Звичайно, коли ми отримуємо вибірку даних, вибіркова оцінка параметра не збігається з параметром сукупності. Тому нам потрібен спосіб кількісної оцінки нашої непевності щодо того, яким може бути значення параметра. З періодичної точки зору, довірчі інтервали є засобом для здійснення, хоча баїстські пуристи можуть стверджувати, що вони не дозволяють строго робити висновок, який ви могли б зробити. З байєсівської точки зору, достовірні інтервали на задній густині забезпечують більш прямий спосіб кількісної оцінки вашої невизначеності щодо значення параметра параметра.

Параметри / розміри ефекту

R2

Існує величезна література з психології (та інших сфер), яка критикує фокус на p-значеннях, тестуванні значущості гіпотез тощо) (див. Цей пошук в Google Академії ). Ця література часто рекомендує розмір ефектів звітності з довірчими інтервалами як роздільну здатність (наприклад, Спеціальна група APA Wilkinson, 1999).

Кроки для відходу від тестування бінарних гіпотез

Якщо ви думаєте про прийняття такого мислення, я думаю, що є прогресивно більш складні підходи, які ви можете скористатися:

  • Підхід 1а. Повідомте про точну оцінку ефекту вибірки (наприклад, середні групові відмінності) як у сирому, так і в стандартизованому виразах. Коли ви повідомляєте про свої результати, обговоріть, що така величина буде означати для теорії та практики.
  • Підхід 1б. Додайте до 1а, принаймні на дуже базовому рівні, деяке відчуття невизначеності навколо вашої оцінки параметрів, виходячи з розміру вибірки.
  • Підхід 2. Також повідомляйте про довірчі інтервали щодо розмірів ефекту та включайте цю невизначеність у ваше роздуми щодо правдоподібних значень параметра, що цікавить.
  • Підхід 3. Повідомте про достовірні інтервали Баєса та вивчіть наслідки різних припущень на цьому достовірному інтервалі, наприклад, вибір попереднього, процес генерації даних, що передбачається вашою моделлю тощо.

Серед багатьох можливих довідок ви побачите, що Ендрю Гельман багато розмовляє з цих питань у своєму блозі та в своїх дослідженнях.

Список літератури

  • Ніккерсон, RS (2000). Тестування значущості гіпотези: огляд старої та тривалої суперечки. Психологічні методи, 5 (2), 241.
  • Вілкінсон, Л. (1999). Статистичні методи в журналах психології: вказівки та пояснення. Американський психолог, 54 (8), 594. PDF

12
На додаток до коментаря Джеромі, чи можу я порекомендувати вам прочитати твір Зіляка та Макклоскі про культ статистичної значимості. Це не найвибагливіша статистика, але вона дає вдумливе та розважальне обговорення того, чому розміри ефектів, практичне значення та функції втрат є надзвичайно важливими. deirdremccloskey.com/docs/jsm.pdf
Джим

Я думаю, що, можливо, іноді р слід встановити нижче, ніж .05. Дякую всім: гунг, Джеромі та Джим
Джим Фон

1
Про Ziliak [NB] та McCloskey: Якщо ви зайняті, спочатку прочитайте phil.vt.edu/dmayo/personal_website/… . Якщо ви не зайняті, все-таки прочитайте її спочатку.
Нік Кокс

Ласкаво просимо, @JimVon. FWIW, я інколи думаю, що p слід встановити вище, ніж 0,05. Це просто залежить.
gung - Відновіть Моніку

1
Радий бачити, як доктор Гельман тут переїхав. Мабуть, він навіть не любить повідомляти p-значення, не кажучи вже про їх використання для серйозного висновку. Він також робить хороший випадок для стандартизації всіх ваших змінних як звичайно.
shadowtalker

26

Просто додати до існуючих відповідей (які, до речі, чудово). Важливо пам’ятати, що статистична значимість - це функція розміру вибірки .

Коли ви отримуєте все більше і більше даних, ви можете знайти статистично значущі відмінності де б ви не дивилися. Коли кількість даних величезна, навіть найдрібніші ефекти можуть призвести до статистичної значущості. Це не означає, що зазначені ефекти є практично будь-якими практичними способами.

pp


Це питання, про яке йдеться у моєму слайді 13:)
Стефан Лоран

6
+1 для цього. Люди, які не усвідомлюють значущості, - це функція розміру вибірки, приводить мене в оману.
Фоміт

12

Якщо існували розумні підстави підозрювати, що ваша гіпотеза може бути правдивою до того, як ви розпочали навчання; і ви провели хороше дослідження (наприклад, ви не викликали жодних непорозумінь); і ваші результати відповідали вашій гіпотезі та були статистично значущими; тоді я думаю, що ти добре, наскільки це стосується.

Однак не варто думати, що важливість - це все, що важливо для ваших результатів. Спочатку слід також переглянути розмір ефекту (див. Мою відповідь тут: Розмір ефекту як гіпотеза для перевірки значимості ). Ви також можете трохи вивчити свої дані та дізнатись, чи зможете ви знайти будь-які потенційно цікаві сюрпризи, на які варто звернутись далі.


Ви маєте на увазі, що гіпотеза повинна бути розумною? І як судити, чи призведе моя гіпотеза безглуздий аналіз даних? "Потенційно цікаві сюрпризи" повинні розкрити Post-hoc?
Джим Фон

Що я маю на увазі, це, мабуть, були якісь законні підстави провести дослідження на 1-му місці. Поточні теоретичні знання та / або останні дослідження свідчать про те, що ваша гіпотеза може бути правдивою. Ваша гіпотеза, ймовірно, "не призведе до безглуздого аналізу даних", якщо вона не є несуперечливою. Потенційно цікаві сюрпризи / особливості ваших даних дуже добре можуть бути виявлені пост-час; той факт, що вони є сюрпризами, означає, що ви не знали, що вони відбудуться, коли ви плануєте навчання. Питання щодо "пост-хоку" полягає в тому, чи вірити сюрпризам - їх потрібно підтвердити майбутніми дослідженнями.
gung - Відновіть Моніку

7

Перш ніж повідомити про це і це, і це, і це, почніть з формулювання того, що ви хочете дізнатися у вас експериментальних даних. Основна проблема звичайних тестів на гіпотези (ці тести ми вивчаємо в школі ...) - не бінарність: головна проблема полягає в тому, що це тести на гіпотези, які не є гіпотезами, що цікавлять. Дивіться слайд 13 тут (завантажте pdf, щоб оцінити анімацію). Щодо розмірів ефекту, то загального визначення цього поняття немає . Відверто кажучи, я б не рекомендував використовувати це для непрофесійних статистиків, це технічні, а не природні заходи "ефекту". Ваша гіпотеза про інтерес повинна бути сформульована в поняттях, зрозумілих мирянам.


1
Одне невелике доповнення - нульова гіпотеза фактично повинна означати щось поза контекстом поточного аналізу даних для стандартного HT. Це не слід «вигадувати», щоб у вас було щось відкинути на користь вашої теорії / висновку.
ймовірністьілогічний

2

Я далеко не експерт зі статистики, але одне, що було наголошено на курсах статистики, які я робив на сьогодні, - це питання "практичного значення". Я вважаю, що це натякає на те, про що говорять Єромі та Гунг, коли йдеться про "розмір ефекту".

Ми мали приклад у класі дієти на 12 тижнів, яка мала статистично значущі результати схуднення, але 95% довірчий інтервал показав середню втрату ваги від 0,2 до 1,2 кг (гаразд, дані, ймовірно, були складені, але це ілюструє точку) . Хоча "статистично значуще" "відрізняється від нуля, чи втрата ваги на 200 грам протягом 12 тижнів є" практично значущим "результатом для людини із зайвою вагою, що намагається оздоровитись?


Це сенс після мого слайду 13 :)
Stéphane Laurent

2
Це також приклад тестування "неправильної" нульової гіпотези. Це не висновок, який вас цікавить. Кращою тестою гіпотези було б те, що втрата ваги менше 5 кг проти більше 5 кг.
ймовірністьлогічний

1

На це неможливо точно відповісти, не знаючи більше деталей вашого дослідження та критики людини. Але ось одна можливість: якщо ви провели кілька тестів, і ви вирішили зосередитись на тому, що з’явилося на місці, p<0.05і ігноруйте інших, то ця «значимість» була розведена фактом вашої вибіркової уваги до нього. Пам’ятайте про інтуїцію, але це p=0.05означає, що «цей результат відбудеться випадково (лише) 5% часу, навіть якщо нульова гіпотеза відповідає дійсності». Отже, чим більше ви будете запускати тестів, тим більше шансів на те, що принаймні один з них виявиться "значущим" результатом випадково - навіть якщо ефекту немає. Дивіться http://en.wikipedia.org/wiki/Multiple_comparisons та http://en.wikipedia.org/wiki/Post-hoc_analysis


0

Я пропоную вам прочитати наступне:

Anderson, DR, Burnham, KP, Thompson, WL, 2000. Тестування гіпотез нуля: проблеми, поширеність та альтернатива. Дж. Уайлдл. Управління. 64, 912-923. Гігеренцер, Г., 2004. Бездумна статистика. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. Незначність тестування статистичної значущості. Журнал управління дикими тваринами 63, 763-772.

Нульові гіпотези рідко є цікавими в тому сенсі, що з будь-якого експерименту чи набору спостережень є два результати: правильно відхилити нуль або зробити помилку типу II. Розмір ефекту - це те, що вам, мабуть, цікаво визначити, і, зробивши це, ви повинні створити довірчі інтервали для цього ефекту.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.