Я завершив аналіз даних і отримав "статистично значущі результати", що відповідає моїй гіпотезі. Однак студент статистики сказав мені, що це передчасний висновок. Чому? Чи потрібно ще щось включити до мого звіту?
Я завершив аналіз даних і отримав "статистично значущі результати", що відповідає моїй гіпотезі. Однак студент статистики сказав мені, що це передчасний висновок. Чому? Чи потрібно ще щось включити до мого звіту?
Відповіді:
Зазвичай гіпотези оформляються бінарним способом. Я перекладу гіпотези, спрямовані на одну сторону, оскільки вони сильно не змінюють питання. Як правило, принаймні в психології, говорити про такі гіпотези, як: різниця між груповими засобами дорівнює або не дорівнює нулю; кореляція дорівнює або не дорівнює нулю; коефіцієнт регресії дорівнює або не дорівнює нулю; r-квадрат дорівнює або не дорівнює нулю. У всіх цих випадках існує нульова гіпотеза про відсутність ефекту та альтернативна гіпотеза про вплив.
Це бінарне мислення, як правило, не те, що нас найбільше цікавить. Коли ви задумаєтесь над своїм дослідницьким питанням, ви майже завжди виявите, що насправді зацікавлені в оцінці параметрів. Вас цікавить фактична різниця між груповими засобами, або розмір кореляції, або розмір коефіцієнта регресії, або пояснена кількість дисперсії.
Звичайно, коли ми отримуємо вибірку даних, вибіркова оцінка параметра не збігається з параметром сукупності. Тому нам потрібен спосіб кількісної оцінки нашої непевності щодо того, яким може бути значення параметра. З періодичної точки зору, довірчі інтервали є засобом для здійснення, хоча баїстські пуристи можуть стверджувати, що вони не дозволяють строго робити висновок, який ви могли б зробити. З байєсівської точки зору, достовірні інтервали на задній густині забезпечують більш прямий спосіб кількісної оцінки вашої невизначеності щодо значення параметра параметра.
Існує величезна література з психології (та інших сфер), яка критикує фокус на p-значеннях, тестуванні значущості гіпотез тощо) (див. Цей пошук в Google Академії ). Ця література часто рекомендує розмір ефектів звітності з довірчими інтервалами як роздільну здатність (наприклад, Спеціальна група APA Wilkinson, 1999).
Якщо ви думаєте про прийняття такого мислення, я думаю, що є прогресивно більш складні підходи, які ви можете скористатися:
Серед багатьох можливих довідок ви побачите, що Ендрю Гельман багато розмовляє з цих питань у своєму блозі та в своїх дослідженнях.
Просто додати до існуючих відповідей (які, до речі, чудово). Важливо пам’ятати, що статистична значимість - це функція розміру вибірки .
Коли ви отримуєте все більше і більше даних, ви можете знайти статистично значущі відмінності де б ви не дивилися. Коли кількість даних величезна, навіть найдрібніші ефекти можуть призвести до статистичної значущості. Це не означає, що зазначені ефекти є практично будь-якими практичними способами.
Якщо існували розумні підстави підозрювати, що ваша гіпотеза може бути правдивою до того, як ви розпочали навчання; і ви провели хороше дослідження (наприклад, ви не викликали жодних непорозумінь); і ваші результати відповідали вашій гіпотезі та були статистично значущими; тоді я думаю, що ти добре, наскільки це стосується.
Однак не варто думати, що важливість - це все, що важливо для ваших результатів. Спочатку слід також переглянути розмір ефекту (див. Мою відповідь тут: Розмір ефекту як гіпотеза для перевірки значимості ). Ви також можете трохи вивчити свої дані та дізнатись, чи зможете ви знайти будь-які потенційно цікаві сюрпризи, на які варто звернутись далі.
Перш ніж повідомити про це і це, і це, і це, почніть з формулювання того, що ви хочете дізнатися у вас експериментальних даних. Основна проблема звичайних тестів на гіпотези (ці тести ми вивчаємо в школі ...) - не бінарність: головна проблема полягає в тому, що це тести на гіпотези, які не є гіпотезами, що цікавлять. Дивіться слайд 13 тут (завантажте pdf, щоб оцінити анімацію). Щодо розмірів ефекту, то загального визначення цього поняття немає . Відверто кажучи, я б не рекомендував використовувати це для непрофесійних статистиків, це технічні, а не природні заходи "ефекту". Ваша гіпотеза про інтерес повинна бути сформульована в поняттях, зрозумілих мирянам.
Я далеко не експерт зі статистики, але одне, що було наголошено на курсах статистики, які я робив на сьогодні, - це питання "практичного значення". Я вважаю, що це натякає на те, про що говорять Єромі та Гунг, коли йдеться про "розмір ефекту".
Ми мали приклад у класі дієти на 12 тижнів, яка мала статистично значущі результати схуднення, але 95% довірчий інтервал показав середню втрату ваги від 0,2 до 1,2 кг (гаразд, дані, ймовірно, були складені, але це ілюструє точку) . Хоча "статистично значуще" "відрізняється від нуля, чи втрата ваги на 200 грам протягом 12 тижнів є" практично значущим "результатом для людини із зайвою вагою, що намагається оздоровитись?
На це неможливо точно відповісти, не знаючи більше деталей вашого дослідження та критики людини. Але ось одна можливість: якщо ви провели кілька тестів, і ви вирішили зосередитись на тому, що з’явилося на місці, p<0.05
і ігноруйте інших, то ця «значимість» була розведена фактом вашої вибіркової уваги до нього. Пам’ятайте про інтуїцію, але це p=0.05
означає, що «цей результат відбудеться випадково (лише) 5% часу, навіть якщо нульова гіпотеза відповідає дійсності». Отже, чим більше ви будете запускати тестів, тим більше шансів на те, що принаймні один з них виявиться "значущим" результатом випадково - навіть якщо ефекту немає. Дивіться http://en.wikipedia.org/wiki/Multiple_comparisons та http://en.wikipedia.org/wiki/Post-hoc_analysis
Я пропоную вам прочитати наступне:
Anderson, DR, Burnham, KP, Thompson, WL, 2000. Тестування гіпотез нуля: проблеми, поширеність та альтернатива. Дж. Уайлдл. Управління. 64, 912-923. Гігеренцер, Г., 2004. Бездумна статистика. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. Незначність тестування статистичної значущості. Журнал управління дикими тваринами 63, 763-772.
Нульові гіпотези рідко є цікавими в тому сенсі, що з будь-якого експерименту чи набору спостережень є два результати: правильно відхилити нуль або зробити помилку типу II. Розмір ефекту - це те, що вам, мабуть, цікаво визначити, і, зробивши це, ви повинні створити довірчі інтервали для цього ефекту.