Як вибрати рівень значущості для великого набору даних?


15

Я працюю з набором даних, що має близько 200 000. У регресії я бачу дуже малі значення значущості << 0,001, пов'язані з дуже малими розмірами ефекту, наприклад r = 0,028. Що я хотів би знати, чи існує принциповий спосіб визначення відповідного порогу значущості щодо розміру вибірки? Чи є якісь важливі міркування щодо інтерпретації розміру ефекту з таким великим зразком?


10
Це питання практичного та статистичного значення. Якщо нахил справді відрізняється від 0, навіть незначною величиною, наприклад ,00000000000001), достатньо великий зразок дасть дуже невеликий -значення, незважаючи на те, що результат не має практичного значення. Ви б краще інтерпретували оцінку точки, а не p -значення, коли у вас такий великий розмір вибірки. pp
Макрос

@Macro Вибачте, ви можете уточнити, що ви маєте на увазі під бальною оцінкою тут?
ted.strauss

3
Додаючи коментар Макроса вище, в цій ситуації я шукаю «практичне» або «клінічне» значення у висновках. Для того, що ви робите, чи достатньо ефект для вас, щоб піклуватися?
Мішель

1
Точкова оцінка - оцінка спостереженого регресійного схилу.
Макрос

2
Що ми і @Macro, і я, ми говоримо, що вам потрібно визначитися, чи важливий клінічний ефект (оцінки балів, нахили). Ваш поріг базується на визначенні "так, це важливий клінічний ефект", а не "значне р-значення", оскільки більшість (усіх?) Ваших p-значень є значущими.
Мішель

Відповіді:


20

У тестуванні на незначущість значущості Джонсон (1999) зазначив, що значення р є довільними, оскільки ви можете зробити їх настільки маленькими, наскільки бажаєте, зібравши достатньо даних, припустивши, що нульова гіпотеза помилкова, що майже завжди є. У реальному світі навряд чи існують напів часткові кореляції, які точно дорівнюють нулю, що є нульовою гіпотезою при тестуванні значущості коефіцієнта регресії. Обрізання значущості P значення ще більш довільне. Значення .05 як межі між значущістю та незначущістю використовується умовно, а не принципово. Тож відповідь на ваше перше запитання - ні, немає принципового способу прийняти відповідний поріг значущості.

Що ви можете зробити, враховуючи великий набір даних? Це залежить від ваших причин (ів) для вивчення статистичної значущості ваших коефіцієнтів регресії. Ви намагаєтесь моделювати складну багатофакторну систему та розробити корисну теорію, яка розумно підходить або прогнозує реальність? Тоді, можливо, ви могли б подумати над розробкою більш детальної моделі та взяттям на неї модельної точки зору, як описано в Rodgers (2010), The Epistemology of Mathematical and Statistics Modelling . Однією з переваг наявності великої кількості даних є можливість досліджувати дуже багаті моделі - моделі з різними рівнями та цікавими взаємодіями (якщо припустимо, що для цього є змінні).

Якщо, з іншого боку, ви хочете зробити певне судження щодо того, чи слід ставитися до певного коефіцієнта як до статистично значущого чи ні, ви можете прийняти пропозицію Гуда (1982) як узагальнену у Woolley (2003) : Обчисліть значення q як що стандартизує значення p до розміру вибірки 100. Значення р точно .001 перетворюється на p-значення .045 - все-таки статистично значуще.p(n/100)

Тож якщо це важливо, використовуючи якийсь довільний поріг чи інший, що з цього? Якщо це спостережливе дослідження, у вас ще багато роботи, щоб виправдати, що це насправді має сенс у тому, як ви думаєте, а не просто помилкові стосунки, які виявляються, тому що ви неправильно уточнили свою модель. Зауважте, що невеликий ефект не є настільки клінічно цікавим, якщо він представляє наявні відмінності між людьми, які вибирають різні рівні лікування, а не ефект лікування.

Вам потрібно врахувати, чи стосунки, які ви бачите, практично важливі, як зазначили коментатори. Перетворення цифр, які ви цитуєте, від до r 2 для пояснення дисперсії ( r - кореляція, квадратикуйте її, щоб пояснити дисперсію), дає лише 3 та 6% дисперсії, пояснену відповідно, що, здається, не так вже й багато.rr2r


@ rolando2 дякую за редагування, завжди плутайте великі / малі значення p! Я думаю, якщо це справа від розподілу, вона велика, але значення p мало.
Енн З.

2
(+1) Це важливий факт, про який багато практикуючих не замислюються уважно: "р-значення довільні, оскільки ви можете зробити їх настільки маленькими, як бажаєте, зібравши достатньо даних, припустивши, що нульова гіпотеза помилкова, що це майже завжди є ».
Макрос

Дякую! Бали у вашому передостанньому абзаці добре взяті. Я читаю статтю Woolley і помітив, що ваша формула q-значення вимкнена. Це має бути p * не p / - я намагався змінити його тут, але правки повинні бути> 6 символів.
ted.strauss

@ ted.strauss Я радий, що це корисно. Іноді я відчуваю, що відлякує обмеження таких інструментів, як p-значення, з якими нам доводиться працювати. Дякую, що помітили помилку у формулі, я її виправив.
Енн З.

Дякую за чудову відповідь. Але я не в змозі отримати доступ до паперу Woolley 2003 за посиланням, поданим вище.
KarthikS

-3

Я думаю, що простим способом перевірити було б випадкове відбір проб аналогічно великої кількості з того, що ви знаєте, одного розподілу двічі та порівняння двох результатів. Якщо ви зробите це кілька разів і спостерігаєте подібні р-значення, то це дозволить припустити, що немає реального ефекту. Якщо з іншого боку ви цього не зробите, то, мабуть, є.


7
Я думаю, що ви пропонуєте робити моделювання під нульовою гіпотезою про відсутність справжньої різниці з великим розміром вибірки та дивлячись на -значення. Я можу вам сказати, не роблячи моделювання, що < 0,001 частка отриманих p- значень буде такою ж невеликою, як і спостережуваний оригінал. Це справедливо для будь-якого розміру вибірки. Це визначення р -значення. p<.001pp
Макрос

1
Насправді -значення, які вийдуть із описаного вами процесу, матимуть розподіл U n i f o r m ( 0 , 1 ) . pUniform(0,1)
Макрос

1
H0pU[0,1]T=T(X)t=t(x)pp(t)=P(TtH0)H0TG0G0G01p(t)=1G0(t)u[0,1]

1
P(p(T)u)=P(1G0(T)u)=P(G0(T)1u)=P(TG01(1u))=1G0(G01(1u))=u.
Hence, we conclude that p(T)H0U[0,1].
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.