Що сталося зі статистичною значимістю в регресії, коли розмір даних гігантський?


13

Я читав це запитання щодо широкомасштабної регресії ( посилання ), де Віктор зазначив цікавий момент:

"Практично будь-який статистичний тест, який ви проводите, буде настільки потужним, що майже впевнено визначити" суттєвий "ефект. Вам потрібно значно більше зосередитися на статистичній важливості, наприклад, на розмірі ефекту, а не на значущості".

--- блуд

Мені було цікаво, чи це щось, що можна довести, чи просто якісь поширені явища на практиці?

Будь-який вказівник на доказ / обговорення / моделювання був би дуже корисним.


1
Розмір ефекту має значення. (+1 до відповіді Glen_b). Для швидкого прикладу: якби ми страждали ожирінням, ми б не змінили існуючий раціон на новий, більш дорогий раціон, якщо це призвело до втрати ваги на 0,05 кг через місяць, навіть якщо у нього було значення . Ми все одно були б ожирілими, просто біднішими. Нам усім відомо, що таке незначне зниження ваги може бути пов’язане лише з медичною клінікою, що записи, зроблені з місця, що рухаються з землі без ліфта, на четвертий поверх тієї ж будівлі. (Приємне запитання + 1)0,0000000001p0.0000000001
usεr11852

Відповіді:


10

Це майже загальне.

Уявіть, що є невеликий, але ненульовий ефект (тобто деяке відхилення від нуля, яке тест може отримати).

При невеликих розмірах вибірки ймовірність відхилення буде дуже близькою до рівня помилок типу I (шум домінує над малим ефектом).

Зі збільшенням розмірів вибірки прогнозований ефект повинен зближуватися з цим ефектом сукупності, в той же час невизначеність оцінюваного ефекту зменшується (як правило, ), поки шанс, що нульова ситуація буде досить близькою до прогнозованого ефекту що це все-таки правдоподібно у випадково відібраній вибірці з сукупності зводиться до фактичного нуля.n

Що означає, з точки нуля, врешті-решт відхилення стає певним, тому що майже у всіх реальних ситуаціях, по суті, завжди буде деяка кількість відхилень від нуля.


"... тому що майже у всіх реальних ситуаціях, по суті, завжди буде деяка кількість відхилень від нуля". Так воно є, і його можна навіть побачити. Це було б досить приємною властивістю чи ні?
Триларіон

"Нульове" тут посилається на нульову гіпотезу про те, що коефіцієнт дорівнює нулю?
Arash Howaida

Я вважаю, що відповідь Glen_b є загальною та застосовна для будь-якого тестування гіпотез з краткою нуля. У контексті регресії так, нульовим є те, що коефіцієнт дорівнює нулю. Моє власне розуміння, хоча ...
Байесрік

4

Це не є доказом, але не важко показати вплив розміру вибірки на практиці. Я хотів би скористатися простим прикладом від Wilcox (2009) з незначними змінами:

Уявіть, що для загальної міри занепокоєння дослідник стверджує, що кількість студентів коледжу має середнє значення принаймні 50. Як перевірка цього твердження, припустімо, що десять студентів коледжу мають вибіркові вибірки з метою тестування з . (Wilcox, 2009: 143)α = .05H0:μ50α=.05

Ми можемо використовувати t-тест для цього аналізу:

T=X¯μos/n

Припускаючи , що вибіркове середнє ( ) є 45 і стандартне відхилення вибірки ( ) становить 11, сX¯s

T=455011/10=1.44.

Якщо ви подивитесь на таблицю, що містить критичні значення розподілу Стьюдента з ступенями свободиtν , ви побачите, що для , . Тож при ми не можемо відкинути нульову гіпотезу. Тепер, припустимо, у нас однакове середнє вибіркове та стандартне відхилення, але натомість 100 спостережень:v=101T = - 1,44P(T1.83)=.05T=1.44

T=455011/100=4.55

Для , , ми можемо відкинути нульову гіпотезу. Зберігаючи все інше постійним, збільшення розміру вибірки зменшить знаменник, і ви, швидше за все, матиме значення у критичній (відхиляючій) області розподілу вибірки. Зауважимо, що - це оцінка стандартної похибки середнього значення. Отже, ви можете бачити, як подібна інтерпретація стосується, наприклад, тестів гіпотези про коефіцієнти регресії, отримані в лінійній регресії, де .P ( T - 1,66 ) = 0,05 с / v=1001P(T1.66)=.05 Т= β J - β ( 0 ) Js/nT=β^jβj(0)se(β^j)


Wilcox, RR, 2009. Основна статистика: Розуміння звичайних методів та сучасних даних . Oxford University Press, Оксфорд.


1
Дякую за відповідь. Ваша відповідь дає конкретну демонстрацію відповіді Glen_b: коли розмір вибірки дуже великий, крихітні відхилення від нуля (завжди є крихітні відхилення на практиці) будуть враховані як суттєвий ефект.
Баєсрік

2

У регресії для загальної моделі тест на F. Here

RSS1RSS2

F=RSS1RSS2p2p1RSS2np2
Де RSS - залишкова сума квадратів, а p - кількість параметрів. Але для цього питання ключовим є N у нижньому знаменнику. Незалежно від того, наскільки близький до , коли N стає більше, F стає більшим. Отже, просто збільшуйте N, поки F не є значущим.RSS1RSS2

1
Дякую за відповідь. Однак я скептично ставлюсь до "коли N стає більшим, F стає більшим"; коли N збільшується, збільшується і RSS2, мені незрозуміло, чому F збільшиться.
Байесрік

@Peter Flom це нереально, але ви можете подивитися тут stats.stackexchange.com/questions/343518/…
user3022875
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.