Враховуючи достатньо великий розмір вибірки, тест завжди покаже значний результат, якщо справжній розмір ефекту точно не дорівнює нулю. Чому?


21

Мені цікаво твердження, подане у статті Вікіпедії щодо розміру ефекту . Конкретно:

[...] ненульове статистичне порівняння завжди покаже статистично значущі результати, якщо розмір ефекту сукупності точно не дорівнює нулю

Я не впевнений, що це означає / має на увазі, не кажучи вже про аргумент, щоб підкріпити це. Я гадаю, зрештою, ефект - це статистика, тобто значення, обчислене з вибірки, з власним розподілом. Чи означає це, що ефекти ніколи не зумовлені лише випадковими варіаціями (це те, що я розумію, означає, що воно не є суттєвим)? Тоді ми просто розглянемо, чи достатньо сильний ефект - має високе абсолютне значення?

Я розглядаю ефект, який мені найбільше відомий: коефіцієнт кореляції Пірсона r, здається, суперечить цьому. Чому будь-який буде статистично значущим? Якщо малий, наша лінія регресії ry = a x + b = r ( s yr

y=ax+b=r(sysx)=ϵx+b

Для малий, близький до 0, F-тест, ймовірно, буде містити довірчий інтервал, що містить 0 для нахилу. Хіба це не контрприклад?ϵ


10
Підказка: пункт перед цитованою вами частиною є важливим. " Враховуючи достатньо великий розмір вибірки , ненульове статистичне порівняння завжди покаже статистично значущі результати, якщо розмір ефекту популяції точно не дорівнює нулю ..."
Кодіолог

@ Кодіолог: Але, повторюючи мій приклад, чи означає це, що якби розмір вибірки був більшим, то й сам r також був би більшим, або, принаймні, вираз був би більшим, якби розмір вибірки був більшим? Я цього не бачу. r(sy/sx)
gary

5
Якби це не було правдою, це було б недоліком у статистичному методі. Якщо , певний розмір вибірки достатньо великий, щоб виявити різницю. μ>μ0
Джон Коулман

Відповіді:


26

Як простий приклад, припустимо, що я оцінюю ваш зріст, використовуючи статистичні мамбо джамбо.

Ви завжди заявляли іншим, що ви 177 см (приблизно 5 футів 10 дюймів).

Якби я перевірив цю гіпотезу (що ваш зріст дорівнює 177 см, ), і я міг би досить зменшити помилку в моєму вимірі, то я міг би довести, що ви насправді не 177 див. Врешті-решт, якби я оцінив ваш зріст у достатній кількості десяткових знаків, ви майже напевно відхилитесь від заявленої висоти 177,00000000 см. Можливо, вам 177,02 см; Мені залишається лише зменшити свою помилку до менше .02, щоб дізнатися, що вам не 177 див.h=177

Як зменшити помилку в статистиці? Отримайте більший зразок. Якщо ви отримаєте достатньо велику вибірку, помилка стає настільки малою, що ви зможете виявити найбільш незначні відхилення від нульової гіпотези.


2
Це дуже чітке і стисле пояснення. Напевно, корисніше зрозуміти, чому це відбувається, ніж більше математичних відповідей. Молодці.
Ніхто

1
Чудово пояснено, але я думаю, що також важливо враховувати, що є випадки, коли заявлене значення є справді точним. Наприклад, відклавши дивні речі, що трапляються в теорії струн тощо. Вимірювання кількості просторових розмірів нашого Всесвіту (що можна зробити) дасть 3, і незалежно від того, наскільки точно ви зробите це вимірювання, ви будете ніколи не знайдіть статистично значущих відхилень від 3. Звичайно, якщо ви продовжуєте тестувати достатньо разів, ви отримаєте деякі відхилення просто через дисперсію, але це вже інше питання.
Давид Z

Можливо, наївне питання, але якщо я стверджую, що я 177 см, чи не означає поняття значущих цифр, я кажу лише, що я між 176,5 і 177,5? Відповідь, здається, дає хорошу теоретичну концепцію, правдиву, але чи не вона базується на помилковій передумові? Що я пропускаю?
JimLohse

У цьому випадку вказана висота 177 є аналогом нульової гіпотези в статистиці. У традиційному тестуванні гіпотез щодо рівності ви робите заяву про рівність (наприклад, ). Справа в тому, що незалежно від того, якою ви заявляєте про свій зріст, я можу спростувати це, зменшуючи помилку, якщо тільки нульова гіпотеза НЕ ПРАВИЛЬНА правдива. Я використовував висоту як легкий для розуміння приклад, але це поняття те саме в інших областях (речовина х не викликає рак, ця монета є справедливою тощо)μ=177
Підривник

13

Як зазначає @Kodiologist, це дійсно про те, що відбувається для великих розмірів вибірки. Для невеликих розмірів вибірки немає жодної причини, чому ви не можете мати помилкові позитиви чи помилкові негативи.

Я думаю, що -test робить асимптотичний випадок яснішим. Припустимо, у нас є і ми хочемо перевірити проти . Наша тестова статистика - X 1 , , X n iid N ( μ , 1 ) H 0 : μ = 0 H A : μ 0 Z n = ˉ X n - 0zX1,,XniidN(μ,1)H0:μ=0HA:μ0

Zn=X¯n01/n=nX¯n.

Zn=X¯nN(μ,1n) тому . Нас цікавить . Нехай є нашою опорною змінною. Під тому у нас тож ми можемо вибрати для керування частотою помилок нашого типу I . Але під так P(|Zn|α)P(|Zn|α)=P(Zn-α)+P(Znα)=1+Φ(-α-μZn=nX¯nN(μn,1)P(|Zn|α)

P(|Zn|α)=P(Znα)+P(Znα)
YN(0,1)H0μ=0P(|Zn|α)=1-P(-αYα)αHAμ
=1+Φ(αμn)Φ(αμn).
YN(0,1)H0 μ=0P(|Zn|α)=1P(αYα)αHA P(|Zn|α)1+Φ(±)-Φ(±)=1H0μ0±μ<0μn0
P(|Zn|α)1+Φ(±)Φ(±)=1
тому з ймовірністю 1 відкинемо якщо (the - у випадку , але будь-який спосіб нескінченності мають однаковий знак).H0μ0±μ<0

Сенс у тому, що якщо точно дорівнює то наша тестова статистика має еталонний розподіл, і ми відкинемо 5% (або що завгодно) часу. Але якщо точно не дорівнює , то ймовірність того, що ми відхилимо голови до як збільшується. Ідея тут полягає в послідовності тесту, яка полягає в тому, що при потужність (ймовірність відхилення) головує до як .0 μ 0 1 n H A 1 n μ 0μ01nHA1n

Це саме та сама історія із тестовою статистикою для тестування проти з коефіцієнтом кореляції Пірсона. Якщо нульова гіпотеза помилкова, то наша тестова статистика стає все більшою і більшою, тому ймовірність того, що ми відкинемо підходи .H A : ρ ρ 0 1H0:ρ=ρ0HA:ρρ01


1
Нітпік: якщо , то буде розходитися до замість , правда? Z n - μ<0Zn
Кодіолог

1
Добре, але те, що трапиться у випадку має залежати від того, чи "швидше", ніж , правда? Я навіть не впевнений, як би ви "порівняли" швидкість конвергенції для послідовності випадкових величин і послідовності цілих чисел - можливо, слід застосувати теорему Слуцького чи щось подібне. ˉ Xp 0 μ=0X¯p0n
DeltaIV

1
@DeltaIV, правильно, якби коефіцієнт конвергенції був різним, потрібне було б інше масштабування, щоб отримати невідроджене нульове розподіл. Але для цього прикладу, root-n - це правильна швидкість.
Крістоф Ганк

1
0nX¯ переходить до стандартної норми за CLT, а не до . 0
хлопець

7

Можливо, те, що вони сказали, є неправильним, якщо з будь-якої іншої причини, крім їх використання "це завжди буває".

Я не знаю, чи це суть вашої плутанини , але я опублікую це, тому що я думаю, що багато хто з них і збентежить це:

" буває, якщо досить великий"n Xn , НЕ означає "Якщо , то ".n > n 0 Xn>n0X

Швидше, це означає .limnPr(X)=1

Те, що вони буквально говорять, означає:

Для будь-якого розміру вибірки вище деякого мінімального розміру , результат будь-якого ненульового тесту гарантовано є значущим, якщо справжній розмір ефекту точно не дорівнює нулю.n 0nn0

Однак вони намагалися сказати:

При будь-якому рівні значущості, у міру збільшення розміру вибірки, ймовірність того, що ненульовий тест дає значний результат, наближається до 1, якщо справжній розмір ефекту точно не дорівнює нулю.

Тут є вирішальні відмінності:

  • Гарантії немає. Ви лише більше шансів отримати значний результат при більшій вибірці. Тепер вони можуть ухилитися від частини провини тут, оскільки поки це лише питання термінології. У імовірнісний контексті буде зрозуміло , що твердження «якщо п досить велике , то X» може також інтерпретуватися як «X стає все більш і більш імовірно , щоб бути правдою , як п зростає великий» .
    Однак це тлумачення виходить у моє вікно, як тільки вони кажуть, що це "завжди" відбувається. Тут належна термінологія могла б сказати, що це відбувається " з високою ймовірністю " 1 .

  • Це є другорядним, але їх формулювання заплутане - це, мабуть, означає, що ви фіксуєте розмір вибірки "достатньо великим", а потім твердження справедливо для будь-якого рівня значущості. Однак, незалежно від того, що таке точне математичне твердження, це насправді не має сенсу: ви завжди спочатку фіксуєте рівень значущості, а потім вибираєте розмір вибірки, щоб бути досить великим.
    Але припущення , що це може бути як - то навпаки , до жаль , підкреслює інтерпретація «досить великий», так що робить вищевказану проблему ще гірше.n>n0

Але як тільки ви зрозумієте літературу, ви отримаєте те, що вони намагаються сказати.

(Побічна примітка: до речі, це саме одна з постійних проблем у багатьох людей з Вікіпедією. Часто зрозуміти, що вони говорять, можна лише тоді, коли ви вже знаєте матеріал, тому це корисно лише для довідки або як нагадування , не як самонавчальний матеріал.)

1 Для колег-педантів (привіт!) Так, термін має більш конкретне значення, ніж той, з яким я пов’язаний. Найслабший технічний термін, який ми, мабуть, хочемо тут, - це "асимптотично майже напевно" . Дивіться тут .


"ймовірність того, що ненульовий тест дає значний результат, наближається до 0, якщо справжній розмір ефекту точно дорівнює нулю" може бути не зовсім правильним: якщо тест має рівень значущості то ймовірність отримання значного результату може бути або в будь-яких розмірах вибіркиααα
Генріх

@ Генрі: О стріляй, ти маєш рацію! Я написав це так швидко, що не переставав думати. Дякую тонну! Я це виправив. :)
Мехрдад

3

Мій улюблений приклад - кількість пальців за статтю. Переважна більшість людей мають 10 пальців. Деякі втратили пальці через нещасні випадки. У деяких є додаткові пальці.

Я не знаю, чи мають у чоловіків більше пальців, ніж у жінок (в середньому). Усі легкодоступні докази свідчать про те, що у чоловіків і у жінок 10 пальців.

Однак я дуже впевнений, що якби я переписував усіх чоловіків і всіх жінок, то я б дізнався, що одна стать має більше пальців (в середньому), ніж інша.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.