Вибір статистичного тесту на основі результату іншого (наприклад, нормальності)


13

Тож я чув, як це говорило, що не годиться вибирати один статистичний тест на основі результату іншого. Мені це здається дивним. Наприклад, люди часто вирішують використовувати непараметричний тест, коли якийсь інший тест говорить про те, що залишки зазвичай не розподіляються. Цей підхід здається досить широко прийнятим, але, схоже, не погоджується з першим реченням у цьому пункті. Я просто сподівався отримати уточнення з цього питання.


3
Тільки те, що залишки не є гауссовими, не означає, що вам потрібні непараметричні тести. Зазвичай ви можете розпізнати тип моделі, що використовується (так, модель, не тестуйте) від природи даних (підрахунок, дані 0 1, безперервне, середньо-дисперсійне відношення, лінійне чи нелінійне відношення тощо) та відповідно підходити моделям щоб відповідати особливостям даних, попередньо вирішивши, якою була гіпотеза, яку слід перевірити. Як тільки ви відчуєте, що відповідність відповідає припущенням встановленої моделі, ви можете оцінити значення p та інші статистичні дані,
Відновіть Моніку - Г. Сімпсон

Відповіді:


14

Зважаючи на те, що - вірогідність спостереження даних цієї крайньої або більш крайньої, якщо вірно, то яка інтерпретація де приходить через процес, коли було прийняте умовне рішення, прийняте під час вибору тесту, який виробляв що ? Відповідь непізнавальна (або, принаймні, майже непізнавана). Приймаючи рішення провести тест чи ні на основі якогось іншого ймовірнісного процесу, ви зробили тлумачення вашого результату ще більш озадаченим. H 0 p p p p ppH0ppppзначення максимально інтерпретуються, коли розмір вибірки та план аналізу були повністю обрані заздалегідь. В інших ситуаціях тлумачення стає важким, тому це "не дуже гарна ідея". Це, як говорять, є загальноприйнятою практикою ... зрештою, навіщо взагалі намагатися запускати тест, якщо дізнаєтесь, що тест, який ви планували провести, був недійсним? Відповідь на це питання набагато менш певна. Все це зводиться до простого факту, що тестування значущості гіпотез (тест первинного використання ) має деякі проблеми, які важко подолати.p


Мені не вдалося знайти жодних статей, які б обговорювали це явище в Google, можливо, тому що я використовував неправильні пошукові терміни. Хтось міг би вказати мені в бік статті, в якій обговорюється проблема тестів на основі тестів?
Роб Холл

1
@RobHall: Це специфічний приклад "Важливість гіпотетичних питань для уявних даних". Ср. Wagenmakers, 2007, с. 784. Wagenmakers спеціально звертається до питання перетворень у другому стовпчику, вказуючи "для того, щоб обчислити значення ap, потрібно знати, що ви зробили б, якби дані вийшли по-іншому ... це включає те, що ви зробили, якби дані явно були ненормально розподілені ..., значення p можна обчислити лише після того, як план вибірки буде повністю відомий та заздалегідь визначений ".
russellpierce

8

Наприклад, люди часто вирішують використовувати непараметричний тест, коли якийсь інший тест говорить про те, що залишки зазвичай не розподіляються. Цей підхід здається досить широко прийнятим, але, схоже, не погоджується з першим реченням у цьому пункті. Я просто сподівався отримати уточнення з цього питання.

Так, дуже багато людей роблять подібні речі і змінюють свій другий тест на такий, який може мати справу з гетероскідкастичністю, коли вони відкидають рівність дисперсії тощо.

Тільки тому, що щось є загальним, не означає, що це обов'язково мудро.

Дійсно, в деяких місцях (я не називатиму найгірших дисциплін) багато з цієї формальної гіпотези тестування контингенту в інших формальних тестування гіпотез насправді викладається.

Проблема з цим полягає в тому, що ваші процедури не мають своїх номінальних властивостей, іноді навіть не закриваються. (З іншого боку, припускати подібні речі без будь-якого розгляду за потенційно екстремальне порушення може бути ще гірше.)

Кілька статей припускають, що для гетерокедастичного випадку вам краще просто діяти так, ніби відхилення не рівні, ніж тестувати на нього, і лише щось робити з цим при відхиленні.

У випадку нормальності це менш зрозуміло. Принаймні, у великих зразках нормальність не все є таким вирішальним (але за іронією долі, при великих зразках ваш тест на нормальність набагато частіше відкидає), доки ненормальність не надто дивна. Один виняток - інтервали прогнозування, коли вам дійсно потрібно, щоб ваше припущення щодо розповсюдження було близько до правого.

Частково одна проблема полягає в тому, що тести гіпотез відповідають на інше питання, ніж на те, на яке потрібно відповісти. Вам не потрібно знати, "чи дані справді нормальні" (майже завжди це не буде апріорі нормально ). Питання, швидше, "наскільки погано вплине ступінь ненормативності на мій висновок".

Другий випуск, як правило, або незалежно від розміру вибірки, або фактично покращується із збільшенням розміру вибірки - проте тести гіпотези майже завжди відкидаються при великих розмірах вибірки.

Є багато ситуацій, коли існують надійні або навіть безкоштовні процедури розповсюдження, які дуже близькі до повноефективної навіть у звичайному (і потенційно набагато ефективніші при деяких досить скромних відхиленнях від неї) - у багатьох випадках здається дурним не сприймати той же розсудливий підхід.


Ніцца (+1) Чи можете ви дати посилання на згадувані вами статті про гетерокедастичний випадок?
gui11aume

2
Я не хочу на це зазначати, але я постійно переживаю їх в Інтернеті, тому не важко розібратися, які з них мають наголосити (вони, як правило, ті самі, що історично занадто підкреслюють тестування гіпотез). Дійсно, дисципліни людей, що створюють тут питання, де плакати думають, що вони повинні використовувати формальні тести, зазвичай були б однаковими. Це не лише одна чи дві дисципліни - я бачу багато - але деякі здаються, що це роблять особливо часто. Щоб це було досить часто, я можу лише припустити, що в тих сферах, які на цьому наполягали, були дуже відомі тексти.
Glen_b -Встановити Моніку

1
@ gui11aume Ось посилання ... це не одне з тих, кого я шукав, але це робить сенс, в який я потрапляв (що попереднє тестування може зробити гірше).
Glen_b -Встановити Моніку

2
Нещодавно Ендрю Гельман виклав пов’язаний пост про неоднорідність між групами (принаймні про те, чому такий процес є проблематичним).
Andy W

1
Питання, пов'язане з цими дискусіями назад: stats.stackexchange.com/questions/305/…
russellpierce

8

Основні питання були добре пояснені іншими, але вони заплутані в основі або пов'язані з цим

  1. Надмірне шанування P-значень, щонайменше одного виду доказів у статистиці.

  2. Небажання бачити, що статистичні звіти неминуче ґрунтуються на поєднанні виборів, деякі ґрунтуються на фактичних доказах, інші ґрунтуються на суміші попередніх аналізів, інтуїції, здогадках, судженнях, теорії тощо.

Припустимо, що я та мій обережний друг Test All обидва обрали трансформацію журналу для відповіді, але я переходжу до цього висновку на основі поєднання фізичних міркувань та попереднього досвіду з даними, тоді як Test Everything вибирає шкалу журналів на основі тестування та оцінки Box-Cox. параметра.

Зараз ми обидва використовуємо однакові множинні регресії. Чи мають наші Р-значення різні інтерпретації? З однієї інтерпретації, P-значення Test Everything визначається її попередніми висновками. Я також використовував умовиводи, але в основному вони були неофіційними, ґрунтуючись на довгій серії попередніх графіків, розрахунків тощо у попередніх проектах. Як про це повідомляти?

Природно, результати регресії точно такі ж, як для Test Everything і для мене.

Такий же поєднання розумних порад та сумнівної філософії застосовується до вибору предикторів та функціональної форми. Наприклад, економістів широко навчають поважати попередні теоретичні дискусії та насторожено ставитися до даних, що мають вагомі причини для кожного випадку. Але в найслабших випадках ця теорія є лише попередньою пропозицією, зробленою раніше в літературі, імовірно, після деякого емпіричного аналізу. Але літературні посилання освячують, хоча навчання з даних, що є в руках, є підозрюваним для багатьох авторів.


Дуже чітко (+1).
gui11aume

1
+1. Однак існує тривала різниця у ефективності ваших аналізів порівняно з аналізами Test Everything. Кожен раз, коли цей аналіз виконується, ви будете використовувати ту саму стратегію, що базується на написаній у літературі (що не коливає експеримент експериментом). Щодо OTOH, дані є випадковим зразком, а результат тестування Box-Cox коливатиметься за дослідженням.
gung - Відновіть Моніку

Це глухо, але мій досвід теж змінюється, довгостроковий.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.