Перевірка асоціації для нормально розподіленого DV за напрямками незалежних змінних?


10

Чи є тест гіпотези про те, чи нормально розподілена залежна змінна асоціюється з напрямною розподіленою змінною?

Наприклад, якщо час доби є пояснювальною змінною (а припустимо, що такі речі, як день тижня, місяць року тощо, не мають значення), - це як врахувати той факт, що 11 вечора на 22 години випереджає 1 ранку, а також 2 годин за 1 годиною ранку в тесті на асоціацію? Чи можу я перевірити, чи пояснює безперервний час доби залежну змінну, не вважаючи, що о 12:00 опівночі не настає хвилина після 23:59?

Чи застосовується цей тест і до дискретних пояснювальних змінних ( модульних ?)? Або для цього потрібен окремий тест? Наприклад, як перевірити, чи пояснюється залежна змінна за місяцем року (якщо вважати день та сезон року, а конкретний рік чи десятиліття - не має значення). Лікуючи місяць року категорично ігнорує замовлення. Але трактуючи місяць року як стандартну порядкову змінну (скажімо, Jan = 1 ... Dec = 12) ігнорує, що січень настає через два місяці після листопада.


1
Відповідь могла заповнити книгу (а їх там декілька). Якщо зробити своє питання більш конкретним, це може допомогти зосередити відповіді на тому, що вам важливо.
whuber

@whuber Гм ... боже ... ви можете мені допомогти, як звузити? Вказання розподілу для DV? Обмеження лише одним тестом, а не регресією? Я трохи спотикався і не знаю, з чого почати ...
Alexis

@whuber Я дуже спробував звузити це питання, і буду вдячний за будь-які вказівки на те, щоб зробити його більш корисним (я дуже просто хочу почати для роздумів про модульні прогнози). Якщо це зараз у пристойній формі, я, швидше за все, буду відповідати аналогічним питанням щодо такого тесту, який не має розподілу в DV.
Олексій

@whuber Придушення дискретного модульного ІV в регресійному контексті: чи буде дворівнева змішана модель з дискретним модульним IV як ідентифікатором рівня 2 з кожним блоком рівня 2, що має змінну до- та після випадкового ефекту, рівну величині попереднє та наступне значення в системі числення мають бути на правильному шляху?
Олексій

Дивіться тут jstatsoft.org/article/view/v031i10/v31i10.pdf , стор.16
амеба

Відповіді:


9

Загалом, я вважаю, що науково та статистично більш плідно почати з того, щоб поставити більш широке та інше запитання, яким чином можна передбачити відповідь кругового прогнозувача. Я кажу тут круговий, а не спрямований , частково тому, що останній включає сферичні та ще більш казкові простори, які не можуть бути охоплені однією відповіддю; а почасти тому, що ваші приклади, час і час року , є круговими. Наступним важливим прикладом є напрямок компаса (стосується вітрів, рухів тварин або людей, вирівнювання тощо), який характеризується багатьма круговими проблемами: дійсно, для деяких вчених це більш очевидний вихідний пункт.

Кожен раз, коли ви можете піти від цього, використання синусоїдальних і косинусних функцій часу в якійсь регресійній моделі - це простий і простий в реалізації метод моделювання. Це перший порт для багатьох біологічних та / або екологічних прикладів. (Обидва види часто поєднуються разом, оскільки біотичні явища, що демонструють сезонність, зазвичай прямо чи опосередковано реагують на клімат чи погоду.)

Щодо конкретності, уявіть собі вимірювання часу протягом 24 годин або 12 місяців, так що, наприклад

гріх[2π(година/24)],  cos[2π(година/24)]

гріх[2π(місяць/12)],  cos[2π(місяць/12)]

кожен описує один цикл протягом цілого дня або року. Офіційний тест на відсутність зв'язку між вимірюваною чи підрахунковою реакцією та деяким круговим часом буде тоді стандартним тестом на те, чи є коефіцієнти синуса та косинусу взагалі нульовими в узагальненій лінійній моделі із синусом та косинусом як провісниками, відповідним зв’язком та сімейством вибираючись відповідно до характеру відповіді.

Питання граничного розподілу відповіді (нормального чи іншого) у цьому підході є другорядним та / або має вирішуватися вибором сім'ї.

Заслуга синусів і косинусів, природно, полягає в тому, що вони періодичні і автоматично обертаються, тому значення на початку та в кінці кожного дня чи року обов'язково одне і те саме. З граничними умовами немає проблеми, бо немає межі.

Такий підхід отримав назву кругової, періодичної, тригонометричної та регресії Фур'є. Про один вступний огляд підручника дивіться тут

На практиці,

  1. Такі тести, як правило, показують надзвичайно значні результати на звичайних рівнях, коли ми очікуємо сезонність. Більш цікавим питанням є точна оцінка сезонної кривої і чи потрібна нам більш складна модель з іншими синусоїдальними термінами.

  2. Ніщо також не виключає інших прогнозів, і тоді нам просто потрібні більш всебічні моделі з іншими включеними прогнозами, скажімо, синусами та косинусами на сезонність та іншими прогнозами для всього іншого.

  3. У якийсь момент, залежно від даних, проблеми та смаків та досвіду дослідника, може стати більш природним підкреслити аспект проблеми часового ряду та побудувати модель із явною залежністю від часу. Дійсно, деякі статистично налаштовані люди заперечують, що існує інший спосіб наблизитись до цього.

Те, що легко назвати трендом (але не завжди так легко визначити), підпадає під №2 або №3, або навіть обох.

Багато економістів та інших соціальних науковців, що переймаються сезонністю на ринках, національній та міжнародній економіці чи іншими людськими явищами, як правило, більше вражають можливостями більш складної мінливості протягом кожного дня або (частіше) року. Часто, хоча і не завжди, сезонність - це неприємність, яку потрібно усунути або коригувати, на відміну від біологічних та екологічних вчених, які часто вважають сезонність цікавою і важливою, навіть головним напрямком проекту. З цього приводу, економісти та інші також часто застосовують регресійний підхід, але з боєприпасами - пучок змінних індикаторів (фіктивних), найпростіше змінних на кожен місяць або кожен квартал року0,1. Це може бути практичним способом намагатися вловити наслідки названих свят, періодів відпусток, побічних шкільних років тощо, а також впливів або потрясінь кліматичного чи погодного походження. З урахуванням цих відмінностей, більшість коментарів, зазначених вище, стосуються також економічних та соціальних наук.

Ставлення та підходи епідеміологів та медичних статистиків, пов'язаних із різницею захворюваності, смертності, прийому до лікарень, відвідування клініки тощо, зазвичай стикаються між цими двома крайнощами.

На мій погляд, розділення днів або років на половинки для порівняння зазвичай довільне, штучне і в кращому випадку незручне. Він також ігнорує тип гладкої структури, як правило, присутній у даних.

EDIT Наразі обліковий запис не вирішує різницю між дискретним та безперервним часом, але я зі свого досвіду не вважаю це великою справою на практиці.

Але точний вибір залежить від того, як надходять дані та від форми зміни.

Якби дані були щоквартальними та людськими, я б схильний використовувати показники змінних (наприклад, чверті 3 та 4 часто відрізняються). Якщо щомісяця і людині, вибір не є зрозумілим, але вам доведеться наполегливо працювати, щоб продати синуси та косинуси більшості економістів. Якщо щомісяця або тонкіші та біологічні чи екологічні, безумовно, синуси та косинуси.

EDIT 2 Детальніше про тригонометричну регресію

Відмітною деталлю тригонометричної регресії (названої будь-яким іншим способом, якщо вам зручніше) є те, що майже завжди синусоїдальні та косинусні терміни найкраще представлені моделі в парах. Спочатку ми масштабуємо час доби, час року чи напрямок компаса, щоб він був представлений як кут на коло у радіанах, отже, на проміжку [ 0 , 2 π ] . Тоді використовуємо стільки пар sin k θ , cos k θ , k = 1 , 2 , 3 , θ[0,2π]гріхкθ,cosкθ,к=1,2,3,як це потрібно в моделі. (У круговій статистиці тригонометричні конвенції мають тенденцію до козиру статистичних умов, тому грецькі символи, такі як , використовуються як для змінних, так і параметрів.)θ,ϕ,ψ

Якщо ми пропонуємо пару предикторів, таких як для регресійної моделі, то ми маємо оцінки коефіцієнтів, скажімо, b 1 , b 2 , для термінів в моделі, а саме b 1 sin θ , b 2 cos θ . Це спосіб підгонки фази, а також амплітуда періодичного сигналу. Інакше кажучи, таку функцію, як sin ( θ + ϕ ), можна переписати якгріхθ,cosθб1,б2б1гріхθ,б2cosθгріх(θ+ϕ)

гріхθcosϕ+cosθгріхϕ,

але і sin ϕ, що представляють фазу, оцінюються в моделі підгонки. Таким чином ми уникаємо нелінійної проблеми оцінки.cosϕгріхϕ

Якщо ми використовуємо для моделювання кругової варіації, то автоматично максимум і мінімум цієї кривої знаходяться на півкруга один від одного. Це часто є дуже хорошим наближенням до біологічних чи екологічних змін, але, навпаки, нам може знадобитися ще кілька термінів, зокрема для того, щоб визначити економічну сезонність. Це може бути дуже вагомою причиною використання натомість змінних індикаторів, які негайно призводять до простої інтерпретації коефіцієнтів.б1гріхθ+б2cosθ


Зауважу, деякі несподівані дублювання відповіді від @Kelvin.
Нік Кокс

+1 (Окрім того, що ви використовували "казкове", як і ви! :) Нік Кокс, ви були б настільки люб'язними, щоб зробити явний випадок і для дискретних кругових змінних, відповідно до мого запитання? Чи буде це так просто, як підхід "тригонометричного моделювання", який ви описуєте, використовуючи дискретний показник часу? Або повинні бути якісь "виправлення безперервності"?
Олексій

Наскільки мені відомо, єдина різниця між дискретними та безперервними круговими змінними полягає в округленні значень до дискретних точок (наприклад, 2pm проти 14.12345hrs), як і у некруглих змінних, тому різниці не буде багато до тих пір, поки ви застосуєте менше округлення невеликими кроками щодо загального періоду. В основному, це лише питання помилки округлення чи ні. Краще ні, якщо ви зможете цього уникнути.
Келвін

Я згоден, що дискретні та безперервні не сильно відрізняються. На практиці багато вимірювань є більш-менш грубими, повідомляючи лише про чверті, півроку, місяці, дні тощо, або як все, що починається від (N. S) до (N, E, S, W) і закінчується до більш тонкої роздільної здатності для напрямків компаса. Детально розрізняються точкові вимірювання (температура в точний час) та інтервальні вимірювання (наприклад, загальні місячні продажі). Я б не збирав усі такі деталі разом, як помилка округлення, так як іноді немає помилок настільки, як агрегація чи усереднення.
Нік Кокс

4

Ось варіант без розповсюдження, оскільки, здається, це все одно ви шукаєте. Це не стосується сфери кругової статистики, до якої я досить неосвічений, але вона застосовна тут і в багатьох інших установах.

Х

YRгг1

Z: =(Х,Y)мzi=(хi,уi)

Тепер проведіть тест, використовуючи критерій незалежності Гільберта Шмідта (HSIC), як у наступному документі:

Ґреттон, Фукумізу, Тео, Сонг, Шьолкопф і Смола. Статистичний тест незалежності ядра. NIPS 2008. ( pdf )

Це є:

  • кХ

    • ХR2к(х,х')=досвід(-12σ2х-х'2)σХ
    • Х[-π,π]к(х,х')=досвід(κcos(х-х'))κ
  • лYYRн

  • НКLм×мКij=к(хi,хj)Lij=л(уi,уj)Н Н=Я-1м11Т1м2тr(КНLН)

Код Matlab для цього з ядрами RBF доступний у першого автора тут .


Такий підхід є приємним, оскільки він загальний і прагне добре працювати. Основними недоліками є:

  • м2
  • мм
  • кл


к(х-х')[-π,π]


3

Ви можете запустити t- test між середнім значенням протилежних "половинок" періоду, наприклад, порівнявши середнє значення з 12:00 до 12:00 зі середнім значенням з 12:00 до 12:00. А потім порівняйте середнє значення з 6 вечора до 6 ранку з середнім значенням з 6 ранку до 6 вечора.

Або якщо у вас є достатня кількість даних, ви можете розділити період на менші (наприклад, погодинні) сегменти та виконати t -тест між кожною парою сегментів, виправляючи при цьому кілька порівнянь.

Крім того, для більш "безперервного" аналізу (тобто без довільної сегментації) ви можете запустити лінійні регресії проти функцій синуса і косинуса вашої змінної спрямованості (з правильним періодом), які автоматично "циркулюють" ваші дані:

х'=сiн(х2π/pеriог)
х=cос(х2π/pеriог)

а

х=сiн((х+а)2π/pеriог)

а

ух'х

У будь-якому випадку, я думаю, що ви повинні зробити певні припущення щодо періоду, а потім перевірити відповідно.


Кельвін, "порушуючи" циркулярні дані, як ви описуєте, здавалося б, ігнорував саме те питання, яке я порушив щодо модульного впорядкування.
Олексій

Ви читали другу половину моєї відповіді, в якій описується безперервний аналіз множинною регресією?
Келвін

Ви маєте рацію про синус і косинус разом. Це пояснюється далі у моїй відповіді та в статті, в якій цитується, та в подальших посиланнях, які цитується.
Нік Кокс

@Nick - Я не бачив вашої відповіді, як ви писали після моєї останньої редакції, але добре, що ми дійшли такої самої відповіді незалежно, як я просто творча (практично думала вголос) і ніколи не бачила цього робити раніше.
Келвін
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.