Як я перевіряю незалежність двох безперервних змінних?


48

Припустимо , у мене є зразок від спільного розподілу X і Y . Як перевірити гіпотезу про те , що X і Y є незалежними ?(Xn,Yn),n=1..NXYXY

Ніяких припущень щодо законів спільного або граничного розподілу і Y не припускається (щонайменше, всі спільні нормальності, оскільки в цьому випадку незалежність є тотожною кореляції, що дорівнює 0 ).XY0

Не існує припущення щодо природи можливих відносин між і Y ; він може бути нелінійним, тому змінні не співвідносяться ( r = 0 ), але сильно залежать від одного ( I = H ).XYr=0I=H

Я бачу два підходи:

  1. Розмістіть обидві змінні та використовуйте точний тест Фішера або G-тест .

    • Про: використовуйте налагоджені статистичні тести
    • Con: залежить від binning
  2. Оцінити залежність від і Y : I ( X ; Y )XYI(X;Y)H(X,Y) (цедля незалежнихXіYі1,коли вони повністю визначають один одного).0XY1

    • Про: виробляє число з чітким теоретичним значенням
    • Con: залежить від приблизних обчислень ентропії (тобто, бінінгування знову)

Чи мають сенс ці підходи?

Які інші методи використовують люди?




1
I(X;Y)/H(X;Y)HXY

@fonini: звичайно, я говорив про binned змінні. Дякуємо за Ваш коментар.
sds

Відповіді:


27

Це взагалі дуже складна проблема, хоча ваші змінні, мабуть, лише 1d, тому це допомагає. Звичайно, першим кроком (коли це можливо) має стати складання даних і перевірка, чи щось у вас вискакує; ви в 2d, тому це повинно бути легко.

Rn


Чи можете ви коротко зазначити, як ці підходи порівнюються з кореляцією на відстані ? Я використовую DC для просіювання великих наборів даних (ну, для мене великих), тому я зацікавлений у будь-яких коментарях. Дякую!
pteetor

1
@pteetor Цікаво, що раніше я не стикався з кореляцією відстані. Обчислено, це здається дорожчим, ніж підхід оцінки ентропії для великих розмірів вибірки, тому що вам потрібні матриці на повну відстань (де для оцінювачів ентропії ви можете використовувати індекси, щоб отримати лише перших kсусідів). Поняття не маю, як воно порівнюється за статистичною силою / тощо
Дугал

4
Для пізніших читачів: Документ 2013 р. Еквівалентність статистики, заснованої на відстані та на основі RKHS, у тестуванні гіпотез Сейдінович та ін. показує, що кореляція відстані та інші енергетичні відстані є окремими випадками MMD, основної міри, що стоїть за HSIC, та обговорює взаємозв'язок з точки зору випробувальної потужності тощо.
Дугал


6

Як щодо цього документу:

http://arxiv.org/pdf/0803.4101.pdf

"Вимірювання та тестування залежності шляхом співвідношення відстаней". У Секелі та Бакірова завжди є цікаві речі.

Існує код matlab для реалізації:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Якщо ви знайдете будь-який інший (простий у здійсненні) тест на незалежність, повідомте нам про це.


2
Ласкаво просимо на сайт, @JLp. Ми сподіваємось створити постійний сховище високоякісної статистичної інформації у формі питань та відповідей. Як таке, одне, про що ми хвилюємось, - це лінкрот. Зважаючи на це, чи не могли б ви заздалегідь дати резюме того, що є у цій статті / як вона відповідає на запитання, на випадок, якщо посилання перерветься. Це також допоможе майбутнім читачам цієї теми вирішити, чи хочуть вони вкласти час для читання статті.
gung - Відновити Моніку

@gung: це те саме, що енергія
sds

5

Зв'язок між коваріацією відстані та тестами на ядрах (на основі критерію незалежності Гільберта-Шмідта) наведено у статті:

Sejdinovic, D., Sriperumbudur, B., Gretton, A., and Fukumizu, K., Equivalence of distance-based and RKHS statistics in testing the hypothesis, Annals Statistics, 41 (5), pp.2263-2702, 2013 рік

Показано, що коваріація відстані - це особливий випадок статистики ядра для певного сімейства ядер.

Якщо ви маєте намір використовувати взаємну інформацію, тест, який базується на кошторисній оцінці ІМ, є:

Греттон, А. та Дьорфі, Л., Послідовні непараметричні тести незалежності, Журнал машинного навчання, 11, с.1391--1423, 2010.

Якщо вам цікаво отримати найкращу потужність тесту, вам краще скористатися тестами ядра, а не бінінгу та взаємної інформації.

Однак, враховуючи, що ваші змінні є універсальними, класичні непараметричні тести на незалежність на зразок Гоффдінга, ймовірно, добре.


4

Рідко (ніколи?) В статистиці ви не можете продемонструвати, що ваша вибіркова статистика = бальне значення. Ви можете перевірити значення точок і або виключити їх, або не виключити. Але природа статистики полягає в тому, що мова йде про вивчення змінних даних. Оскільки завжди є дисперсія, то обов'язково не буде способу дізнатися, що щось точно не пов'язане, нормальне, гауссове тощо. Ви можете знати лише коло значень для цього. Ви могли знати, чи не виключається значення з діапазону правдоподібних значень. Наприклад, легко виключити жодне відношення і дати діапазон значень наскільки великі стосунки.

Тому, намагаючись продемонструвати відсутність стосунків, по суті бальне значення relationship = 0не збирається зустрітись з успіхом. Якщо у вас є цілий спектр заходів взаємовідносин, прийнятний приблизно приблизно 0. Тоді можна було б розробити тест.

Припускаючи, що ви можете прийняти це обмеження, було б корисно людям, які намагаються допомогти вам надати розсіювач з кривою низькості. Оскільки ви шукаєте R-рішення, спробуйте:

scatter.smooth(x, y)

На основі обмеженої інформації, яку ви надали до цього часу, я думаю, що узагальнена модель добавок може бути найкращим для перевірки незалежності. Якщо ви задумали, що з CI навколо прогнозованих значень, ви, можливо, зможете зробити заяви про віру в незалежність. Ознайомтеся з gamпакетом mgcv. Допомога досить хороша, і тут є допомога щодо ІС .


2

Це може бути цікаво ...

Гарсія, ЖЕ; Gonzalez-Lopez, VA (2014) Тести незалежності для безперервних випадкових величин на основі найбільш тривалої зростаючої послідовності. Журнал багатоваріантного аналізу, т. 127 с. 126-146.

http://www.sciencedirect.com/science/article/pii/S0047259X14000335


2
Ця публікація отримає більше інформації про те, що є у статті, тим більше, що вона стоїть за платною стіною.
Ерік

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.