Чи можна алгоритм MIC для виявлення нелінійних кореляцій пояснити інтуїтивно?


20

Зовсім недавно я прочитав дві статті. Перший - про історію кореляції, а другий - про новий метод під назвою Максимальний інформаційний коефіцієнт (MIC). Мені потрібна ваша допомога щодо розуміння методу MIC для оцінки нелінійних кореляцій між змінними.

Більше того, Інструкції щодо використання в R можна знайти на веб-сайті автора (у розділі Завантаження ):

Я сподіваюся, що це буде гарною платформою для обговорення та розуміння цього методу. Моя зацікавленість обговорити інтуїцію, що стоїть за цим методом, і про те, як його можна розширити, як сказав автор.

" ... нам потрібні розширення MIC (X, Y) до MIC (X, Y | Z). Ми хочемо знати, скільки даних потрібно для отримання стабільних оцінок MIC, наскільки це сприйнятливість до людей, які тривають - або вищі розміри, які будуть пропущені, і багато іншого. MIC - це великий крок вперед, але потрібно зробити ще багато кроків ".


Питання цікаве, але я думаю, що це не відповідає. Чи можете ви, будь ласка, зробити це більш конкретним?
mpiktas

3
Дискусію буде заважати той факт, що стаття в науці не є відкритим доступом.
Ітамар

7
Ось копія статті, звільненого одним із авторів.

10
Коротше кажучи, MIC - це розкопка старовинної ідеї "сюжет - всі-розпорошувачі-піки-ті-з-найбільшими-білими", тому він в основному створює помилкові позитиви, має нереальну складність (який автори ховаються за евристичними лише тестовими-деякими-випадковими виділеними парами) і за задумом пропускає всі три- і більше змінних взаємодії. О(М2)

4
Щодо технічних деталей щодо MIC, що підтримує Інтернет-матеріал є більш інформативним, ніж сама стаття.
res

Відповіді:


22

Хіба це не говорить про те, що це було опубліковано в нестатистичному журналі, в статистичному рецензуванні якого ми не впевнені? Цю проблему вирішив Гефдінг в 1948 р. (Annals of Mathematical Statistics 19: 546), який розробив прямий алгоритм, не вимагаючи ні бінінгу, ні декількох кроків. Про роботу Гефдінга навіть не згадували у статті Science. Це було у функції R hoeffdв Hmiscупаковці вже багато років. Ось приклад (тип example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdвикористовує досить ефективну Фортранську реалізацію методу Гоффдінга. Основна ідея його тесту полягає в тому, щоб розглянути різницю між спільними рангами X і Y та добутком граничного рангу X та граничного рангу Y, відповідним чином масштабованого.

Оновлення

З тих пір я листуюсь з авторами (які, до речі, дуже приємні, відкриті до інших ідей і продовжують досліджувати їх методи). Спочатку вони мали в своєму рукописі посилання на Гоффдінга, але вирізали його (з жалем зараз) через брак місця. Хоча здається, що тест Гефдінга добре допомагає виявляти залежність на їхніх прикладах, він не дає індексу, який відповідає їх критеріям впорядкування ступенів залежності так, як здатне людське око.D

У майбутньому випуску Hmiscпакету R я додав два додаткові виходи, пов'язані з , а саме середнє та максякі є корисними заходами залежності. Однак ці заходи, як і , не мають властивості, до якої прагнули творці MIC.D|Ж(х,у)-Г(х)Н(у)|D


6
(+1) Папір Гефдінга доступна в Інтернеті.
res

1
Приємна знахідка. Можливо, варто відзначити коротку науку, яка порівнює продуктивність Хофдінга з їхніми. Шкода, що багато добрих досліджень (у багатьох галузях) з 50-х років були забуті роками.
Ітамар

6

Метод MIC заснований на Взаємній інформації (MI), яка кількісно визначає залежність між спільним розподілом X та Y та тим, яким був би спільний розподіл, якби X та Y були незалежними (Див., Наприклад, запис у Вікіпедії ). Математично MI визначається як де - ентропія однієї змінної і - спільна ентропія двох змінних.

МЯ=Н(Х)+Н(Y)-Н(Х,Y)
Н(Х)=-ip(zi)журналp(zi)
Н(Х,Y)=-i,jp(хi,уj)журналp(хi,уj)

Основна ідея авторів - дискретизувати дані на безліч різних двовимірних сіток та обчислити нормовані бали, що представляють взаємну інформацію двох змінних у кожній сітці. Оцінки нормалізуються, щоб забезпечити справедливе порівняння між різними сітками та варіювати між 0 (некорельований) та 1 (високий співвідношення).

MIC визначається як найвищий отриманий бал і є показником того, наскільки сильно співвідносяться дві змінні. Фактично, автори стверджують, що для безшумних функціональних зв'язків значення MIC порівнянні з коефіцієнтом визначення ( ).R2


3

Я знайшов дві хороші статті, що пояснюють більш чітко ідею MIC, зокрема цю ; тут другий .

Як я зрозумів з цих читань, це те, що ви можете збільшити масштаб до різних складностей і масштабів відносин між двома змінними, досліджуючи різні комбінації сіток; ці сітки використовуються для розділення двовимірного простору на комірки. Вибравши сітку, яка містить найбільшу інформацію про те, як клітинки розділяють простір, який ви вибираєте MIC.

Я хотів би запитати @mbq, чи може він розширити те, що він назвав "сюжет-всі-розсіювачі-і-пік-ті-з-найбільшими-білими областями" та нереальна складність O (M2).


4
Я хвилююся про будь-який статистичний метод, який використовує бінінг.
Френк Харрелл

@FrankHarrell Чи можете ви надати посилання чи інтуїцію, яка детально пояснює, чому поширювати це погано? Інтуїтивно я можу бачити, що ви по суті викидаєте інформацію через бінінг, але причин має бути більше?
Кіран К.

Занадто багато посилань, щоб знати, з чого почати. Жоден статистичний метод, заснований на бінінгу, в кінцевому рахунку не виживає. Довільність - одна з багатьох проблем.
Френк Харрелл

@FrankHarrell Вдячний за коментар. Причина, про яку я попросив довідок, це те, що я докторант, і зараз вивчаю поняття залежності та багатоваріантну залежність, і хотів би прочитати ці документи та цитувати їх у своїх власних роботах у майбутньому. Якщо ви могли б згадати одну-дві видатні, я впевнений, що зможу знайти ті, що ви згадуєте. Я також виконую тут копання та розміщую посилання, якщо знайду хороші.
Кіран К.

Почніть з citeulike.org/user/harrelfe/article/13265458, потім перегляньте іншу інформацію про дихотомізацію на biostat.mc.vanderbilt.edu/CatContinuous . Для загальної міри залежності, яка не потребує жодного поширювання, не пропустіть citeulike.org/user/harrelfe/article/13264312
Frank
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.