Чи є серйозна проблема із скиданням спостережень із відсутніми значеннями при обчисленні кореляційної матриці?


12

У мене є цей величезний набір даних, що містить 2500 змінних і як 142 спостереження.

Я хочу запустити кореляцію між змінною X та рештою змінних. Але для багатьох стовпців записи відсутні.

Я спробував це зробити в R, використовуючи аргумент "попарно-повний" ( use=pairwise.complete.obs), і він вивів купу кореляцій. Але тоді хтось у StackOverflow опублікував посилання на цю статтю http://bwlewis.github.io/covar/missing.html, і це робить метод "попарно-повний" в R виглядати непридатним.

Моє запитання: Як дізнатися, коли доцільно використовувати параметр "попарно-повний"?

Я use = complete.obsповернувся no complete element pairs, тож якщо ви могли пояснити, що це теж означає, це було б чудово.


4
Класична історія, яку потрібно знати, - це історія Авраама Уолда та питання, куди додати броню до літаків у Другій світовій війні . Важливо мати певне розуміння того, чому ваші дані відсутні.
Меттью Ганн

Відповіді:


11

Проблема з кореляціями щодо попарно повних спостережень

У випадку, який ви описуєте, головне питання - інтерпретація. Оскільки ви використовуєте парні повні спостереження, ви насправді аналізуєте трохи різні набори даних для кожної кореляції, залежно від того, які спостереження відсутні.

Розглянемо наступний приклад:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

Три змінні в наборі даних, a, bі c, кожен з них має деякі відсутні значення. Якщо ви обчислите кореляції на парах змінних тут, ви зможете використовувати лише випадки, у яких відсутні відсутні значення обох змінних. У цьому випадку це означає, що ви будете аналізувати лише три останні випадки співвідношення між aі b, лише перші три випадки кореляції між bі cтощо.

Те, що ви аналізуєте абсолютно різні випадки, коли ви обчислюєте кожну кореляцію, означає, що отримана закономірність кореляцій може виглядати безглуздо. Побачити:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

Це виглядає як логічне протиріччя --- aі bсильно позитивно корелюють, а bй cтакож сильно позитивно корелюють, тому можна було б очікувати aі cбути позитивно корелюють , а також, але насправді сильна зв'язок в напрямку , протилежному. Ви можете зрозуміти, чому багато аналітиків цього не люблять.

Змініть, щоб включити корисні роз'яснення від whuber:

Зауважте, що частина аргументу залежить від того, що може означати "сильна" кореляція. Цілком можливо , aі bтак само , як bі cбути «сильно позитивно корелюють» в той час як існує «сильна зв'язок в напрямку , протилежної» між aі c, але не зовсім , як крайній , як в цьому прикладі. Суть у тому, що матриця розрахункової кореляції (або коваріації) може бути не позитивно визначеною: саме так слід кількісно оцінити "сильний".

Питання про тип відсутності

Ви, можливо, думаєте собі: "Ну хіба не добре просто припускати, що підмножина випадків, які я маю в наявності для кожної кореляції, дотримується більш-менш тієї ж схеми, яку я отримала, якби у мене були повні дані?" Так, це правда - немає нічого принципово неправильного в обчисленні кореляції на підмножині ваших даних (хоча ви втрачаєте точність і потужність, звичайно, через менший розмір вибірки), якщо наявні дані є випадковими зразок усіх даних, які були б там, якби у вас не було відсутніх даних.

Коли відсутність є чисто випадковою, це називається MCAR (відсутнє повністю навмання). У такому випадку аналіз підмножини даних, у яких немає недоліків, не буде систематично зміщувати ваші результати, і навряд чи (але не неможливо) отримати таку гаймову схему кореляції, яку я показав у прикладі вище.

Якщо ваша відсутність певним чином систематизована (часто скорочується MAR або NI, окреслюючи два різні види систематичної відсутності), у вас є набагато серйозніші питання, як з точки зору потенційного введення упередженості у ваші розрахунки, так і з точки зору вашої здатності узагальнити свої результати для сукупності, що цікавить (адже зразок, який ви аналізуєте, не є випадковою вибіркою з популяції, навіть якби ваш повний набір даних був би).

Є багато великих ресурсів , доступних , щоб дізнатися про відсутніх даних і як боротися з цим, але моя рекомендація Рубін: класичний , і більш недавній статті


2
аббcаc

1
@whuber Спасибі, це важливий момент. Я оновив цей розділ відповіді, щоб включити це пояснення.
Роза Хартман

7

Величезне занепокоєння полягає в тому, чи відсутні дані в якийсь систематичний спосіб, який би пошкодив ваш аналіз. Ваші дані можуть бути відсутніми не випадково.

Про це було сказано в попередніх відповідях, але я подумав, що я принесу приклад.

Приклад фінансів: відсутні показники прибутку можуть бути поганими

  • На відміну від пайових фондів, законодавчі фонди приватного капіталу (та інші приватні фонди) не вимагають звітування про їх повернення до якоїсь центральної бази даних.
  • Отже, головне занепокоєння полягає в тому, що звітність є ендогенною, точніше, що деякі фірми не повідомлять про погану віддачу.
  • 1нiRiRi

У цих ситуаціях все необов'язково втрачається (є речі, які ви можете зробити), але наївне проведення регресії (або обчислення кореляцій) на відсутніх даних може призвести до серйозно упереджених, непослідовних оцінок справжніх параметрів у сукупності.


4

Паралельне співвідношення є доцільним, якщо у ваших відсутніх даних відсутні випадкові випадкові дані (MCAR). Книга про відсутні дані Пол Аллісона - це гарне місце для початку.

Ви можете перевірити це за допомогою Little's (1988) MCAR Test, який є в BaylorEdPsychупаковці.


1
Все ще є привід для занепокоєння: навіть за даними MCAR, матриця кореляції, оцінена за допомогою попарної кореляції, може не бути позитивно визначеною.
whuber

Звичайно, але питання стосується співвідношення, воно не згадує про використання отриманої кореляційної матриці як вхід до якогось іншого алгоритму. І, враховуючи розмір вибірки, MCAR все одно малоймовірний.
Тім

1
Якщо матриця не є позитивно-визначеною, це недійсна оцінка. Принаймні, ми повинні бути стурбовані цією суперечливістю. Боюся, я не бачу, як ймовірність MCAR (це механізм відсутності) могла бути пов'язана з розміром вибірки.
whuber

Запитника цікавить один рядок кореляційної матриці. Чи є у вас доказ, що показує, що кореляції рядки недійсні, якщо матриця не є позитивною? Я хотів би бачити докази цього і набувати певної мудрості. Загалом, MCAR є малоймовірним із реальними даними. З великим розміром вибірки потужність тесту Літтла збільшується, тому є хороший шанс відкинути нульову гіпотезу MCAR. Не помиляйтесь тут: я ніколи не використовував би матрицю кореляції часткових даних як вхід у багатоваріантний метод, але це не те, про що задається питання.
Тім

1
Дозвольте уточнити: я не стверджував, що співвідношення "недійсні". Я стверджував, що збірка кореляційних оцінок (тобто матриця) може бути недійсною. Це незаперечно (не вимагаючи доказів), оскільки все, що потрібно зробити, - це показати один екземпляр недійсної оцінки, що @RoseHartman вже зробив у цій темі. Я не заперечую вашу заяву про те, що MCAR може бути малоймовірним - за умови, що це розуміється в особистому розумінні: за вашим досвідом, з тими даними, якими ви знайомі, MCAR є рідкістю. Я не бачу, як ви можете виправдати будь-яке ширше тлумачення цієї заяви.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.