Проблема з кореляціями щодо попарно повних спостережень
У випадку, який ви описуєте, головне питання - інтерпретація. Оскільки ви використовуєте парні повні спостереження, ви насправді аналізуєте трохи різні набори даних для кожної кореляції, залежно від того, які спостереження відсутні.
Розглянемо наступний приклад:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Три змінні в наборі даних, a
, b
і c
, кожен з них має деякі відсутні значення. Якщо ви обчислите кореляції на парах змінних тут, ви зможете використовувати лише випадки, у яких відсутні відсутні значення обох змінних. У цьому випадку це означає, що ви будете аналізувати лише три останні випадки співвідношення між a
і b
, лише перші три випадки кореляції між b
і c
тощо.
Те, що ви аналізуєте абсолютно різні випадки, коли ви обчислюєте кожну кореляцію, означає, що отримана закономірність кореляцій може виглядати безглуздо. Побачити:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Це виглядає як логічне протиріччя --- a
і b
сильно позитивно корелюють, а b
й c
також сильно позитивно корелюють, тому можна було б очікувати a
і c
бути позитивно корелюють , а також, але насправді сильна зв'язок в напрямку , протилежному. Ви можете зрозуміти, чому багато аналітиків цього не люблять.
Змініть, щоб включити корисні роз'яснення від whuber:
Зауважте, що частина аргументу залежить від того, що може означати "сильна" кореляція. Цілком можливо , a
і b
так само , як b
і c
бути «сильно позитивно корелюють» в той час як існує «сильна зв'язок в напрямку , протилежної» між a
і c
, але не зовсім , як крайній , як в цьому прикладі. Суть у тому, що матриця розрахункової кореляції (або коваріації) може бути не позитивно визначеною: саме так слід кількісно оцінити "сильний".
Питання про тип відсутності
Ви, можливо, думаєте собі: "Ну хіба не добре просто припускати, що підмножина випадків, які я маю в наявності для кожної кореляції, дотримується більш-менш тієї ж схеми, яку я отримала, якби у мене були повні дані?" Так, це правда - немає нічого принципово неправильного в обчисленні кореляції на підмножині ваших даних (хоча ви втрачаєте точність і потужність, звичайно, через менший розмір вибірки), якщо наявні дані є випадковими зразок усіх даних, які були б там, якби у вас не було відсутніх даних.
Коли відсутність є чисто випадковою, це називається MCAR (відсутнє повністю навмання). У такому випадку аналіз підмножини даних, у яких немає недоліків, не буде систематично зміщувати ваші результати, і навряд чи (але не неможливо) отримати таку гаймову схему кореляції, яку я показав у прикладі вище.
Якщо ваша відсутність певним чином систематизована (часто скорочується MAR або NI, окреслюючи два різні види систематичної відсутності), у вас є набагато серйозніші питання, як з точки зору потенційного введення упередженості у ваші розрахунки, так і з точки зору вашої здатності узагальнити свої результати для сукупності, що цікавить (адже зразок, який ви аналізуєте, не є випадковою вибіркою з популяції, навіть якби ваш повний набір даних був би).
Є багато великих ресурсів , доступних , щоб дізнатися про відсутніх даних і як боротися з цим, але моя рекомендація Рубін:
класичний ,
і більш недавній статті