Проблема з кореляціями щодо попарно повних спостережень
У випадку, який ви описуєте, головне питання - інтерпретація. Оскільки ви використовуєте парні повні спостереження, ви насправді аналізуєте трохи різні набори даних для кожної кореляції, залежно від того, які спостереження відсутні.
Розглянемо наступний приклад:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Три змінні в наборі даних, a, bі c, кожен з них має деякі відсутні значення. Якщо ви обчислите кореляції на парах змінних тут, ви зможете використовувати лише випадки, у яких відсутні відсутні значення обох змінних. У цьому випадку це означає, що ви будете аналізувати лише три останні випадки співвідношення між aі b, лише перші три випадки кореляції між bі cтощо.
Те, що ви аналізуєте абсолютно різні випадки, коли ви обчислюєте кожну кореляцію, означає, що отримана закономірність кореляцій може виглядати безглуздо. Побачити:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Це виглядає як логічне протиріччя --- aі bсильно позитивно корелюють, а bй cтакож сильно позитивно корелюють, тому можна було б очікувати aі cбути позитивно корелюють , а також, але насправді сильна зв'язок в напрямку , протилежному. Ви можете зрозуміти, чому багато аналітиків цього не люблять.
Змініть, щоб включити корисні роз'яснення від whuber:
Зауважте, що частина аргументу залежить від того, що може означати "сильна" кореляція. Цілком можливо , aі bтак само , як bі cбути «сильно позитивно корелюють» в той час як існує «сильна зв'язок в напрямку , протилежної» між aі c, але не зовсім , як крайній , як в цьому прикладі. Суть у тому, що матриця розрахункової кореляції (або коваріації) може бути не позитивно визначеною: саме так слід кількісно оцінити "сильний".
Питання про тип відсутності
Ви, можливо, думаєте собі: "Ну хіба не добре просто припускати, що підмножина випадків, які я маю в наявності для кожної кореляції, дотримується більш-менш тієї ж схеми, яку я отримала, якби у мене були повні дані?" Так, це правда - немає нічого принципово неправильного в обчисленні кореляції на підмножині ваших даних (хоча ви втрачаєте точність і потужність, звичайно, через менший розмір вибірки), якщо наявні дані є випадковими зразок усіх даних, які були б там, якби у вас не було відсутніх даних.
Коли відсутність є чисто випадковою, це називається MCAR (відсутнє повністю навмання). У такому випадку аналіз підмножини даних, у яких немає недоліків, не буде систематично зміщувати ваші результати, і навряд чи (але не неможливо) отримати таку гаймову схему кореляції, яку я показав у прикладі вище.
Якщо ваша відсутність певним чином систематизована (часто скорочується MAR або NI, окреслюючи два різні види систематичної відсутності), у вас є набагато серйозніші питання, як з точки зору потенційного введення упередженості у ваші розрахунки, так і з точки зору вашої здатності узагальнити свої результати для сукупності, що цікавить (адже зразок, який ви аналізуєте, не є випадковою вибіркою з популяції, навіть якби ваш повний набір даних був би).
Є багато великих ресурсів , доступних , щоб дізнатися про відсутніх даних і як боротися з цим, але моя рекомендація Рубін:
класичний ,
і більш недавній статті