Чому не добре робити співвідношення Пірсона щодо даних про пропорції?


10

Інтернет-модуль, який я вивчаю, стверджує, що ніколи не слід використовувати співвідношення Пірсона з пропорційними даними. Чому ні?

Або якщо іноді це нормально або завжди добре, то чому?


3
Що це говорить і в якому контексті? "Ніколи" не здається занадто сильним, якщо вони не говорять про якусь дуже обмежену ситуацію. Можливо, той, хто це написав, просто помиляється, але без контексту, як нам здогадатися?
Glen_b -Встановіть Моніку

2
Онлайн-модуль є власником, і я не можу пов’язати його. Однак я знайшов відео, де йдеться про те саме: australianbioinformatics.net/the-pipeline/2013/3/19/… . І модуль, який я бачив, і це відео вказують на відсутність контекстів, у яких співвідносні пропорції є прийнятними.
user1205901

4
"Ніколи" не надто сильний. Є причини бути обережними при тлумаченні коефіцієнтів кореляції, що включають пропорції, особливо ті, які базуються на невеликих підрахунках. Але той же аналіз, що підтверджує ці причини, також показує, що коли пропорції базуються на великих підрахунках, а пропорції "достатньо далекі" від або , то коефіцієнти кореляції не є проблематичними. Крім того, завжди можна повідомити коефіцієнт кореляції для будь-якого набору парних даних (де обидва компоненти демонструють різницю) у вигляді підсумкової (описової) статистики. 101
whuber

Відповіді:


6

Це у випадку, коли декілька змінних сумуються разом до 1 у кожному спостереженні. Моя відповідь буде рівнем інтуїції; це навмисно (і також я не є експертом композиційних даних).

Нехай є iid (отже, з нульовою кореляцією) позитивні змінні величини, які ми потім підсумовуємо і перераховуємо як пропорції цієї суми. Тоді,

  • У випадку двох змінних V1 V2 , якщо кажуть, що V1 вільно змінюється, то V2 не має місця для свободи (оскільки V1 + V2 = константа) і повністю фіксований; чим більше V1, тим менше V2, тим менше V1, тим більше V2. Їх співвідношення становить лише і завжди так.1
  • У випадку 3 змінних V1 V2 V3 , якщо сказано, що V1 вільно змінюється, то V2 + V3 є фіксованим; що означає, що всередині (V2 + V3) кожна з двох змінних все ще частково вільна: вони в середньому фіксуються в рази кожна, повністю фіксована загалом. Отже, якщо будь-яку з трьох змінних прийняти як вільну (як ми взяли V1), будь-яка з двох інших змін очікується фіксованою. Так що співвідношення між ними становить . Це очікувана кореляція; він може відрізнятися від зразка до зразка.1 / 2 - 0,51/21/20.5
  • У випадку 4 змінних V1 V2 V3 V4 за тим же міркуванням ми маємо те, що якщо ми візьмемо будь-яку з чотирьох як вільну, то будь-яка з решти, як очікується, буде фіксованою на ; Таким чином, очікувана кореляція між будь-якою парою з чотирьох - одна вільна, а інша - як фіксованої - становить .1 / 3 - 0,3331/31/30.333
  • Зі збільшенням кількості (спочатку iid) змінних очікувана попарна кореляція зростає від негативної до , а її варіація від вибірки до вибірки стає більшою.0

Гаразд, але я думаю, що інтерес полягає в парах V1, V2, кожен V підсумовуючи 1 (100%), але жодних обмежень на окремі V, крім кожного, що є дробом.
Нік Кокс

each V summing to 1 ( 100%)Вибачте? Я тебе не зрозумів. Я не обмежую окремі V, лише будучи дробом. Однак початкове обмеження полягало в тому, що мій приклад передбачає нульові кореляції до перетворення Vs на дроби.
ttnphns

Ви мали на увазі, що для кожного V є значення, що підсумовують 1 ("вертикально")? Ні, я мав на увазі "хоризонтально" для різних змінних. Але, на жаль, ОП не з'ясувала суть у їхньому питанні. Тож я взяв так, як взяв.
ttnphns

Так; тобто я думаю, що тут зазвичай мається на увазі, але питання не особливо зрозуміле.
Нік Кокс

1
@ttnphns Я бачив твердження, що ніколи не слід робити співвідношення Пірсона двох змінних, виміряних як пропорції. Я намагався зробити це зрозумілішим, редагуючи ОП, щоб виділити слово «ніколи». Відео робить те саме твердження у своєму заголовку ("Не співвідносячи пропорції!"), Хоча вони обговорюють це лише у контексті композиційних даних. Я навмисно залишив контекст невизначеним, оскільки моє джерело заявило, що кореляції Пірсона не слід використовувати на даних пропорцій ні в якому контексті. Однак, здається, відповідь на моє запитання: "Співвідношення пропорцій нормально, за винятком деяких контекстів".
user1205901

10

Відеопосилання вашого коментаря задає контекст композиції, яку також можна назвати сумішами. У цих випадках сума частки кожного компонента дорівнює 1. Наприклад, Повітря - це 78% азоту, 21% кисню та 1% інших (загальна 100%). Враховуючи, що кількість одного компонента повністю визначається іншими, будь-які два компоненти матимуть ідеальне багатолінійне співвідношення. Для повітряного прикладу ми маємо:

x1+x2+x3=1

так то:

x1=1x2x3

x2=1x1x3

x3=1x1x2

Тож якщо ви знаєте будь-які два компоненти, третій одразу відомий.

Загалом обмеження щодо сумішей є

i=1qxi=1

Це обмеження робить рівні факторів невідмінними.xi

Ви можете обчислити кореляцію між двома компонентами, але це не інформативно , оскільки вони завжди співвідносяться. Докладніше про композиційний аналіз можна прочитати в " Аналіз даних, виміряних як пропорційний склад" .

Ви можете використовувати кореляцію, коли дані про пропорції є з різних областей. Скажіть, що ваша відповідь - частка мертвих пікселів на РК-екрані. Ви можете спробувати співвіднести це, скажімо, з фракцією гелію, що використовується на етапі хімічної обробки екрану.


Я бачу - я помилково подумав, що композиції - це лише приклад. Чи справедливо сказати, що співвідношення пропорцій, як правило, не є проблематичним, якщо у вас немає ситуації, коли композиції «змушують» існувати кореляцію?
user1205901

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipне зрозуміло. Чи можете ви її розширити?
ttnphns

Я також не розумію цієї відповіді. У вашому 3-змінному прикладі кожен визначається ДВОМИ іншими, але кореляція Пірсона аналізує лише одну змінну по відношенню до ONE. Так, наприклад, якщо дивитися на азот проти кисню, у вас може бути набір даних (азот, кисень) [(0,78, 0,21), (0,20, 0,41), (0,44, 0,44)], і ви можете зробити дійсний коефіцієнт кореляції обчислення цих даних (і це, звичайно, не є лінійним). Коефіцієнт кореляції Пірсона не знає і не піклується про "інших" там ...
Jason C

3
Як своєрідний мета-коментар, я не очікував би бачити важкодоступний матеріал, посилається на авторитет будь-якого статистичного пункту, не те, що ви пропонуєте зробити це. Отже, на одному рівні це просто: є література про композиційний аналіз даних, куди слід шукати; Я не фахівець, тому не можу сказати, що є найбільш авторитетним щодо кореляції, але мій інстинкт полягає в тому, що попередження перебільшене. Описове використання кореляції може бути корисним. Просто умовиводи ускладнюються обмеженням підсумків.
Нік Кокс

Я думаю, що "частка мертвих пікселів" була б добре, якби ми збирали вимірювання з РК-екранів, які мають однакову кількість пікселів, а тиск газу в процесі залишався постійним. Але як тільки ви почнете дозволяти знаменникам цих пропорцій змінюватися, хто може сказати, що таке ефект гелію?
Девід Ловелл

5

Це глибоке запитання, яке має деякі тонкощі. Я постараюся зробити все можливе, але, хоч я опублікував цю тему ( Пропорційність: Дійсна альтернатива кореляції відносних даних ), я завжди готовий здивуватися новим розумінням аналізу даних, що містять лише відносну інформацію.

Як вказували учасники цього потоку, кореляція є горезвісною (в деяких колах) тим, що вона є безглуздою при застосуванні до композиційних даних, що виникає, коли набір компонентів обмежений для додавання до константи (як ми бачимо з пропорціями, відсотками, частин на мільйон тощо).

Карл Пірсон угадав про це помилкову кореляцію . (Примітка. Популярний сайт Шляпової кореляції Тайлера Вігена - не стільки про помилкову кореляцію, скільки на помилку " кореляція передбачає причинну причину ".)

Розділ 1.7 "Короткого посібника з аналізу композиційних даних" Aitchison (2003) дає класичну ілюстрацію того, чому кореляція є невідповідним заходом для об'єднання композиційних даних (для зручності, цитованих у цій додатковій інформації .

Композиційні дані виникають не лише тоді, коли набір невід’ємних компонентів робиться для підсумовування константи; Дані, як кажуть, є композиційними, коли вони несуть лише відносну інформацію.

Я думаю, що основна проблема співвідношення даних, які несуть лише відносну інформацію, полягає в інтерпретації результату. Це питання, яке ми можемо проілюструвати однією змінною; скажімо, "пончики, вироблені за долар ВВП" для країн світу. Якщо цінність одного народу вища за іншу, це тому, що

  • виробництво їх пончиків вище?
  • їх ВВП нижчий?

... хто може сказати?

Звичайно, коли люди зауважують про цю нитку, можна обчислити співвідношення цих видів змінних як описову змінну. Але що означають такі кореляції?


3

У мене було те саме питання. Я вважав цю посилання на biorxiv корисною:

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Пропорційність: допустима альтернатива кореляції для відносних даних"

У підтверджуючій інформації цього документу (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417) автори зазначають, що кореляції між відносним достатнім числом не дають жодної інформації в деяких випадках. Вони наводять приклад відносної кількості двох експресій мРНК. На малюнку S2 відносні достатки двох різних мРНК ідеально негативно корелюють, хоча кореляція цих двох мРНК в абсолютних значеннях негативно не пов'язана (зелені та фіолетові точки).

Можливо, це могло б вам допомогти.


2
Дякуємо за вашу пропозицію. Я не дав зрозуміти. Підтримуючи інформацію цього документу (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417 ), автори зазначають, що кореляції між відносними достатками не дають жодної інформації в деяких випадках. Вони наводять приклад відносної кількості двох експресій мРНК. На малюнку S2 відносна кількість двох різних мРНК ідеально негативно корелює, хоча кореляція цих двох мРНК в абсолютних значеннях не є негативною (зелені та фіолетові точки).
позов

@shu, можливо, ти можеш сказати, чому ця стаття допомогла тобі з подібною проблемою та узагальнити її? .. Посилання для вставки - це не відповідь, тому, будь ласка, детальніше розробимо трохи більше. Причина цього також полягає в тому, що посилання вмирають, і якщо ви хочете, щоб ваша відповідь була корисною для когось у майбутньому, ви повинні зробити її самовідповідною. Звичайно, надання додаткової посилання на вашу відповідь є доброю звичкою.
Тім
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.