Інтернет-модуль, який я вивчаю, стверджує, що ніколи не слід використовувати співвідношення Пірсона з пропорційними даними. Чому ні?
Або якщо іноді це нормально або завжди добре, то чому?
Інтернет-модуль, який я вивчаю, стверджує, що ніколи не слід використовувати співвідношення Пірсона з пропорційними даними. Чому ні?
Або якщо іноді це нормально або завжди добре, то чому?
Відповіді:
Це у випадку, коли декілька змінних сумуються разом до 1 у кожному спостереженні. Моя відповідь буде рівнем інтуїції; це навмисно (і також я не є експертом композиційних даних).
Нехай є iid (отже, з нульовою кореляцією) позитивні змінні величини, які ми потім підсумовуємо і перераховуємо як пропорції цієї суми. Тоді,
each V summing to 1 ( 100%)
Вибачте? Я тебе не зрозумів. Я не обмежую окремі V, лише будучи дробом. Однак початкове обмеження полягало в тому, що мій приклад передбачає нульові кореляції до перетворення Vs на дроби.
Відеопосилання вашого коментаря задає контекст композиції, яку також можна назвати сумішами. У цих випадках сума частки кожного компонента дорівнює 1. Наприклад, Повітря - це 78% азоту, 21% кисню та 1% інших (загальна 100%). Враховуючи, що кількість одного компонента повністю визначається іншими, будь-які два компоненти матимуть ідеальне багатолінійне співвідношення. Для повітряного прикладу ми маємо:
так то:
Тож якщо ви знаєте будь-які два компоненти, третій одразу відомий.
Загалом обмеження щодо сумішей є
Це обмеження робить рівні факторів невідмінними.
Ви можете обчислити кореляцію між двома компонентами, але це не інформативно , оскільки вони завжди співвідносяться. Докладніше про композиційний аналіз можна прочитати в " Аналіз даних, виміряних як пропорційний склад" .
Ви можете використовувати кореляцію, коли дані про пропорції є з різних областей. Скажіть, що ваша відповідь - частка мертвих пікселів на РК-екрані. Ви можете спробувати співвіднести це, скажімо, з фракцією гелію, що використовується на етапі хімічної обробки екрану.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
не зрозуміло. Чи можете ви її розширити?
Це глибоке запитання, яке має деякі тонкощі. Я постараюся зробити все можливе, але, хоч я опублікував цю тему ( Пропорційність: Дійсна альтернатива кореляції відносних даних ), я завжди готовий здивуватися новим розумінням аналізу даних, що містять лише відносну інформацію.
Як вказували учасники цього потоку, кореляція є горезвісною (в деяких колах) тим, що вона є безглуздою при застосуванні до композиційних даних, що виникає, коли набір компонентів обмежений для додавання до константи (як ми бачимо з пропорціями, відсотками, частин на мільйон тощо).
Карл Пірсон угадав про це помилкову кореляцію . (Примітка. Популярний сайт Шляпової кореляції Тайлера Вігена - не стільки про помилкову кореляцію, скільки на помилку " кореляція передбачає причинну причину ".)
Розділ 1.7 "Короткого посібника з аналізу композиційних даних" Aitchison (2003) дає класичну ілюстрацію того, чому кореляція є невідповідним заходом для об'єднання композиційних даних (для зручності, цитованих у цій додатковій інформації .
Композиційні дані виникають не лише тоді, коли набір невід’ємних компонентів робиться для підсумовування константи; Дані, як кажуть, є композиційними, коли вони несуть лише відносну інформацію.
Я думаю, що основна проблема співвідношення даних, які несуть лише відносну інформацію, полягає в інтерпретації результату. Це питання, яке ми можемо проілюструвати однією змінною; скажімо, "пончики, вироблені за долар ВВП" для країн світу. Якщо цінність одного народу вища за іншу, це тому, що
... хто може сказати?
Звичайно, коли люди зауважують про цю нитку, можна обчислити співвідношення цих видів змінних як описову змінну. Але що означають такі кореляції?
У мене було те саме питання. Я вважав цю посилання на biorxiv корисною:
Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Пропорційність: допустима альтернатива кореляції для відносних даних"
У підтверджуючій інформації цього документу (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417) автори зазначають, що кореляції між відносним достатнім числом не дають жодної інформації в деяких випадках. Вони наводять приклад відносної кількості двох експресій мРНК. На малюнку S2 відносні достатки двох різних мРНК ідеально негативно корелюють, хоча кореляція цих двох мРНК в абсолютних значеннях негативно не пов'язана (зелені та фіолетові точки).
Можливо, це могло б вам допомогти.