Коефіцієнт кореляції зазвичай записується з великої літери але іноді - ні. Цікаво, чи дійсно є різниця між r 2 і R 2 ? Чи може r означати щось інше, ніж коефіцієнт кореляції?
Коефіцієнт кореляції зазвичай записується з великої літери але іноді - ні. Цікаво, чи дійсно є різниця між r 2 і R 2 ? Чи може r означати щось інше, ніж коефіцієнт кореляції?
Відповіді:
Повідомлення з цього приводу, здається, трохи відрізняються.
використовується в контексті множинної кореляції і називається "коефіцієнтом множинної кореляції". Це кореляція між що спостерігаються відповідями Y і Y , встановленимидопомогою моделі. Y зазвичай передбачається з декількох предикторов X я , наприклад , Y = β 0 + β 1 X 1 + β 2 X 2 , де перехоплюють і нахил коефіцієнти р я був оцінений з даних. Зауважте, що 0 .
Символ - "коефіцієнт кореляції вибірки", що використовується в двовимірному випадку - тобто є дві змінні, X і Y - і це зазвичай означає співвідношення між X і Y у вашому вибірці. Ви можете трактувати це як оцінку співвідношення ρ між двома змінними у широкій сукупності. Для співвіднесення двох змінних не потрібно визначати, яка з них є предиктором, а яка - відповіддю. Дійсно, якщо ви знайшли кореляцію між Y і X, це було б те саме, що кореляція між X і Y , оскільки кореляція симетрична. Зауважте, що коли символ r використовується таким чином, при r < 0 (від'ємна кореляція), якщо дві змінні мають лінійно зменшується співвідношення (у міру того, як одна йде вгору, інша має тенденцію знижуватися).
Там, де нотація стає непослідовною, коли є дві змінні, і Y , і виконується проста лінійна регресія . Це означає , що ідентифікують одну змінну, Y , в якості змінної відгуку, а інший, X , в якості змінної провісника і підгонки моделі Y = β 0 + β 1 X . Деякі люди також використовують символ г , щоб вказати кореляцію між Y і Y в той час як інші (для сумісності з множинноїрегресії) записи R. Зауважте, що кореляція між спостережуваними та пристосованими відповідями обов'язково більша або дорівнює нулю. Це одна з причин мені не подобається використання символ в цьому випадку: кореляція між X і Y може бути негативною, в той час як кореляція між Y і Y є позитивною (насправді це буде просто модуль співвідношення між X і Y ), але обидва можуть бути записані символом r . Я бачив, як деякі підручники та статті у Вікіпедії майже взаємозамінно перемикаються між двома значеннями r і вважають це зайвим заплутаним. Я вважаю за краще використовувати символ Rкореляції між і Y в одиночній і множинної регресії.
У простій і множинної regresion, то до тих пір , поки існує загальний термін перехоплення встановлена в моделі, між Y і Y являє собою просто квадратний корінь з коефіцієнта детермінації R 2 (часто званий «відсоток дисперсії пояснив» або подібний). У випадку простої лінійної регресії конкретно, тоді де я пишу для співвідношення між X і Y , і R 2 може представляти або коефіцієнт визначення регресії, або квадрат кореляції між і Y . Оскільки - 1 ≤ r ≤ 1 і 0 ≤ R ≤ 1 , це означає, що R = | r | . Так, наприклад, якщо ви отримаєте кореляцію між X і Y з г = - 0,7 , то зв'язок між Y і підігнаній Y від простої лінійної регресії Y = & beta ; 0 + β 1 Xбуде а коефіцієнт визначення буде R 2 = 0,49, тобто майже половина варіації відповіді пояснюється вашою моделлю.
Якщо в моделі не було включено жодного терміна перехоплення, то символ неоднозначний. Зазвичай він розраховується як коефіцієнт визначення, але це, як правило, обчислюється іншим способом, ніж звичайний , тому будьте уважні, читаючи результати зі свого статистичного програмного забезпечення. Тоді це вже не те саме, що квадрат множинної кореляції R , а також у двовимірному випадку він не дорівнює r 2 !