Чому параметричний Пірсон, а Спірман - непараметричний


19

Мабуть, коефіцієнт кореляції Пірсона є параметричним, а rho Спірмена - непараметричним.

У мене виникають проблеми з розумінням цього. Як я розумію, Пірсон обчислюється як і Spearman обчислюється так само, за винятком того, як ми замінюємо всі значення їхніми рядами.

rxy=cov(X,Y)σxσу

У Вікіпедії йдеться

Різниця між параметричною моделлю і непараметричною моделлю полягає в тому, що перша має фіксовану кількість параметрів, а друга збільшує кількість параметрів з обсягом даних про навчання.

Але я не бачу жодних параметрів, крім самих зразків. Деякі кажуть, що параметричні тести передбачають нормальний розподіл і продовжують говорити, що Пірсон припускає нормальні розподілені дані, але я не розумію, чому Пірсон вимагатиме цього.

Отже, моє запитання - що означають параметричні та непараметричні значення в контексті статистики? А як Пірсон і Спірмен поміщаються там?


6
Це гарне запитання, і там дуже багато дезінформації. Наприклад, рівняння параметричних тестів та припущення нормальних розподілів, на жаль, є частою плутаниною, завдяки чому багато авторів підручників, викладачі курсів та інтернет-плакати просто копіюють з інших, хто так і більше плутається.
Нік Кокс

5
Мабуть, найпростіше позитивне вирішення питання полягає в наступному: так, кореляція Спірмена - це параметр, який слід оцінювати, кількісно визначаючи силу відносин, і так нагадує Пірсона (в корені, це та сама ідея, як ви вказуєте); але ні, кореляція Спірмена - це не параметр, який є характерним для розподілу, тоді як Пірсон - це параметр у звичайному двовимірному розподілі (історичне, але тепер недооцінене тлумачення того, що ви робите, коли робите кореляцію). Це чітке розрізнення, яке слід розуміти, бачачи, що слово "параметр" має кілька почуттів.
Нік Кокс

@ NickCox, чому б ти не опублікував це як відповідь.
Річард Харді

5
Пункт про нормальність розподілу дійсно хитається лише тоді, коли ви хочете зробити тести на значимість з кореляцією. Якщо ви використовуєте кореляції лише як описові заходи, ненормальність не повинна бути перешкодою для використання кореляцій. Кореляції можуть бути навіть корисними з двома бінарними змінними до тих пір, поки вони відрізняються. Ще потрібно стежити за наслідками людей, що переживають люди, тощо, тощо.
Нік Кокс

1
Оскільки це, здається, ще не було чітко сказано, я хочу підкреслити, що жодна статистика не є "параметричною". Це як сказати, що цифри смачні: прикметник просто не стосується іменника. Статистичні моделі можуть бути параметричними (на що вказує цитата Вікіпедії), а також тестами та процедурами, що базуються на них. Спирмен і Пірсон статистик може використовуватися як в параметричної і непараметричної налаштування. Детальніше про це на сайті stats.stackexchange.com/questions/67204 . Що робить модель параметричною, це її простір стану .
whuber

Відповіді:


17

Проблема полягає в тому, що в наші дні "непараметричні" дійсно мають два різних значення. Визначення у Вікіпедії застосовується до таких речей, як непараметрична підгонка кривої, наприклад, за допомогою сплайнів або локальної регресії. Інше значення, яке старіше, більше узгоджується з принципами "без розповсюдження" - тобто методи, які можна застосовувати незалежно від припущеного розподілу даних. Останнє - це те, що стосується rho Spearman, оскільки перетворення рангів передбачає, що він дасть такий же результат незалежно від того, яким був ваш вихідний розподіл.


2
Непараметричний має два значення, але коментар у wikipedia дійсно стосується обох. У непараметричній регресії йдеться про те, що відносини не є кінцево-параметричними. Що стосується речей, що не мають розподілу, це стосується моделей розподілу, які не є кінцевими параметрами.
Glen_b -Встановіть Моніку

1
Гм, це цитата з Вікіпедії - це не я. Хтось ще додав це.
Hong Ooi

2
Основна редакція, яка, на мою думку, є недостовірною в одних деталях і не додає нічого особливо корисного - з’явилася для розгляду, оскільки її було зроблено користувачем із низьким рівнем репрезентації та її відхилила одна людина, але потім її було прийнято автоматично, коли третя людина намагалася редагувати, щоб покращити її (вони, можливо, не зрозуміли, що це буде наслідком). Я поверну цю редакцію до оригіналу. Ви можете це робити будь-коли, коли вам не подобається редагування.
Glen_b -Встановіть Моніку

Тепер повернемось до своєї початкової публікації, оскільки я думаю, що вона занадто сильно змінила вашу публікацію, не вимагаючи вашої згоди і не здається, що ви згодні з нею. Якщо вам щось сподобалось, натисніть посилання "відредаговано ... тому" над моїм іменем і скопіюйте, які частини вам подобаються з того, що там було раніше, а потім відредагуйте та вставте його.
Glen_b -Встановіть Моніку

Коли виправдано використовувати Spearman? Як Pearson може допомогти, коли ви використовуєте Spearman?
Лео Леопольд Герц 준영

3

Я думаю, що єдиною причиною, через яку коефіцієнт кореляції Пірсона називали б параметричною, є те, що ви можете використовувати його для оцінки параметрів багатоваріантного нормального розподілу. наприклад, двовимірний нормальний розподіл має 5 параметрів: два засоби, дві дисперсії та коефіцієнт кореляції. Останнє можна оцінити за допомогою коефіцієнта кореляції Пірсона.

ρ


Чи не параметр коефіцієнта кореляції Пірсона в тому сенсі, що ви повинні припустити нормальність, щоб перевірити його значимість? тобто він не приймає нормальність як статистичну, але ви припускаєте, що дані є нормальними при обчисленні розподілу вибіркового коефіцієнта кореляції та перевіряють його? це чесне запитання, я можу на 100% помилитися.
mugen

Чи можете ви пояснити, будь ласка, якщо ви робите якісь припущення щодо розподілу в спермані та кендалі?
Лео Леопольд Герц

@mugen не потрібно вважати нормальністю, щоб перевірити значення кореляції Пірсона; загальний тест кореляції Пірсона робить це. Ви можете зробити інше параметричне припущення та придумати інший тест ... чи, дійсно, можна було б виконати тест на перестановку нуля, що кореляція популяції Пірсона дорівнює нулю, в результаті чого з'явиться непараметричний тест.
Glen_b -Встановіть Моніку

0

Найпростіша відповідь. Я думаю, що тест rho для Спірмена використовує порядкові дані (цифри, які можна класифікувати, але нічого не розповідають про інтервал між цифрами, наприклад, 3 аромати морозива займають 1, 2 і 3, але це говорить лише про те, які аромат віддали перевагу не скільки). Звичайні дані не можна використовувати в параметричних тестах.

R-тест Пірсона використовує дані інтервалу чи відношення (числа, що мають фіксовані інтервали, наприклад секунди, кг, мм). 1 мм не тільки менше 5 мм, але ви точно знаєте скільки. цей тип даних може бути використаний у параметричному тесті.


1
Безумовно, можна використовувати параметричні моделі - а отже, параметричні тести - із порядковими даними. Потрібно просто запропонувати розподіл для цієї змінної з кінцевою - і фіксованою - кількістю параметрів, і деякі відповідні гіпотези щодо цих параметрів і вуаля існує параметричний тест. Кореляція Пірсона, розрахована в ситуаціях, коли одна або обидві змінні мають дві категорії (позначені двома різними числами, як правило, 0/1), призводять до часто використовуваних заходів асоціації для цих ситуацій.
Glen_b -Встановіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.