Чи «добре» побудувати лінію регресії для ранжированих даних (кореляція Спірмена)?


12

У мене є дані, за якими я розраховував співвідношення Спірмена і хочу їх візуалізувати для публікації. Залежна змінна класифікується, незалежна змінна - ні. Те, що я хочу візуалізувати, - це більше загальна тенденція, ніж власне схил, тому я класифікував незалежний та застосував кореляцію / регресію Спірмена. Але тільки коли я склав свої дані і збирався вставити їх у свій рукопис, я натрапив на це твердження (на цьому веб-сайті ):

Ви майже ніколи не будете використовувати регресійну лінію ні для опису, ні для прогнозування, коли будете проводити кореляцію рейтингу Спірмена, тому не обчислюйте еквівалент лінії регресії .

і пізніше

Дані кореляції рейтингу Спірмена можна графікувати так само, як і для лінійної регресії чи кореляції. Не додайте на графік лінії регресії ; було б оманливим ставити на графік лінійну регресійну лінію, коли ви її аналізували за допомогою рангової кореляції.

Річ у тім, що регресійні лінії не так відрізняються від тих, коли я не класифікую незалежні та обчислюю співвідношення Пірсона. Тенденція така ж, але через непомірну плату за кольорову графіку в журналах я пішов з монохромним поданням, а фактичні точки даних накладаються настільки, що їх не впізнати.

Звичайно, я міг би обходити це, роблячи два різних сюжети: Один для даних даних (ранжирований) і один для лінії регресії (невизначений), але якщо виявиться, що джерело, яке я цитував, є невірним або проблема Як би це не проблематично в моєму випадку, це полегшило б моє життя. (Я також бачив це питання , але воно мені не допомогло.)

Редагувати для отримання додаткової інформації:

Незалежна змінна на осі x представляє кількість ознак, а залежна змінна по осі y представляє ранг, якщо алгоритми класифікації порівняно за їх ефективністю. Зараз у мене є кілька алгоритмів, які в середньому можна порівняти, але те, що я хочу сказати зі своїм сюжетом, є щось на кшталт: "У той час як класифікатор A покращується, тим більше можливостей, але класифікатор B краще, коли менше функцій"

Змініть 2, щоб включити мої сюжети:

Ранги алгоритмів, побудовані в залежності від кількості функцій введіть тут опис зображення

Ранги алгоритмів побудовані в залежності від рангованої кількості ознак введіть тут опис зображення

Отже, щоб повторити запитання із назви:

Чи добре будувати лінію регресії для ранжированих даних кореляції / регресії Спірмена?


Скільки категорій є в ранзі? Ви перевіряли припущення про пропорційність? Є багато дослідників, які прекрасно ставляться до порядкових даних (наприклад, ранжирування) як безперервних. Іноді, якщо категорій багато, це має сенс.
robin.datadrivers

1
Є сім рангів, вони використовуються для тесту Фрідмана
Sentry

Відповіді:


10

Кореляція за рангом може використовуватися для підбору монотонної асоціації між змінними, як ви зазначаєте; як такий, ви зазвичай не будуєте для цього лінію.

Бувають ситуації, коли є доцільним використання кореляцій рангів, щоб насправді підходити рядки до числових-у проти числових-х, будь то Кендалл чи Спірман (або якийсь інший). Дивіться дискусію (і, зокрема, останній сюжет) тут .

Але це не ваша ситуація. У вашому випадку я схильний би просто представити розсип оригінальних даних, можливо, з плавними взаємозв'язками (наприклад, від LOESS).

Ви очікуєте, що відносини будуть одноманітними; ви, можливо, спробуєте оцінити та побудувати монотонне відношення. [Там є R-функція обговорюється тут , що може поміститися изотонической регресія. - в той час як приклад є унімодален НЕ ізотонічний, функція може зробити изотонические припадки]

Ось приклад типу речі, що я маю на увазі:

введіть тут опис зображення

Сюжет показує монотонний зв’язок між x і y; червона крива є льосовою гладкою (у цьому випадку породженою R за scatter.smooth), що також буває монотонним (є способи отримати плавні пристосування, які гарантовано є монотонними, але в цьому випадку лосос гладкий гладкий був монотонним, тому Я не відчував потреби хвилюватися.

введіть тут опис зображення
Діаграма рангів (у) проти рангу (х), що вказує на монотонне відношення. Зелена лінія показує ранги приведених значень кривої льосу проти рангу (x).

Кореляція між рангами x і y (тобто кореляція Спірмена) становить 0,892 - це висока монотонна асоціація. Аналогічно, кореляція Спірмена між (монтонічною) кривою згладженої льосом ( ) та значеннями y також становить 0,892. [Це, однак, не дивно, оскільки це було б правдою для будь-якої кривої, яка є монотонно зростаючою функцією x, і все це також відповідало б зеленій лінії. Зелена лінія не є регресійною лінією між рангом (x) і рангом (y), але це лінією, що відповідає монотонній підгонці в початковому сюжеті. 'Рядок регресії' для ранжированих даних має нахил 0,892, а не 1, тож він трохи "більш плоский".]y^

Якщо ви не показуєте нічого, крім ранжу (Y) проти X, я думаю, я б уникав використання рядків на графіках; наскільки я бачу, вони не переносять великого значення вище коефіцієнта кореляції. І вже сказали, що вас цікавить лише тенденція.

[Я не знаю, що неправильно побудувати регресійну лінію на ділянці ранжированого y та ранжированого x, складністю буде її інтерпретація.]


Дякую, ваша відповідь хороша і добре пояснена. Однак це дало мені зрозуміти, що я, можливо, пропустив важливу інформацію. Чи все-таки він дійсний з додатковою інформацією, яку я надав? Графіки випливають пізніше сьогодні, коли я за своїм робочим ПК.
Sentry

Погляньте на моє оновлення і побачите, чи вважаєте ви, що щось із цього має значення.
Glen_b -Встановити Моніку

Так, це цінно, але в загальному сенсі. Я також погоджуюся, що "неправильність" походить від труднощів інтерпретувати сюжет. Я побоююся, що люди завжди будуть вважати, що я хочу передбачити ранг від функції, навіть якщо я заявляю, що хочу лише показати тенденцію .
Sentry

Дивлячись на свої ділянки --- ви показуєте ранги, але чи є у вас оригінальні показники ефективності, на яких базувалися ранги?
Glen_b -Встановіть Моніку

Так, так, але їх тут не можна використовувати, повірте. Основна увага мого дослідження - на порівнянні алгоритмів за допомогою тесту Фрідмана, який їх класифікує. Є безліч наборів даних із сильно різними діапазонами продуктивності, тому тут цікаве лише порівняння між ними.
Sentry

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.