Непараметрична міра сили зв’язку між порядковою і безперервною випадковою змінною


12

Я кидаю тут проблему, як я її отримав.

У мене є дві випадкові величини. Один з яких є безперервним (Y), а інший - дискретним і буде наближатися до порядкового (X). Я поставив нижче сюжет, який я отримав разом із запитом.

введіть тут опис зображення

Людина, яка надсилає мені дані, хоче виміряти силу зв’язку між X та Y. Я шукаю ідеї, які не могли б перевантажуватися припущеннями про те, який процес генерував дані. Зауважте, що мова йде не про пошук непараметричного способу перевірки міцності зв'язку (як у завантажувальній програмі), а про пошук непараметричного способу його вимірювання .

З іншого боку, ефективність не є проблемою, оскільки є багато точок даних.


1
Чи X (дискретна змінна) порядкова чи ні?
Пітер Флом

@PeterFlom: Дякую Так. Додаю це до питання.
user603

Під "непараметричним" ви маєте на увазі, що не допускається обчислення середньої чи дисперсії?
ttnphns

Відповіді:


8

За визначенням порядкова шкала - це датчик, у якому 1 2 3 4невідомі справжні відстані між виїмками . Це як ви бачите лінійку під наркотиками / алкоголем. Справжні відстані можуть бути будь-якими. Це може бути 1 2 3 4або 1 2 3 4або будь-який інший . Ми не можемо обчислити статистику - наприклад, кореляцію - якщо не визначитися з відстанями, виправити їх.

Одне з міркувань може бути наступним. Оскільки наша вимірювальна шкала, датчик, спотворена невідомим монотонним способом, ми не можемо повірити у величини даних. Достовірним є лише порядок їх величин. Без додаткового використання мозку оголосити порядок цінністю. Таким чином, ми замінюємо спостережуваний розподіл рівномірним розподілом, ранги . Після цього можна обчислити коефіцієнт асоціації, скажімо, Pearson . Це буде Spearman , як ми знаємо. Пірсон вимірює силу лінійної асоціації. Класифікація змінних була хитрістю лінеаризувати ту частину монотонного відношення, яку відносять до розподілів, які спочатку не були рівномірними. Таким чином, Spearmanr h o r r h o rrrhorrhoє мірою такої монотонності у відносинах, яку можна перетворити на лінійність під дією рівномірності граничних розподілів. У питанні про ОП лише одна із двох змінних є порядковою (а друга - безперервною). Отже, загалом не потрібно ранжувати обидві змінні. Може просто класифікувати порядковий, а потім обчислити .r

Іншим підходом , альтернативним ранжуванню (уніфікації), може бути оптимальне масштабування порядкової змінної. Оптимальне масштабування - це ітеративна процедура з метою знайти такі відстані в порядковій шкалі - тобто знайти таке монотонне перетворення її - так, щоб лінійне між змінними було максимально можливим. У той час як підхід ранжирування базується на передумові "справжня шкала відповідає даним, що мають рівномірний розподіл", оптимальний підхід до масштабування базується на передумові "істинна шкала відповідає даним, що мають максимальний лінійнийrrr". Оптимальне масштабування може бути здійснено за допомогою категоричної регресії (CATREG). Однак, категорична регресія вимагає, щоб інша вхідна змінна була дискретною (не обов'язково порядковою), і тому, якщо вона буде безперервною, має багато унікальних значень, її вам доведеться довільно конувати" .

Є й інші підходи. Але в будь-якому випадку ми перетворюємо порядковий шкала монотонно "так, щоб ..." (якесь припущення чи якась мета), тому що порядковий масштаб спотворюється нам невідомим чином. Докорінно іншим рішенням було б спочатку «тверезити» і вирішити, що воно або не спотворене (тобто це інтервал), або спотворене відомим способом (не є однозначним), або є номінальним.

Деякі асиметричні підходи можуть включати порядкову регресію порядкової змінної на іншу (інтервальну / безперервну). Або лінійна регресія останнього за порядковою моделлю, де предиктор приймається як поліноміальний контраст (тобто вводиться як b1X + b2X^2 + b3X^3,...). Слабкість цих підходів полягає в тому, що вони асиметричні: одна змінна залежить, інша - незалежна.


Дякую; дуже гарна ідея, щоб обчислити ранги лише на одній зі змінних.
user603

6

Чи є якась причина, якої б не вистачало коефіцієнта кореляційного співвідношення Спірмена (непараметрична міра монотонного об'єднання)? Чи монотонність занадто "фронтально завантажена?" Він заснований на відмінностях ( ) у незалежно згенерованих рангах ( та ) для ваших змінних: x i y idi=xiyixiyi

rS=16i=1ndi2n(n21)

Якщо монотонність є надто суворим припущенням, мені цікаво, чи можуть підходи, засновані на максимальній інформації, наприклад, запропонованій Reshef (2011, 2013), які навіть не припускають, що функціональні зв'язки між та можуть бути більш узгоджуючими з того, що ви є шукаю?YXY


Список літератури

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M., and Sabeti, P. (2011). Виявлення нових асоціацій у великих наборах даних. Наука , 334 (6062): 1518–1524.

Решеф, Д., Решеф, Ю., Міценмахер, М. і Сабеті, П. (2013). Аналіз справедливості максимального коефіцієнта інформації із порівняннями . arXiv , 14 серпня.


Обидва виглядають як дуже хороші ідеї. Насправді два запропоновані вами підходи навіть доповнюють один одного. Я залишаю питання відкритим ще трохи.
user603
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.