Порівняння ранжированих списків

Припустимо, що дві групи, що складаються з і класифікують набір з 25 предметів від більшості до найменш важливих. Які найкращі способи порівняння цих рейтингів? $n_1$ $n_2$

Зрозуміло, що можна зробити 25 тестів Манна-Вітні U, але це призведе до інтерпретації 25 результатів тестів, що може бути занадто багато (і при суворому використанні викликає питання численних порівнянь). Також мені не зовсім зрозуміло, що звання задовольняють усі припущення цього тесту.

Мене також зацікавили б покажчики літератури на рейтинг та рейтинг.

Деякий контекст: ці 25 предметів стосуються освіти, а дві групи - це різні типи освітян. Обидві групи невеликі.

EDIT у відповідь на @ttnphns:

Я не мав на увазі порівнювати загальний ранг предметів у групі 1 з групою 2 - це було б постійним, як вказує @ttnphns. Але рейтинги в 1 і 2 групі будуть різними; тобто група 1 може класифікувати пункт 1 вище, ніж група 2.

Я міг би порівнювати їх, окремо за пунктом, отримуючи середній або середній ранг кожного предмета і роблячи 25 тестів, але мені було цікаво, чи є якийсь кращий спосіб зробити це.

ranking group-differences

— Пітер Флом - Відновити Моніку
джерело

Якщо кожна людина класифікує 25 елементів, то сума по 25 змінних - це константа (325). З огляду на це, що ви хочете сказати the best ways to compare these rankings- який тип різниці між двома групами ви б хотіли знати?

— ttnphns

Може бути, вирахувати медіан Кемені для кожної групи? Я сам цього не робив і не знаю, чи можна порівняти 2 результати статистично (тобто з висновками щодо кількості населення).

— ttnphns

Інший варіант може бути повторною мірою порядкової регресії (де взаємодія bw групового фактора і rm-фактора буде вашим інтересом); це можна зробити за допомогою моделі GEE з багаточленним розподілом та logit-ланкою. Але, знову ж таки, оскільки сума через 25 предметів є постійною, я зараз не можу сказати, чи є це математично справедливим.

— ttnphns

У мене немає книги про мене, але "Теорія та практика вимірювань" D Hand обговорює деякі питання, схожі на це. Що саме ви хочете знати про "різницю" в рейтингу. Наприклад, чи не могли ви спочатку створити сукупний рейтинг для кожної групи, а потім взяти кореляцію рангів?

— Корон

@PeterFlom Ви нарешті знайшли рішення для порівняння рейтингу? Якщо так, чи не проти ви опублікувати його? :)

— Марк Гекманн

Відповіді:

Підсумок

Я ділюсь своїми думками у розділі Деталі . Я думаю, що вони корисні для визначення того, чого ми насправді хочемо досягти.

Я думаю, що головна проблема тут полягає в тому, що ви не визначилися, що означає схожість з рангом. Тому ніхто не знає, який метод вимірювання різниці між рангами кращий.

Ефективно це дозволяє нам неоднозначно вибирати метод, заснований на здогадах.

Що я дійсно пропоную - спершу визначити мету математичної оптимізації. Тільки тоді ми будемо впевнені, чи дійсно ми знаємо, чого хочемо.

Якщо ми цього не зробимо, насправді не знаємо, чого хочемо. Ми можемо майже знати, що хочемо, але майже не знаємо $\ne$ знаючи .

Мій текст у подробицях по суті є кроком до досягнення математичного визначення схожості рангів . Як тільки ми це визначимо, ми можемо впевнено рухатися вперед, щоб вибрати найкращий метод вимірювання подібності.

Деталі

На підставі одного з коментарів юру:

" Мета полягає в тому, щоб визначити, чи різняться класи в двох групах ", Пітер Флом.

Щоб відповісти на це, строго тлумачивши мету:

Ранги різні, якщо будь-який елемент існує такий, що , де - ранг елемента по групі а - ранг того ж предмета, але за групою . $i \in \{1,2,\ldots,25\}$ $i$ $a_i \ne b_i$ $a_i$ $i$ $a$ $b_i$ $b$
Ще, чини не відрізняються.

Але я не думаю, що ти дуже хочеш такої суворої інтерпретації. Тому я думаю, що ви насправді хотіли сказати:

Наскільки різняться ранги груп і ? $a$ $b$

Одне рішення тут - просто виміряти мінімальну відстань редагування . Тобто, яка мінімальна кількість редагувань, які необхідно виконати в ранжируваному списку групи така, що вона стає ідентичною, як у групи $a$ $b$ .

Правка може бути визначена як заміна двох елементів, і вона коштує балів залежно від того, скільки хмелю потрібно. Отже, якщо пункт потрібно замінити на пункт (щоб досягти однакових рангів між групами і ), то вартість цього редагування становить $n$ $1$ $3$ $a$ $b$ $3$ .

Але чи підходить цей метод? Щоб відповісти на це, давайте розглянемо це трохи глибше:

Це не нормалізується. Якщо ми говоримо , що відстань між рядами груп є , а відстань між рядами груп є , це не обов'язково означає , що більше схожі один на один , ніж є один до одного (це також може означати, що класифікували набагато більший набір предметів). $a,b$ $3$ $c,d$ $123$ $a,b$ $c,d$ $c,d$
Він передбачає, що вартість кожного редагування лінійна щодо кількості переходів. Це правда для нашого домену додатків? Чи може бути, що логістичні відносини більше підходять? Або експоненціальна ?
Це передбачає, що всі предмети однаково важливі. Наприклад, незгода в позиції 1 (скажімо) трактується ідентично розбіжності в позиції (скажіть) . Це правда у вашому домені? Наприклад, якщо ми класифікуємо книги, чи не погоджується він у рейтингу відомої книги, такої як TAOCP, не менш важливою для того, щоб не погодитися в рейтингу жахливої книги, такої як TAOUP ? $1$ $5$

Після того, як ми звернемось до вищезазначених пунктів і досягнемо відповідного показника подібності між двома рядами, нам потрібно буде задати більш цікаві питання, такі як:

$a$ $b$

— печерний чоловік
джерело

Це звучить як "тест підписаного Вілкоксоном" ( посилання на wikipedia ). Якщо припустити, що значення ваших рангів є з одного набору (тобто[1, 25] ), то це тест на парну різницю (при нульовій гіпотезі ці пари були вибрані випадковим чином). Зверніть увагу: це показник не схожості!

На цій вікі-сторінці пов'язані Rі Pythonреалізація, і їх реалізація.

— данодонований
джерело

Цікаво. Я не чув про парну різницю Вілкоксона.

— Пітер Флом - Відновити Моніку

Попередження: це чудове запитання, і я не знаю відповіді, тому це насправді більше "того, що я б робив, якби мені довелося":

У цій проблемі є багато ступенів свободи і багато порівнянь, які можна зробити, але з обмеженими даними, це справді питання ефективного агрегування даних. Якщо ви не знаєте, який тест потрібно запустити, ви завжди можете «вигадати» його за допомогою перестановок:

Спочатку визначимо дві функції:

Функція голосування : як скласти рейтинг, щоб ми могли поєднати всі рейтинги однієї групи. Наприклад, ви можете призначити 1 бал найвищому рейтингу, а 0 - всім іншим. Ви б хоч втратили багато інформації, тому, можливо, краще використовувати щось на кшталт: найвищий рейтинг отримує 1 бал, другий рейтинг - 2 бали тощо.
Функція порівняння : Як порівняти дві сукупні оцінки між двома групами. Оскільки обидва будуть вектором, прийняття відповідної норми різниці спрацювало б.

Тепер зробіть наступне:

Спочатку обчисліть тестову статистику, обчисливши середній бал, використовуючи функцію голосування за кожен пункт у двох групах, це повинно призвести до двох векторів розміром 25.
Потім порівняйте два результати за допомогою функції порівняння, це буде вашою тестовою статистикою.

Проблема полягає в тому, що ми не знаємо розподілу тестової статистики під нулем, що обидві групи однакові. Але якщо вони однакові, ми можемо випадковим чином перемістити спостереження між групами.

$n_1$ (кількість спостережень у вихідній групі A) спостереження для групи A та решту для групи B. Тепер обчислимо тестову статистику для цього зразка, використовуючи попередні два кроки.

Повторіть процес близько 1000 разів, а тепер використовуйте статистику тесту перестановки в якості емпіричного нульового розподілу. Це дозволить вам обчислити р-значення, і не забудьте скласти приємну гістограму та намалювати лінію для вашої тестової статистики так:

$l_1$ $l_1$ $l_2$

Але залежно від налаштування, я думаю, що може бути багато внутрішніх випадковостей, і вам знадобиться досить великий розмір вибірки для роботи методу загального використання. Якщо ви маєте попередні знання про конкретні речі, які, на вашу думку, можуть бути різними між двома групами (скажімо, конкретні предмети), то використовуйте це для налаштування двох своїх функцій. (Звичайно, звичайно робіть це перед тим, як запустити тест і не робити вишневий дизайн, поки не отримаєте щось значне )

PS знімайте мені повідомлення, якщо вас цікавить мій (безладний) код. Додайте сюди трохи задовго, але я би радий завантажити його.

— Свен
джерело

Мені дуже подобається ця ідея.

— Пітер Флом - Відновити Моніку