Підсумок
Я ділюсь своїми думками у розділі Деталі . Я думаю, що вони корисні для визначення того, чого ми насправді хочемо досягти.
Я думаю, що головна проблема тут полягає в тому, що ви не визначилися, що означає схожість з рангом. Тому ніхто не знає, який метод вимірювання різниці між рангами кращий.
Ефективно це дозволяє нам неоднозначно вибирати метод, заснований на здогадах.
Що я дійсно пропоную - спершу визначити мету математичної оптимізації. Тільки тоді ми будемо впевнені, чи дійсно ми знаємо, чого хочемо.
Якщо ми цього не зробимо, насправді не знаємо, чого хочемо. Ми можемо майже знати, що хочемо, але майже не знаємо ≠ знаючи .
Мій текст у подробицях по суті є кроком до досягнення математичного визначення схожості рангів . Як тільки ми це визначимо, ми можемо впевнено рухатися вперед, щоб вибрати найкращий метод вимірювання подібності.
Деталі
На підставі одного з коментарів юру:
- " Мета полягає в тому, щоб визначити, чи різняться класи в двох групах ", Пітер Флом.
Щоб відповісти на це, строго тлумачивши мету:
- Ранги різні, якщо будь-який елемент існує такий, що , де - ранг елемента по групі а - ранг того ж предмета, але за групою .i a i ≠ b i a i i a b ii ∈ { 1 , 2 , … , 25 }iаi≠ biаiiабiб
- Ще, чини не відрізняються.
Але я не думаю, що ти дуже хочеш такої суворої інтерпретації. Тому я думаю, що ви насправді хотіли сказати:
- Наскільки різняться ранги груп і ?bаб
Одне рішення тут - просто виміряти мінімальну відстань редагування . Тобто, яка мінімальна кількість редагувань, які необхідно виконати в ранжируваному списку групи така, що вона стає ідентичною, як у групиbаб .
Правка може бути визначена як заміна двох елементів, і вона коштує балів залежно від того, скільки хмелю потрібно. Отже, якщо пункт потрібно замінити на пункт (щоб досягти однакових рангів між групами і ), то вартість цього редагування становить1 3 a b 3н13аб3 .
Але чи підходить цей метод? Щоб відповісти на це, давайте розглянемо це трохи глибше:
Це не нормалізується. Якщо ми говоримо , що відстань між рядами груп є , а відстань між рядами груп є , це не обов'язково означає , що більше схожі один на один , ніж є один до одного (це також може означати, що класифікували набагато більший набір предметів).3 c , d 123 a , b c , d c , dа , б3c,d123a,bc,dc,d
Він передбачає, що вартість кожного редагування лінійна щодо кількості переходів. Це правда для нашого домену додатків? Чи може бути, що логістичні відносини більше підходять? Або експоненціальна ?
Це передбачає, що всі предмети однаково важливі. Наприклад, незгода в позиції 1 (скажімо) трактується ідентично розбіжності в позиції (скажіть) . Це правда у вашому домені? Наприклад, якщо ми класифікуємо книги, чи не погоджується він у рейтингу відомої книги, такої як TAOCP, не менш важливою для того, щоб не погодитися в рейтингу жахливої книги, такої як TAOUP ?515
Після того, як ми звернемось до вищезазначених пунктів і досягнемо відповідного показника подібності між двома рядами, нам потрібно буде задати більш цікаві питання, такі як:
the best ways to compare these rankings
- який тип різниці між двома групами ви б хотіли знати?