Створення індексу якості з декількох змінних для впорядкування ранжування

22

У мене є чотири числові змінні. Усі вони є мірами якості ґрунту. Чим вище змінна, тим вище якість. Діапазон для всіх них різний:

Var1 від 1 до 10

Var2 від 1000 до 2000

Var3 від 150 до 300

Var4 від 0 до 5

Мені потрібно поєднати чотири змінні в єдиний показник якості ґрунту, який буде успішно класифікувати порядок.

Моя ідея дуже проста. Стандартизуйте всі чотири змінні, підсумуйте їх, і все, що ви отримаєте, - це оцінка, яка повинна бути упорядкована. Чи бачите ви якусь проблему із застосуванням цього підходу. Чи є якийсь інший (кращий) підхід, який ви б рекомендували?

Спасибі

Редагувати:

Дякую, хлопці. Багато дискусій пішло у "доменну експертизу" ... Сільське господарство ... Тоді як я очікував більше статистичних розмов. З точки зору техніки, яку я буду використовувати ... Це, мабуть, буде просте підсумовування z-балів + логістична регресія як експеримент. Оскільки переважна більшість зразків має низьку якість 90%, я збираюся об'єднати 3 категорії якості в одну і в основному маю бінарну проблему (деяка якість та відсутність якості). Я убиваю двох птахів одним каменем. Я збільшую вибірку з точки зору частоти подій і використовую експертів, отримуючи їх для класифікації моїх зразків. Експертні класифіковані зразки будуть потім використані для підгонки моделі журналу reg, щоб максимально збільшити рівень узгодження / розбіжності з експертами .... Як це звучить для вас?

ranking valuation

— user333
джерело

19

Запропонований підхід може дати розумний результат, але лише випадково. На цій відстані - тобто, приймаючи питання за номіналом, із значеннями перетворених значень змінних - деякі проблеми очевидні:

Навіть не видно, що кожна змінна позитивно пов'язана з "якістю". Наприклад, що робити, якщо значення 10 для 'Var1' означає, що "якість" є гіршою за якість, коли Var1 дорівнює 1? Тоді додавання його до суми - це настільки ж неправильна річ, як можна зробити; її потрібно відняти.
Стандартизація передбачає, що "якість" залежить від самого набору даних. Таким чином, визначення змінюватиметься з різними наборами даних або із доповненнями та видаленнями цих даних. Це може перетворити "якість" у довільну, тимчасову, не об'єктивну конструкцію і виключити порівняння між наборами даних.
Немає визначення поняття "якість". Що це має означати? Можливість блокувати міграцію забрудненої води? Здатність підтримувати органічні процеси? Можливість сприяти певним хімічним реакціям? Грунти, хороші для однієї з цих цілей, можуть бути особливо бідними для інших.
Як заявлена проблема не має мети: чому "якість" потрібно оцінювати? Для чого буде використаний рейтинг - внесок у додатковий аналіз, вибір "найкращого" ґрунту, вирішення наукової гіпотези, розробка теорії, просування продукту?
Наслідки рейтингу не очевидні. Якщо рейтинг невірний або неповноцінний, що буде? Чи буде світ голоднішим, навколишнє середовище забрудненіше, вчені введені в оману, садівники більше розчаруються?
Чому повинна відповідати лінійна комбінація змінних? Чому їх не слід розмножувати чи експонувати, або комбінувати як позиноміальне чи щось ще більш езотеричне?
Заходи щодо якості сирого ґрунту зазвичай повторно виражені. Наприклад, проникність колоди зазвичай корисніша, ніж сама проникність, а активність іонів водню (pH) набагато корисніша, ніж активність. Які відповідні повторні вирази змінних для визначення "якості"?

Можна сподіватися, що ґрунтова наука відповість на більшість цих питань і вкаже, якою може бути відповідна комбінація змінних для будь-якого об'єктивного відчуття "якості". Якщо ні, то ви стикаєтеся з проблемою оцінки багатозначних характеристик . У статті Вікіпедії перераховано десятки методів вирішення цього питання. ІМХО, більшість із них недоцільні для вирішення наукового питання. Однією з небагатьох з твердою теорією та потенційною придатністю до емпіричних питань є теорія оцінки множинних атрибутів Кіні та Райффа(MAVT). Він вимагає, щоб ви могли визначити для будь-яких двох конкретних комбінацій змінних, яка з них повинна бути вищою. Структурована послідовність таких порівнянь розкриває (а) відповідні способи повторного вираження значень; (b) чи лінійна комбінація повторно виражених значень призведе до правильного ранжирування; та (c) якщо можлива лінійна комбінація, вона дозволить обчислити коефіцієнти. Коротше кажучи, MAVT надає алгоритми вирішення вашої проблеми за умови, що ви вже вмієте порівнювати конкретні випадки.

— дзижчати
джерело

RE: 1. Я точно знаю, що "чим вище число, тим вище якість" для всіх чотирьох змінних RE: 2. Добре. Що я можу зробити, щоб порівняти два набори даних

— user333

2

@user Мої рекомендації містяться в останньому абзаці: бажано знайти кількісне вираження "якості" у науковій літературі. Якщо це заборонити, застосуйте MAVT. Обидва виробляють фіксовану формулу, незалежну від набору даних. Це забезпечує порівнянність.

— whuber

1

@whuber, Чи не можна було б сприймати це як проблему створення формуючого заходу на основі наявної інформації, і в цьому випадку підсумовування Z-балів не так вже й погано, як ви звучали?

— Andy W

3

@Andy Чи можете ви пояснити, що ви маєте на увазі під "формуючим заходом" та "доступною інформацією"? // Я мушу зазначити, що багато заходів придатності ґрунту для сільського господарства не є навіть монотонними, а також менш лінійними: наприклад, рослина може процвітати в межах pH, але страждати з рН, що перевищує цей діапазон в будь-якому напрямку . Це справді було б особливою обставиною - можливо, такою, що передбачає вузький діапазон значень - якби просте лінійне поєднання характеристик ґрунту мало якесь об'єктивне відношення до сільськогосподарських якостей.

— whuber

2

(y_{1}, \dots, y_{k})

$(y_1, \ldots, y_k)$

(x_{1}, \dots, x_{k})

$(x_1, \ldots, x_k)$

— whuber

3

Хтось дивився на «Огляд оцінювання точності класифікацій даних дистанційно почутих» Рассела Г. Конгалтона 1990 року? ». Він описує техніку, відому як матриця помилок для варіювання матриць; також термін, який він використовує, називається «Нормалізація даних», за допомогою якого людина отримує всі різні вектори та «нормалізує» або встановлює їх рівними від 0 до 1. Ви в основному змінюєте всі вектори на рівні від 0 до 1.

— Рагус Паганіні
джерело

0

Ще одна річ, яку ви не обговорювали - це масштаб вимірювань. V1 і V5 виглядає так, що вони впорядковані, а інші, здається, ні. Тож стандартизація може бути перекошеною. Тож вам може бути краще перетворити всі змінні в ранги та визначити зважування для кожної змінної, оскільки малоймовірно, що вони мають однакову вагу. Рівне зважування - це більше за замовчуванням "нічого". Ви можете зробити аналіз кореляції чи регресії, щоб визначити деякі апріорні ваги.

— Ральф Вінтерс
джерело

Як я можу використовувати кореляційний аналіз для визначення ваги?

— користувач333

Якщо у вас вже є загальний загальний показник якості, наприклад, висновки експертів (або ви готові прийняти інші змінні як проксі для цього), ви можете вибрати найбільш корельовані змінні та надати їй найбільшу вагомість.

— Ральф Вінтерс

-3

Слідкуючи за відповіддю Ральфа Вінтерса, ви можете використовувати PCA (аналіз основних компонентів) на матриці відповідних стандартизованих балів. Це дасть вам "природний" вектор ваги, який ви можете використовувати для комбінування майбутніх балів.

Зробіть це також після того, як всі бали перетворені на ранги. Якщо результати дуже схожі, у вас є вагомі причини продовжити обидва способи. Якщо будуть розбіжності, це призведе до цікавих питань та кращого розуміння.

— Ганс Енглер
джерело

4

Я не погоджуюсь. Хоча, ймовірно, хтось зацікавиться взаємозв'язком між предметами цікавості, всі змінні можуть бути ортогональними, але все ще сприяють якості. Для глупого прикладу грунт в Антарктиді може мати оптимальний вміст азоту, але я сумніваюся, що цього було б достатньо для відповідного клімату.

— Andy W

@Andy W: У цьому випадку всі змінні слід зважувати однаково, і PCA скаже вам це. Це також скаже вам, що на провідний компонент припадає лише порівняно невелика частка загальної мінливості в матриці оцінок.

— Ганс Енглер

3

Я все ще не згоден. Це не говорить про те, чи варто оцінювати однаково бали. Два пункти можуть мати позитивну кореляцію, але кожен має протилежні відносини до "якості". Міжпредметні кореляції не обов'язково говорять про незастережений захід у даному контексті. Якщо якість була латентною змінною, а змінні були "відображаючими" тієї латентної конструкції, яка може бути правдою, але це не так у цьому прикладі.

— Andy W

A

$A$

m \times n

$m \times n$

σ_{1} u v^{T}

$\sigma_1 uv^T$

A

$A$

n

$n$

v_{j}

$v_j$

v_{j}

$v_j$

— Ганс Енглер

3

Я все ще не згоден. Навіть якщо очікується, що асоціація буде в тому ж напрямку, це не означає, що показники повинні бути притаманні будь-якій вазі, виходячи з їх міжпозиційного співвідношення. Спільна дисперсія може сказати лише щось про співвідношення між показниками. Подумайте про регресійну модель, в якій ми прогнозуємо відомий показник якості за цими показниками. Міжпозиційні співвідношення між показниками не говорять про те, якими будуть очікувані схили.

— Andy W