Я вдячний за інші відповіді, але мені здається, що деякі топологічні передумови дають дуже потрібну структуру відповідей.
Визначення
Почнемо з встановлення визначень доменів:
категорична змінна - це те, чий домен містить елементи, але між ними немає відомих зв’язків (таким чином, у нас є лише категорії). Приклади залежать від контексту, але я б сказала, що в загальному випадку складно порівняти дні тижня: чи понеділок перед неділею, якщо так, то як щодо наступного понеділка? Можливо, простіший, але менш вживаний приклад - це одяг: не надаючи певного контексту, який би мав сенс для замовлення, важко сказати, чи підійдуть брюки перед перемичками чи навпаки.
порядкова змінна - це загальний порядок, визначений над доменом, тобто для кожного двох елементів домену ми можемо сказати, що або вони однакові, або один більший, ніж інший. Лайкерт масштаб є хорошим прикладом визначення порядкового змінним. "дещо згоден", безумовно, ближче до "сильно погоджуюсь", ніж "не згоден".
змінна інтервал - це та, домен якої визначає відстані між елементами ( метрикою ), що дозволяє нам визначати інтервали.
Приклади доменів
Як найпоширеніший набір, який ми використовуємо, натуральні та реальні числа мають стандартний загальний порядок та показники. Ось чому нам потрібно бути обережними, коли ми присвоюємо номери нашим категоріям. Якщо ми не обережно нехтуємо порядком та відстані, ми практично перетворюємо наші категоричні дані в інтервальні дані. Коли людина використовує алгоритм машинного навчання, не знаючи, як це працює, ризикує робити такі припущення небажано, тим самим потенційно недійсними є власні результати. Наприклад, найпопулярніші алгоритми глибокого навчання працюють з реальними числами, користуючись їх інтервальними та безперервними властивостями. Інший приклад, подумайте про 5-бальну шкалу Лікерта, і як аналіз, який ми застосовуємо до них, передбачає, що відстань між сильно погоджуються і згодні- це те саме, що не погоджуватися і не погоджуватися, не погоджуватися . Важко зробити справу для таких відносин.
Ще один набір, з яким ми часто працюємо, - це струнні . Існує ряд показників подібності рядків, які корисні при роботі з рядками. Однак це не завжди корисно. Наприклад, за адресами, Джон Сміт Стріт та Джон Сміт Роуд досить близькі за рівнем схожості рядків, але, очевидно, являють собою дві різні сутності, які можуть бути милями один від одного.
Зведена статистика
Гаразд, тепер давайте подивимося, як деякі зведені статистичні дані вміщуються в цьому. Оскільки статистика працює з числами, її функції чітко визначені через інтервали. Але давайте подивимось приклади того, чи / як ми могли б узагальнити їх до категоричних чи порядкових даних:
- режим - і під час роботи з категоричними, і порядковими даними ми можемо сказати, який елемент найчастіше використовується. Так у нас це є. Тоді ми також можемо отримати всі інші заходи, які @Maddenker перераховує у своїй відповіді. Інтервал довіри @ Гунга також може бути корисним.
- медіана - як говорить @ peter-flom, якщо у вас є замовлення, ви можете отримати медіану.
- означають , але також стандартне відхилення, процентні пункти тощо - ви отримуєте їх лише з інтервальними даними, через необхідність метрики відстані.
Приклад контекстуальності даних
Наприкінці я хочу ще раз підкреслити, що порядок та показники, які ви визначаєте у своїх даних, є дуже контекстуальними. Це вже повинно бути очевидним, але дозвольте навести останній приклад: працюючи з географічними місцями, у нас є багато різних способів наблизитись до них:
- якщо нас цікавить відстань між ними, ми можемо працювати з їх геолокацією, яка в основному дає нам двовимірний числовий простір, таким чином інтервал.
- якщо нас цікавить їх частина стосунків, ми можемо визначити загальний порядок (наприклад, вулиця - частина міста, два міста рівні, континент містить країну)
- якщо нас цікавить, чи представляють два рядки одну і ту ж адресу, ми могли б працювати з деякою строковою дистанцією, яка б терпіла орфографічні помилки та міняла місцями слова, але обов'язково розрізняйте різні терміни та назви. Це непроста річ, а просто зробити так.
- Є багато інших випадків використання, з якими ми стикаємося щодня, і нічого з цього не має сенсу. У деяких з них не залишається нічого іншого, як трактувати адреси як просто різні категорії, в інших це зводиться до дуже розумного моделювання та попередньої обробки даних.