Робота з наборами даних зі змінною кількістю функцій


14

Які існують деякі підходи до класифікації даних із змінною кількістю функцій?

Як приклад, розглянемо проблему, коли кожна точка даних є вектором x і y точок, а у нас немає однакової кількості точок для кожного екземпляра. Чи можемо ми розглядати кожну пару точок x і y як особливість? Або ми повинні якось узагальнити бали, щоб кожна точка даних мала фіксовану кількість особливостей?


7
Чи допомагає наявність чи відсутність заданої точки при класифікації даних?
jonsca

Відповіді:


5

Ви можете ставитися до цих пунктів як до відсутніх --- тобто. припустимо, що вектор має максимум 20 (x, y) пар, а конкретна точка має 5 (x, y) пар, в цьому випадку трактуйте решта пар як відсутні, а потім застосуйте стандартні процедури для відсутніх параметрів:

Цими стандартними процедурами можуть бути:

  • Використовуйте модель, яка природним чином обробляє відсутні параметри, наприклад, моделі дерев рішень повинні мати можливість впоратися з цим.
  • Замініть відсутність середнім значенням для відповідного стовпця.
  • Скористайтеся простою моделлю, щоб "передбачити" відсутні значення.

Але як точки @jonsca --- якщо наявність відсутність заданої точки допомагає класифікувати дані, ви, наприклад, повинні скласти пару моделей, кожна з них моделює екземпляри з певною кількістю очок.


10

З того, як я розумію ваше запитання, точки в даних є взаємозамінними і не мають замовлення, тобто у вас є набір балів для кожного прикладу. Цей параметр відрізняється від параметра "Відсутнє значення", яке jb. описано.

Я знаю про два найпоширеніших методи вирішення цієї проблеми, які фактично базуються на ваших ідеях. Хорошим базовим рівнем, мабуть, буде просто середнє значення всіх балів в одному прикладі, але це, як правило, не працює добре.

  • Для об'єднання декількох точок на одну особливість досить часто застосовується мішок слів (або мішок зображень), наприклад, у комп’ютерному зорі. Ідея полягає в тому, щоб згрупувати всі точки у своєму навчальному наборі (використовуючи, наприклад, k-засоби), а потім описати кожну точку її кластером. У кожному прикладі ви отримуєте гістограму, над якою частою зустрічаються кластери.

  • Щоб використовувати всі пари точок, ви можете використовувати встановлені ядра. Це може найкраще працювати з використанням SVM, але, ймовірно, також буде працювати з будь-яким алгоритмом навчання, який можна керувати або використовувати функцію сумісності між введеннями. Набір ядер - це в основному спосіб обчислити схожість двох наборів функцій, як у ваших налаштуваннях.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.