Домен-агностична особливість інженерії, яка зберігає смислове значення?


12

Техніка особливостей часто є важливою складовою для машинного навчання (її активно використовували, щоб виграти Кубок KDD у 2010 році ). Однак я вважаю, що і більшість технічних методів

  • знищити будь-яке інтуїтивне значення основних рис або
  • дуже специфічні для певного домену або навіть конкретних типів функцій.

Класичним прикладом першого є аналіз основних компонентів. Мені здається, що будь-які знання, які мав би експерт з питань предмета, буде знищені шляхом перетворення цих ознак на основні компоненти.

Порівнюйте це з простою технікою перетворення дати в особливості для "день місяця" та "день тижня". Основне значення все ще зберігається в нових ознаках, але очевидно, що ця конкретна методика застосовується лише для дат, а не довільних ознак.

Чи існує якийсь стандартний комплекс технічних прийомів, який не руйнує значення основних функцій, а також застосовується до довільних доменів (або, принаймні, до широкого спектру доменів)?


2
PCA іноді можна використовувати для пошуку інтуїтивних значень для функцій - наприклад, власних інтерфейсів .
tdc

Чи можете ви навести (більше) приклади даних, які ви маєте на увазі? якщо ви можете бути більш конкретними щодо вашої заявки (навіть якийсь довільний приклад), буде простіше дати (більш) точну відповідь.
Дов

1
@Dov Ну, вся суть у тому, що (в ідеалі) я хотів би щось, що могло б працювати майже для будь-якого структурованого, табличного набору даних (той, який має точки даних та функції). Тож це можуть бути дані про продажі, фінансові дані, дані про виявлення наркотиків, дані бейсболу тощо
Майкл МакГоуан

Відповіді:


7

Мені відомо один метод розкладання (але, можливо, є більше ...), який може бути корисним у таких сценаріях, як ви описуєте. Це як 2D-PCA - метод декомпозиції високого порядку, де розкладання (тобто фактори) має певне значення. Ви можете побачити приклади і прочитати про це тут і тут і спробувати тут


+ пробачте, будь ласка, що я не є носієм англійської мови :)
Dov

З того, що мені сказали, останнім кроком PCA повинна бути спроба знайти значення для принципової компонентної мережі.
jb.

5

Останні методи глибокого навчання за допомогою машини з обмеженим набором Больцмана показали приємні особливості для кількох типів даних (аудіо, зображення, текст).

Оскільки ці методи створюють генеративну модель, часто можна генерувати дійсно приємні зразки з моделі.

Перегляньте публікації Hinton. http://www.cs.toronto.edu/~hinton/

Ці методи не зовсім загальні (виконують один і той же код на всіх даних), але основна модель зазвичай схожа.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.