Чи існує метод, протилежний зменшенню розмірності?


9

Я новачок у галузі машинного навчання, але зробив свою частку обробки сигналів. Будь ласка, повідомте мене, якщо це питання було неправильно позначено.

У мене є двовимірні дані, які визначаються щонайменше трьома змінними, із дуже нелінійним способом, занадто складним для моделювання.

Я мав різний рівень успіху в витягуванні двох основних компонентів із даних за допомогою таких методів, як PCA та ICA (з бібліотеки python Scikit-Learn), але, схоже, ці методи (або, принаймні, ці реалізація методів) обмежені для вилучення стільки компонентів, скільки є розміри в даних, наприклад, 2 компоненти з хмари 2D точок.

Складаючи графіки даних, навченому оці зрозуміло, що є три різні лінійні тренди, три кольорові лінії показують напрямки.

графік даних

При використанні PCA основний компонент вирівнюється до однієї з кольорових ліній, а інший знаходиться на 90 °, як очікувалося. При використанні ICA перший компонент вирівнюється синьою лінією, а другий - десь між червоною та зеленою. Я шукаю інструмент, який міг би відтворити всі три компоненти мого сигналу.

EDIT, Додаткова інформація: Я тут працюю в невеликому підмножині більшої фазової площини. У цьому невеликому підмножині кожна вхідна змінна виробляє лінійну зміну на площині, але напрямок та амплітуда цієї зміни нелінійні і залежать від того, де саме на більшій площині я працюю. В деяких місцях дві змінні можуть бути виродженими: вони призводять до зміни в одному напрямку. наприклад, скажімо, що модель залежить від X, Y і Z. Зміна змінної X призведе до зміни синьої лінії; Y викликає зміну уздовж зеленої лінії; Z, уздовж червоного.


3
Якщо я правильно розумію, концепція, яку ви шукаєте, вкладається . Знайдіть методи ядра та зокрема PCA ядра .
Емре

1
Я не впевнений у цьому, тому не розміщую це як відповідь. У моделі нейронної мережі можна зберігати розмір прихованого шару> розмірність вхідного шару. Тоді ви можете використовувати прихований шар як вхід до іншої мережі / моделі. Але для цього потрібно багато даних.
Азраель

Коли ви говорите двовимірні дані, визначені щонайменше трьома змінними, в якому сенсі ви використовуєте термін "змінна"? Чи були б заняття підходящою заміною? Варто зазначити, що PCA витягує з даних максимально варіативні розміри, це не обов'язково найбільш дискримінаційна трансформація, яка застосовується. Ви подивилися на кластеризацію?
image_doctor

Чи знаєте ви щось про нелінійність моделі? Хоча це може бути занадто складним для імітації, знаючи, що він складається з максимум поліномів 3-го ступеня, значно обмежує функціональну інженерію, наприклад, ви можете додати всі поліси 3-го ступеня, а потім PCA повернутися до 3D.
AN6U5

Я обговорював з моїм другом-статистиком, який запропонував використовувати PCA ядра для похідної моїх даних, оскільки я шукаю нахили. Чи вважатимемо похідне вважати "характеристикою"?
PhilMacKay

Відповіді:


8

Коротка відповідь - так.

По суті, ви будете виконувати якусь функцію інженерії. Це означає, що часто будується ряд функцій ваших даних:

ϕj(x):RpR ,  j=1,...,K

Які, з’єднані разом, визначають трансформований вектор даних ϕ(x) довжини K.

Існує кілька способів, кращих і гірших, зробити це. Ви можете шукати такі терміни, як:

  1. Шпонки та узагальнені моделі добавок.
  2. Хитрість ядра (як зробити модель де K).
  3. Інжиніринг особливостей (різноманітних вручну, наприклад, додавання x2 до ваших даних).
  4. Глибоке навчання, репрезентативне навчання

Як ви могли здогадатися з такої різноманітної техніки мішок, це велика область. Само собою зрозуміло, але потрібно бути обережним, щоб уникнути перенапруження.

У цьому документі Представлення навчання: огляд та нові перспективи розглядає деякі проблеми навколо того, що робить певний набір функцій «хорошим», з точки зору глибокого навчання.


-2

Я думаю, ви шукаєте функції, які витягують нові функції. Функція, яка найкраще відображає набір даних. Якщо це так, то такий метод ми називаємо "вилученням функції".

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.