Методи збільшення даних для загальних наборів даних?


21

У багатьох програмах машинного навчання так звані методи збільшення даних дозволили створити кращі моделі. Наприклад, припустимо навчальний набір із зображень котів та собак. Обертанням, дзеркальним відображенням, регулюванням контрасту тощо можна створити додаткові зображення з оригінальних.100

Що стосується зображень, то доповнення даних є відносно простим. Однак припустимо (наприклад), що у кожного є навчальний набір із зразків та декількох сотень постійних змінних, які представляють різні речі. Збільшення даних вже не здається настільки інтуїтивним. Що можна зробити в такому випадку?100


2
Я думаю, що деякі методи, такі як PCA або AE, все ще є інтуїтивно зрозумілими для збільшення даних. Перший метод полягає у застосуванні PCA та зберігають перші k власні значення та встановлюють к-власні значення випадковим чином з дистрибуції, гауссових тощо. Якщо Інші методи використовують Авто-кодери для створення самих даних. Якщо кількість прихованих одиниць близька до видимих ​​одиниць, це може створити себе досить добре. Реконструйовані дані можна використовувати як доповнену частину даних.
yasin.yazici

@mmh, це відповів на ваше запитання?
shf8888

@ yasin.yazici Привіт. Ви могли б пояснити трохи про збільшення даних за допомогою pca? Припустимо, у мене дані причому 50 є розміром функції. Зараз я роблю PCA і виявляю, що перших 30 найкращих власних векторів достатньо. Що мені робити в наступні 20 власних векторів і як мені ввести випадковість? 100х50503020
roni

Дивіться мою магістерську дисертацію, стор. 80 для огляду технологій збільшення даних для зображень.
Мартін Тома

Розширення даних має багато сенсу для зображень, наприклад. Обернене зображення об'єкта все ще є зображенням об'єкта, і вам потрібно, щоб модель була піддана цьому, але, імовірно, не обов'язково такого зображення у вашому наборі даних. Яка потреба в / точці збільшення даних у цьому випадку? Мені не зрозуміло, що ти повинен цим займатися.
gung - Відновіть Моніку

Відповіді:


17

Я розумію, що це питання пов'язане як з побудовою функцій, так і з вирішенням багатства функцій, які ви вже маєте +, будувати стосовно ваших спостережень ( N << P).

Особливість будівництва

Розширюючись на коментар @ yasin.yazici, можливі наступні способи збільшення даних:

  • PCA
  • Автокодування
  • Такі перетворення, як журнал, повноваження тощо.
  • Об'єднання безперервних змінних на дискретні категорії (тобто, неперервна змінна на 1 SD вище середнього, 1 нижче середнього тощо)
  • Складові змінні (наприклад, дивіться тут )

Я впевнений, що ще багато чого мені не вистачає.

Вибір функції / зменшення розмірності

Ви можете зменшити розмірність за допомогою таких методів, як PCA (хоча, можливо, не після збільшення даних за допомогою змінних PCA). Крім того, ви можете використовувати алгоритми, які виконують вибір функції для вас, наприклад, ласо, випадковий ліс тощо.


2
Скажіть, будь ласка, як автоматичне кодування може використовуватися для побудови функцій?
roni

1
@roni Успішне навчання автокодера дає деяке подання даних на більш високому рівні абстракції. Сподіваємось, більш корисне подання, яке ви можете використовувати в класифікаторі.
Кріс Андерсон

0

Я зіткнувся з подібною проблемою, коли в хотілося збільшити без маркування числові дані. Я доповнив дані таким чином: (Скажімо, у мене є набір даних розміром 100 * 10.)

  1. Створіть список, вибравши випадковим чином вибіркові значення від {0,1}, таким чином, щоб число нулів було менше числа 1s, скажімо, що частка 0s в цьому випадку становить 20%. Таким чином, у кожного буде список 0 і 1 довжиною 100.
  2. Використовуйте цей список як залежну змінну і передайте його в smote, щоб генерувати більше точок даних. (Тут smote створює точки на краях, що з'єднують точки даних, які відповідають 0 у створеному списку).
  3. Повторіть цей процес, поки не буде отримано набір даних необхідного розміру.

1
Будь ласка, не публікуйте однакових відповідей на декілька потоків. Якщо ви дійсно вірите, що той самий варіант відповіді, який ви розмістили в іншому місці, повністю відповідає на інше питання, позначте це питання як дублікат першого.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.