Підручники з художньої інженерії


19

Як відомо всім, функціональна інженерія надзвичайно важлива для машинного навчання, проте я знайшов мало матеріалів, пов’язаних із цією областю. Я брав участь у декількох змаганнях з Kaggle і вважаю, що хороші характеристики можуть бути навіть важливішими, ніж хороший класифікатор в деяких випадках. Хтось знає які-небудь навчальні посібники щодо художньої інженерії, чи це чистий досвід?


1
Ви маєте на увазі попередню обробку функцій (нормалізацію та інші перетворення) або вибір функції?
MattBagg

2
@ mb3041023 Ні, крок до обох, коли ви перетворюєте деякі необроблені дані, такі як тексти, зображення чи серії, в деякі корисні атрибути.

8
На мій досвід, величезна частина проблеми машинного навчання буквально встановлює правильну проблему, яку потрібно вирішити / оптимізувати (тобто функції, представлення функцій, вибір тощо). Я хотів би побачити книгу, суто присвячену емпіричному вибору функцій та попередній обробці з багатьма реальними ілюстраціями (наприклад, kaggle). Якщо хтось знає про нього, pls. пост. Існує кілька книг, присвячених таким речам, як очищення даних / внесення даних, але вкрай необхідний спеціальний практичний текст щодо вибору функцій.
пт

2
Подивіться на: "Видобуток функцій: основи та програми", 2006
jasonb

2
@jasonb, як про автора, розмір, ціна, і посилання, що - щось на зразок цього: Гийон Е.Д., Feature Extraction :. Основи і додатки 2006, 778p, $ 306
денис

Відповіді:


7

Я б сказав, досвід - основні ідеї:

  • відповідно до того, як працюють класифікатори; надання задачі геометрії дереву, негабаритний розмір до kNN та дані інтервалу для SVM не є гарними ідеями
  • прибрати якомога більше нелінійностей; очікуючи, що якийсь класифікатор зробить аналіз Фур'є всередині, досить наївно (навіть якщо це втратить багато складності там)
  • зробіть функції загальними для всіх об'єктів, щоб деякі вибірки в ланцюзі не вибили їх
  • перевірити попередні роботи - часто трансформація, яка використовується для візуалізації чи тестування подібних типів даних, вже налаштована на виявлення цікавих аспектів
  • уникайте нестабільних, оптимізуючих перетворень, таких як PCA, що може призвести до надмірного розміщення
  • експериментуйте багато

Як ви визначаєте "інтервальні дані"? Я шукав в Google і знайшов багато різних визначень.
потужність

Ви можете детальніше розглянути питання про PCA?
Даніель Велков

х|х-найближчий прем'єр|<0,3

@DanielVelkov Коли ви завантажуєте PCA на досить галасливі дані, компоненти часто нестабільні; це сприяє ідеї зробити один глобальний PCA для всього доступного набору, що просочує інформацію та є прямим способом зіпсувати оцінку.

@mbq Що робити, якщо PCA запускається лише на навчальному наборі, як це має бути?
Даніель Велков

1

Є книга О'Рейлі під назвою " Техніка особливостей для машинного навчання " Чжен та ін.

Я читаю книгу, і вона охоплює різні типи даних (наприклад, категоричні, текстові ...) та описує різні аспекти інженерії функцій, які йдуть разом із нею. Сюди входять такі речі, як нормалізація даних, вибір функцій, tf-idf в тексті.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.