Який перший: алгоритм бенчмаркінгу, вибір функцій, налаштування параметрів?


11

Коли я намагаюся зробити, наприклад, класифікацію, на даний момент я підхожу

  1. спершу спробуйте різні алгоритми та порівняйте їх
  2. виконувати вибір функції за найкращим алгоритмом з 1 вище
  3. налаштування параметрів за допомогою вибраних функцій та алгоритму

Однак я часто не можу переконати себе, що може бути кращий алгоритм, ніж обраний, якщо інші алгоритми були оптимізовані з найкращим параметром / найбільш підходящими функціями. У той же час, пошук по всіх алгоритмах * параметрах * особливостей занадто трудомісткий.

Будь-яка пропозиція щодо правильного підходу / послідовності?

Відповіді:


8

Я припускаю, що ви маєте на увазі вибір функцій як конструктор функцій . Зазвичай я слідкую за процесом, і, як я бачу, це деякі люди

  1. Особливості техніки
  2. Спробуйте кілька алгоритмів, як правило, високоефективні, такі як RandomForest, Gradient Boosted Дерева, Нейтральні мережі або SVM.

    2.1 Робіть просту настройку параметрів, наприклад пошук сітки за невеликим діапазоном параметрів

Якщо результат кроку 2 не є задовільним, поверніться до кроку 1, щоб створити більше функцій або видалити зайві функції та зберегти найкращі, люди зазвичай називають цей вибір функції . Якщо у вас не вистачає ідей для нових функцій, спробуйте більше алгоритмів.

Якщо результат добре або близький до бажаного, перейдіть до кроку 3

  1. Широка настройка параметрів

Причиною цього є те, що класифікація стосується інженерії функцій , і якщо ви не знаєте неймовірних потужних класифікаторів, таких як глибоке навчання, налаштоване під конкретну проблему, наприклад, Computer Vision. Створення хороших особливостей є ключовим. Вибір класифікатора важливий, але не важливий. Усі згадані вище класифікатори за показниками продуктивності досить порівнянні, і, як правило, найкращий класифікатор виявляється одним із них.

Налаштування параметрів може підвищити продуктивність, в деяких випадках, досить багато. Але без хороших можливостей налаштування не дуже допоможе. Майте на увазі, у вас завжди є час на налаштування параметрів. Крім того, немає сенсу широко налаштовувати параметр, тоді ви відкриєте для себе нову функцію і повторите все.


2

Гей, я щойно побачив ваше запитання. ЦІЛЬНО НЕБЕЗПЕЧНО спочатку зробити вибір функції, а потім настроїти модель за допомогою перехресної перевірки. В елементах статистичного навчання та в цьому дописі в блозі чітко зазначається, що: метод CV не є об'єктивним лише в тому випадку, якщо все побудова вашої моделі виконано всередині циклу резюме. Так само зробіть вибір функцій всередині циклу CV для настройки параметрів. Це легко зробити за допомогою фільтруючої обгортки в пакеті MLR в Р.


1

Я вже відповів на подібне запитання тут . Процес буде таким:

  • Трансформація та скорочення: включає такі процеси, як перетворення, середнє та середнє масштабування тощо.
  • Вибір функції: це можна зробити багатьма способами, як вибір порогу, вибір підмножини тощо.
  • Проектування прогнозної моделі: спроектуйте модель прогнозування за навчальними даними залежно від особливостей, які у вас є.
  • Перехресна перевірка та налаштування параметрів:
  • Остаточний прогноз, перевірка

Завжди намагайтеся виконувати інженерні можливості перед вибором моделі. Потім виберіть модель відповідно до найкращих характеристик (або функцій, які, як правило, краще впливають на проблему / залежну змінну.)


0

Якщо ви готові витратити час, вивчаючи, як працює новий інструмент, ви можете спробувати автозаучити. Він робить все необхідне для створення трубопроводу ML. Попередня обробка, вибір, побудова модельного ансамблю та налаштування за допомогою перехресної перевірки. Залежно від кількості ваших даних, це може бути, а може бути і не швидшим способом хорошого прогнозу. Але це, безумовно, перспективний.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.