Як вибрати відповідні функції даних?


11

Нещодавно я працював над проблемою, щоб зробити аналіз витрат моїх витрат на якийсь конкретний ресурс. Зазвичай я приймаю деякі рішення вручну з аналізу і планую відповідно.

У мене є великий набір даних у форматі excel та із сотнями стовпців, що визначають використання ресурсу в різні часові рамки та типи (інші різні детальне використання). У мене також є інформація про мої попередні 4 роки даних та фактичне використання ресурсів та витрати, відповідно понесені.

Я сподівався навчитись НН, щоб заздалегідь передбачити свою вартість і запланувати ще до того, як я зможу вручну зробити аналіз витрат.

Але найбільшою проблемою, з якою я стикаюся, є необхідність виявити особливості такого аналізу. Я сподівався, що існує певний спосіб визначити особливості з набору даних.

PS - Я маю уявлення про PCA та деякі інші методики зменшення набору функцій, на що я дивлюсь - це спосіб їх визначення в першу чергу.

Відповіді:


1

Оскільки у вас є всі дані в таблиці, порівняно просту річ - це розглянути кожен стовпець самостійно, а потім побачити, чи має змінну виводу (понесені витрати) кореляцію з цим.

Якщо стовпець не має (або дуже низька кореляція) з вихідною змінною, то вважайте це не важливим. Ті, що роблять зріз, потім розглядаються далі.

Це, очевидно, не дуже відрізняється від того, як би працював алгоритм дерева рішень (наприклад, ID3).


0

для вибору функцій немає жорсткого і швидкого правила, вам доведеться вручну вивчити набір даних і спробувати різні методи інженерії функцій. І немає правила, що для цього слід застосовувати нейронні мережі, нейронні мережі займають багато часу для навчання, натомість ви можете експериментувати з методами на основі дерева рішень (випадкові ліси), оскільки ваші дані так чи інакше є в таблиці.


спасибі за вклад, 1. Я погоджуюся, що NN - це не найкращий спосіб перевірити гіпотезу, але, мабуть, за допомогою NN ми можемо досягти більш широких відносин між особливостями, щоб отримати кращі результати (у більшості випадків). 2. Проблема, з якою я стикався, полягала в тому, щоб вибрати функції, які насправді визначали б модель для моєї проблеми, а також як визначити ваги функцій.
Каран Чопра

0

Це відмінне запитання і, мабуть, одне з найскладніших завдань щодо ML.

У вас є кілька варіантів:

  1. Ви можете використовувати алгоритми зважування (наприклад, Chi-квадрат), щоб зрозуміти, які функції найбільше сприяють вашому результату
  2. Ви можете використовувати інші алгоритми ML, щоб класифікувати, чи сприяє функція вашим прогнозам чи ні
  3. Ви можете використовувати інші алгоритми ML (крім NN), які за своєю суттю надають вагові функції (наприклад, Random Forest)

Сподіваюся, що це допомагає


0

Доцільно враховувати не лише співвідношення залученості ресурсів із витратами, а й окупність витрат на залучення ресурсів. Типовим завданням є те, що ці прибутки майже завжди накопичуються або затримуються. Випадок накопичення - це коли ресурс - це постійне налаштування або вдосконалення процесу, відсутність якого уповільнює отримання доходу. Випадок затримки - це коли наукові ресурси несуть витрати без впливу доходу протягом певного періоду часу, але отримання доходу, яке починається, якщо дослідження дають результативні результати, може бути істотним фактором, що перевищує загальну вартість отриманих результатів.

Причина даних про витрати сама по собі може призвести до дезадаптивного вивчення мережі через те, що мережа, яка навчена скорочувати, наприклад, маркетингові витрати, приведе їх до нуля. Це, як правило, спричиняє зменшення тенденції провідних продажів, поки бізнес не згортається. Без включення повернень у навчальну інформацію, корисне навчання не може відбутися.

Основний MLP (багатошаровий персептрон) не вивчить часові характеристики даних, аспекти накопичення та затримки. Вам знадобиться благополучна мережа. Найбільш послідовно успішним типом мережі для такого виду навчання станом на цей час є тип мережі LSTM (довгострокова пам'ять) або один із його похідних варіантів. Дані про доходи та баланс повинні використовуватися разом із даними про витрати, щоб навчити мережу прогнозувати результати діяльності для будь-якої заданої послідовності запропонованих ресурсних ресурсів (повністю детальний бюджетний план).

Функція збитків повинна належним чином збалансувати термін сортування із середньо- та довгостроковими фінансовими цілями. Негативні наявні грошові кошти повинні створювати виражене збільшення функції збитків, щоб таким чином уникнути основних ризиків для репутації та вартості кредиту.

Які стовпці ваших даних мають сильну кореляцію з рентабельністю інвестицій, важко визначити заздалегідь. Ви можете негайно виключити стовпці, які відповідають будь-якому з наведених нижче критеріїв.

  • Завжди порожній
  • Інші константи, ті, що мають однакове значення для кожного ряду
  • Ті, які завжди можна отримати з інших стовпців

Дані можна зменшити іншими способами

  • Повна характеристика даних, характеризуючи тенденції простими способами
  • Використання індексів для визначення довгих рядків зі 100% точністю, присвоюючи кожному рядку число
  • Стиснення
  • В іншому випадку зменшується надмірність даних

МБР (обмежені машини Boltzmann) можуть витягувати функції з даних, а PCA можуть висвітлювати стовпці з низьким вмістом інформації, але значення стовпців з точки зору їх співвідношення з доходом не буде визначено за допомогою цих пристроїв у їх основній формі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.