У мене є набір даних з 20000 зразків, кожен має 12 різних функцій. Кожен зразок або в категорії 0, або 1. Я хочу навчити нейронну мережу та ліс прийняття рішень класифікувати зразки, щоб я міг порівняти результати та обидві методи.
Перше, на що я натрапив - це належна нормалізація даних. Одна особливість знаходиться в діапазоні , інша - в і є одна особливість, яка здебільшого приймає значення 8, а іноді і 7. Отже, як я читаю в різних джерелах, належна нормалізація вводу дані мають вирішальне значення для нейронних мереж. Як я з'ясував, існує багато можливих способів нормалізації даних, наприклад:
- Нормалізація Min-Max : Діапазон введення лінійно перетворюється на інтервал (або альтернативно , це має значення?)
- Нормалізація Z-Score : Дані перетворюються на нульову середню та одиничну дисперсію:
Яку нормалізацію слід вибрати? Чи потрібна нормалізація і для лісів, що приймають рішення? З нормалізацією Z-Score різні характеристики моїх тестових даних не лежать в одному діапазоні. Чи може це бути проблемою? Чи повинна нормалізуватися кожна функція за допомогою одного і того ж алгоритму, щоб я вирішив використовувати Min-Max для всіх функцій або Z-Score для всіх функцій?
Чи є комбінації, де дані відображаються на а також мають нульове середнє значення (що означало б нелінійне перетворення даних і, отже, зміну дисперсії та інших особливостей вхідних даних).
Я відчуваю себе трохи втраченою, тому що не можу знайти посилання, які б відповіли на ці запитання.