Скажімо, я хочу створити логістичний класифікатор для фільму М. Моїми характеристиками буде щось на зразок віку людини, статі, професії, місця розташування. Тож навчальний набір буде чимось на кшталт:
- Вікова стать Професія Місце подобається (1) / Не подобається (0)
- 23 M Програмне забезпечення США 1
- 24 F Лікар Великобританії 0
і так далі .... Тепер моє запитання - як я повинен масштабувати та представляти свої особливості. Один із способів я подумав: поділіть вік на вікові групи, тому 18-25, 25-35, 35 вище, Стать як M, F, Місцезнаходження як США, Великобританія та інші. Тепер створіть бінарну функцію для всіх цих значень, отже, вік матиме 3 двійкові ознаки, кожна з яких відповідає віковій групі тощо. Так, 28 років із США представлено як 010 10 100 (010-> Вікова група 25-35, 10 -> Чоловік, 100 -> США)
Що може бути найкращим способом представити тут функції? Також я помітив у деяких e.gs. Висновок, що всі ознаки певним чином масштабовані / нормалізовані, наприклад, гендер представлений двома значеннями, 0,0045 та -,0,0045 для чоловіків і жінок. Я не маю підказки щодо того, як зробити масштабування / мормалізацію так?