У мене є вихідні дані, які містять близько 20 стовпців (20 функцій). Десять із них - це суцільні дані, 10 з них - категоричні. Деякі з категоричних даних можуть мати приблизно 50 різних значень (США). Після того як я попередньо обробляла дані, 10 безперервних стовпців стають 10 підготовленими стовпцями, а 10 категоричних значень стають схожими на 200 однокольорових кодованих змінних. Я стурбований тим, що якщо я поміщую всі ці 200 + 10 = 210 ознак у нейронну мережу, то 200-одинакові функції (10 категоричних стовпців) будуть повністю домінувати над 10-безперервними функціями.
Можливо, одним із методів було б "групувати" стовпці разом чи щось. Чи це справжнє занепокоєння і чи є якийсь стандартний спосіб вирішення цього питання?
(Я використовую Keras, хоча я не думаю, що це має велике значення.)