У мене є база даних з моєї програми Facebook, і я намагаюся використовувати машинне навчання для оцінки віку користувачів, виходячи з того, які сайти Facebook їм подобаються.
У моїй базі даних є три найважливіші характеристики:
розподіл за віком у моєму навчальному наборі (загалом 12 тис. користувачів) спрямований на молодших користувачів (тобто у мене 1157 користувачів у віці 27 років та 23 користувачі у віці 65 років);
на багатьох сайтах не більше 5 любителів (я відфільтрував FB сайти з менш ніж 5 любителями).
є набагато більше функцій, ніж зразки.
Отже, мої запитання: яка стратегія ви б запропонували підготувати дані для подальшого аналізу? Чи слід проводити якесь зменшення розмірності? Який метод ML найкраще використовувати в цьому випадку?
В основному я використовую Python, тому специфічні для Python підказки будуть дуже вдячні.