Зараз я працюю над логістичною регресійною моделлю для геноміки. Одне з полів введення, яке я хочу включити як коваріат, - це genes
. Відомо близько 24 000 генів. Існує багато особливостей з цим рівнем мінливості в обчислювальній біології, і потрібні сотні тисяч зразків.
- Якщо я
LabelEncoder()
ці 24K гени - а потім
OneHotEncoder()
їх ...
Чи буде 24000 стовпців, щоб зробити мої тренування керасом необгрунтованими для чотирьохядерного процесора i7 з частотою 2,2 ГГц?
Якщо так, чи є інший підхід до кодування, який я можу взяти з цим?
Чи варто якось намагатися присвятити шар своєї моделі цій функції?
Чи означає це, що мені потрібні 24K вузли введення?