Що ви думаєте про застосування методів машинного навчання, як-от випадкові ліси чи санкціоновані регресії (з покаранням L1 або L2, або їх комбінація) у невеликих вибіркових клінічних дослідженнях, коли метою є виділення цікавих прогнозів у контексті класифікації? Це не питання щодо вибору моделі, а також не питання про те, як знайти оптимальні оцінки змінного ефекту / важливості. Я не планую робити чітких висновків, а просто використовувати багатовимірне моделювання, отже уникати тестування кожного передбачувача на результат інтересу один за одним та врахування їх взаємозв'язків.
Мені було просто цікаво, чи застосовувався такий підхід у цьому конкретному крайньому випадку, скажімо, 20-30 суб’єктів із даними про 10-15 категоричних чи безперервних змінних. Це не зовсім випадок і я думаю, що проблема тут пов’язана з кількістю класів, які ми намагаємось пояснити (які часто недостатньо збалансовані), і (дуже) малим n. Мені відомо про величезну літературу на цю тему в контексті біоінформатики, але я не знайшов жодної посилання, пов’язаної з біомедичними дослідженнями з психометрично вимірюваними фенотипами (наприклад, через нейропсихологічні анкети).
Будь-який натяк чи покажчик на відповідні документи?
Оновлення
Я відкритий до будь-яких інших рішень для аналізу такого роду даних, наприклад, алгоритм С4.5 або його похідні, методи правил асоціації та будь-які методи вилучення даних для класифікованої та напівнагляду.