Я намагаюсь узагальнити те, що я зрозумів до цього часу в пеналізованому багатоваріантному аналізі з великомірними наборами даних, і я все ще намагаюся отримати правильне визначення м'якої порогової оцінки проти Лассо (або ) пеналізації.
Точніше, я використовував розріджену регресію PLS для аналізу 2-блокної структури даних, включаючи геномні дані ( одномолекулярні поліморфізми , де ми розглядаємо частоту другорядного алеля в діапазоні {0,1,2}, що розглядається як числова змінна) і безперервні фенотипи (результати кількісної оцінки рис особистості або церебральна асиметрія, також трактуються як постійні змінні). Ідея полягала в тому, щоб виділити найвпливовіші предиктори (тут генетичні варіації послідовності ДНК) для пояснення міжособливих фенотипічних варіацій.
Спочатку я використовував пакет mixOmics R (раніше integrOmics
), який має пеналізовану регресію PLS та регульований CCA . Дивлячись на код R, ми виявили, що "розрідженість" в предикторах просто викликається шляхом вибору топ змінних з найвищими навантаженнями (в абсолютному значенні) на му компоненті, (алгоритм є ітеративні та обчислюють змінні завантаження на компоненти, дефляція блоку предикторів при кожній ітерації, див. Розріджений PLS: Змінений вибір при інтеграції даних Omics для огляду). Навпаки, пакет spls у співавторстві С. Келеша (дивРідкісні часткові найменші квадрати регресії для одночасного зменшення розмірів та змінного вибору для більш формального опису підходу, здійсненого цими авторами) реалізують -пеналізацію для змінної пеналізації.
Мені не очевидно, чи існує чіткий "біекція", так би мовити, між ітераційним підбором ознак, заснованим на м'якому порогу і регуляризації . Отже, моє запитання: чи є математичний зв’язок між ними?
Список літератури
- Чун, Х. та Келе ̧s, S. (2010), Розріджені часткові найменші квадрати для одночасного зменшення розмірів та змінного вибору . Журнал Королівського статистичного товариства: Серія B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C., and Besse, P. (2008), Sparse PLS для змінного вибору при інтеграції даних Omics . Статистичні програми в генетиці та молекулярній біології , 7 , ст. 35.