М'яке порогове порівняно проти лассо пеналізації


11

Я намагаюсь узагальнити те, що я зрозумів до цього часу в пеналізованому багатоваріантному аналізі з великомірними наборами даних, і я все ще намагаюся отримати правильне визначення м'якої порогової оцінки проти Лассо (або ) пеналізації.L1

Точніше, я використовував розріджену регресію PLS для аналізу 2-блокної структури даних, включаючи геномні дані ( одномолекулярні поліморфізми , де ми розглядаємо частоту другорядного алеля в діапазоні {0,1,2}, що розглядається як числова змінна) і безперервні фенотипи (результати кількісної оцінки рис особистості або церебральна асиметрія, також трактуються як постійні змінні). Ідея полягала в тому, щоб виділити найвпливовіші предиктори (тут генетичні варіації послідовності ДНК) для пояснення міжособливих фенотипічних варіацій.

Спочатку я використовував пакет mixOmics R (раніше integrOmics), який має пеналізовану регресію PLS та регульований CCA . Дивлячись на код R, ми виявили, що "розрідженість" в предикторах просто викликається шляхом вибору топ змінних з найвищими навантаженнями (в абсолютному значенні) на му компоненті, (алгоритм є ітеративні та обчислюють змінні завантаження на компоненти, дефляція блоку предикторів при кожній ітерації, див. Розріджений PLS: Змінений вибір при інтеграції даних Omics для огляду). Навпаки, пакет spls у співавторстві С. Келеша (дивкii=1,,ккРідкісні часткові найменші квадрати регресії для одночасного зменшення розмірів та змінного вибору для більш формального опису підходу, здійсненого цими авторами) реалізують -пеналізацію для змінної пеналізації.L1

Мені не очевидно, чи існує чіткий "біекція", так би мовити, між ітераційним підбором ознак, заснованим на м'якому порогу і регуляризації . Отже, моє запитання: чи є математичний зв’язок між ними?L1

Список літератури

  1. Чун, Х. та Келе ̧s, S. (2010), Розріджені часткові найменші квадрати для одночасного зменшення розмірів та змінного вибору . Журнал Королівського статистичного товариства: Серія B , 72 , 3–25.
  2. Le Cao, K.-A., Rossouw, D., Robert-Granie, C., and Besse, P. (2008), Sparse PLS для змінного вибору при інтеграції даних Omics . Статистичні програми в генетиці та молекулярній біології , 7 , ст. 35.

Відповіді:


2

Що я скажу, справедливо для регресії, але має бути правдою і для PLS. Отже, це не біекція, тому що, залежно від того, наскільки ви застосовуєте обмежене в , ви отримаєте різноманітні "відповіді", тоді як друге рішення допускає лише можливих відповідей (де - кількість змінних) <-> більше розчинів у рецептурі ніж у формулюванні 'усічення'.л1ppл1


@kwak Добре, алгоритм LARS здається значно більш досконалим, ніж просте порогове значення зі змінною важливістю, але справа в тому, що я не бачу чіткого зв’язку між параметром штрафу та # змінних, які просять зберігати у моделі; мені здається, ми не можемо обов’язково знайти параметр штрафу, який дав би точно фіксовану кількість змінних.
chl

@chl:> Ви маєте на увазі S-PLS? (Ви писали LARS, що відрізняється від алгоритму, про який ви обговорюєте). Дійсно, існує параметр однорідного між параметром штрафу та номером # компонента, але він не є лінійним співвідношенням і цей взаємозв'язок змінюється залежно від конкретного випадку (залежить від набору даних / проблеми).
user603

@kwak L1-штраф може бути досягнуто за допомогою ЛАРС, якщо я не ввожу в оману. Ваш другий пункт - це те, що я маю на увазі насправді; Чи є у вас якісь посилання на цю тему?
chl

@chl:> * Штраф L1 може бути досягнутий за допомогою LARS, якщо я не введу в оману * я цього не знав (і в чомусь сумнівався в цьому). Чи можете ви надати довідку? Дякую. для вашого другого питання: подивіться на "ступінь свободи" ласо Hui Zou, Тревор Хасті та Роберт Тібширані Джерело: Енн. Статист. Том 35, № 5 (2007), 2173-2192. (існує безліч необ’єднаних версій).
user603

1
@kwak Перегляньте веб-сторінку Tibshirani , www-stat.stanford.edu/~tibs/lasso.html та larsпакет R; інші методи включають спуск координат (див. JSS 2010 33 (1), bit.ly/bDNUFo ), а scikit.learnпакет Python має обидва підходи, bit.ly/bfhnZz .
chl

6

L1L1

L1ХХ1

Х


(+1) Дякую за це, особливо папери Фрідмана.
chl
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.