Вибір оптимальної альфа-еластичної логістичної регресії

Я здійснюю еластичну чисту логістичну регресію на наборі даних охорони здоров’я, використовуючи glmnetпакет в R, вибираючи значення лямбда по сітці від 0 до 1. Мій скорочений код нижче: $\alpha$

alphalist <- seq(0,1,by=0.1)
elasticnet <- lapply(alphalist, function(a){
  cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001)
})
for (i in 1:11) {print(min(elasticnet[[i]]$cvm))}

яка виводить середню перехресну перевірену помилку для кожного значення альфа від до із збільшенням : $0.0$ $1.0$ $0.1$

[1] 0.2080167
[1] 0.1947478
[1] 0.1949832
[1] 0.1946211
[1] 0.1947906
[1] 0.1953286
[1] 0.194827
[1] 0.1944735
[1] 0.1942612
[1] 0.1944079
[1] 0.1948874

Виходячи з того, що я читав в літературі, оптимальним вибором є те, де помилка cv зведена до мінімуму. Але помилок у діапазоні альфа існує велика кількість варіацій. Я бачу кілька локальних мінімумів, з глобальною мінімальною помилкою для . $\alpha$ 0.1942612alpha=0.8

Чи безпечно їхати alpha=0.8? Або, враховуючи різницю, мені слід повторно запустити cv.glmnetз більшою кількістю перехресних перевірок (наприклад, замість ) або, можливо, більшою кількістю приростів між, і щоб отримати чітке уявлення про шлях помилки cv? $20$ $10$ $\alpha$ alpha=0.01.0

— RobertF
джерело

Ви хочете подивитися на caretпакунок, який може робити повторений cv і налаштування для альфа та лямбда (підтримує багатоядерну обробку!). З пам’яті, я думаю, що glmnetдокументація заважає настроювати альфа, як ви робите тут. Рекомендує зберігати фіксовану кількість разів, якщо користувач налаштовує альфа на додаток до налаштування лямбда, передбаченого компанією cv.glmnet.

Ах, знайшов цю публікацію тут: stats.stackexchange.com/questions/69638/…

— RobertF

не забувайте виправляти фолд, коли ви намагаєтеся іншу

α

$\alpha$

— user4581

Для відтворюваності ніколи не працюйте, cv.glmnet()не передаючи foldidsстворене з відомого випадкового насіння.

— smci

@amoeba погляньте на мою відповідь - вклад про компроміси між l1 та l2 вітаються!

— Xavier Bourret Sicotte

Відповіді:

Уточнення того, що означає параметри та еластична мережа $\alpha$

Різні термінології та параметри використовуються різними пакетами, але значення загалом однакове:

У пакеті R Glmnet використовується таке визначення

$\min_{\beta_0,\beta} \frac{1}{N} \sum_{i=1}^{N} w_i l(y_i,\beta_0+\beta^T x_i) + \lambda\left[(1-\alpha)||\beta||_2^2/2 + \alpha ||\beta||_1\right]$

Sklearn використання

$\min_{w} \frac{1}{2N} \sum_{i=1}^{N} ||y - Xw ||^2_2 + \alpha \times l_1 \text{ratio} ||w||_1 + 0.5 \times \alpha \times (1 - l_1 \text{ratio}) \times ||w||_2^2$

Існують і альтернативні параметри з використанням і . $a$ $b$

Щоб уникнути плутанини я збираюся зателефонувати

$\lambda$ параметр міцності штрафу
$L_1 \text{ratio}$ відношення між штрафом і , що становить від 0 (гребінь) до 1 (ласо) $L_1$ $L_2$

Візуалізація впливу параметрів

Розглянемо модельований набір даних, де складається з галасливої синусоїди, а - двовимірна ознака, що складається з і . Через кореляцію між та функцією витрат є вузька долина. $y$ $X$ $X_1 = x$ $X_2 = x^2$ $X_1$ $X_2$

Наведена нижче графіка ілюструє шлях рішення еластичної регресії з двома різними параметрами відношення як функцію параметра міцності. $L_1$ $\lambda$

Для обох моделювання: коли то рішення - це рішення OLS в нижньому правому куті, з відповідною функцією витрат у формі долини. $\lambda = 0$
Зі збільшенням регуляризація починається, і розчин має тенденцію до $\lambda$ $(0,0)$
Основна відмінність двох моделей - це показник відношення . $L_1$
LHS : при малому співвідношенні функція регульованої вартості дуже нагадує регресію хребта з круглими контурами. $L_1$
RHS : при великому співвідношенні функція витрат дуже нагадує регресію Лассо з типовими контурами алмазної форми. $L_1$
Для проміжного співвідношення (не показано) функція витрат - це суміш двох $L_1$

Розуміння ефекту параметрів

ElasticNet був введений для боротьби з деякими обмеженнями Lasso, які є:

Якщо змінних більше, ніж точок даних , , ласо вибирає не більше змінних. $p$ $n$ $p>n$ $n$
Лассо не може виконати груповий вибір, особливо за наявності корельованих змінних. Він буде схильний вибирати одну змінну з групи та ігнорувати інші

Комбінуючи та квадратичний штраф ми отримуємо переваги обох: $L_1$ $L_2$

$L_1$ генерує розріджену модель
$L_2$ знімає обмеження на кількість вибраних змінних, заохочує групування та стабілізує шлях регуляризації . $L_1$

Це можна наочно побачити на схемі вище, особливості вершин заохочують розрідженість , тоді як суворі опуклі краї сприяють групуванню .

Ось візуалізація, зроблена від Hastie (винахідника ElasticNet)

Подальше читання

— Xavier Bourret Sicotte
джерело

Дозвольте додати кілька дуже практичних зауважень, незважаючи на вік питання. Оскільки я не користувач R, я не можу дозволити коду говорити, але все-таки це має бути зрозумілим.

Зазвичай слід просто вибрати гіперпараметри (тут: ) з найкращим балом CV. Крім того, ви можете вибрати кращі моделі і сформувати ансамбль шляхом арифметичного усереднення функції прийняття рішення. Це, звичайно, збільшує складність виконання. Підказка: іноді геометричне усереднення працює краще . Я думаю, це через більш плавну межу прийняття рішення. $\alpha$ $k$ $f_1, ..., f_k$ $f(x) = \frac{1}{k}\sum_i{f_i(x)}$ $f(x) = \sqrt[k]{\prod_{i=1}^k{f_i(x)}}$
Однією з переваг переустановки є те, що ви можете перевірити послідовність тестових балів, які тут є оцінками рейтингу. Ви завжди повинні дивитися не тільки на середнє значення, але і на відхилення std (воно нормально розподілене, але ви дієте як би). Зазвичай ви показуєте цю вимогу як 65,5% (± 2,57%) для точності. Таким чином ви можете сказати, чи є "малі відхилення" скоріше випадковими чи структурно. Краще було б навіть оглянути цілі послідовності. Якщо з якоїсь причини завжди є одне відкидання, можливо, ви захочете переосмислити те, як ви робите розкол (це також натякає на несправний експериментальний дизайн, також: ви перетасували?). У scikit вивчіть GridSearchCVдеталі магазинів про терміни складання в cv_results_( див. Тут ).
Що стосується : чим вона вище, тим більше ваша еластична сітка матиме функцію розрідження . Ви можете перевірити ваги отриманих моделей, чим вище , тим більше буде встановлено нуль. Це корисна хитрість видалити атрибути з вагами, встановленими на нулі, зі свого трубопроводу разом (це значно покращує продуктивність виконання). Ще одна хитрість - використовувати модель еластичної сітки для вибору особливостей, а потім перекваліфікувати варіант . Зазвичай це призводить до драматичного підвищення продуктивності моделі, оскільки взаємозв'язки між функціями відфільтровані. $\alpha$ $L_1$ $\alpha$ $L_2$

— uberwach
джерело

Вибір оптимальної альфа-еластичної логістичної регресії

Уточнення того, що означає параметри та еластична мережаαα\alpha

Візуалізація впливу параметрів

Розуміння ефекту параметрів

Подальше читання

Уточнення того, що означає параметри та еластична мережа $\alpha$