Таблиця репродукції 18.1 з "Елементи статистичного навчання"

Таблиця 18.1 в елементах статистичного навчання підсумовує ефективність декількох класифікаторів на наборі даних 14 класу. Я порівнюю новий алгоритм з мережею та еластичною сіткою для таких задач класифікації багатокласових.

Використовуючи glmnetверсію 1.5.3 (R 2.13.0), я не в змозі відтворити точку 7. ( -окреслений мультином) в таблиці, де кількість використаних генів повідомляється про 269, а помилка тесту - 13 з 54. Використовувані дані - це набір даних про мікрорайону з 14 раком . Що б я не спробував, я отримую найкращу модель, що використовує в районі 170-180 генів з помилкою тесту 16 з 54. $L_1$

Зауважте, що на початку розділу 18.3 на сторінці 654 описано деяку попередню обробку даних.

Я зв’язався з авторами - поки що без відповіді - і прошу, чи хтось може підтвердити, що існує проблема у відтворенні таблиці, або запропонувати рішення щодо відтворення таблиці.

classification lasso glmnet

— NRH
джерело

нещодавно glmnet зазнав певних змін і в минулому виникли деякі проблеми з числовими номерами. Чи можливо це пов’язано з цим? Як давно ви зв’язувалися з авторами? Я бачу, що поточна версія 1.7 і була завантажена в CRAN лише близько тижня тому.

— кардинал

@cardinal, минуло чотири тижні, коли я робив останні експерименти з glmnet, але у нас також є інша реалізація, яка дає подібні результати, не відповідають таблиці в ESL. Таблиця, безумовно, старша, тому я гадаю, що таблиця неправильна, але було б непогано знати це точно.

— NRH

Я дуже коротко проглянув ці розділи, і одне питання, яке виникло мені на думку, - це те, як було проведено перехресне підтвердження для вибору параметра усадки в (18.19) на сторінці 661 (третя друк). Будь-яка ідея? Можливо, я пропустив це чи це описано в іншому місці? Це здається ймовірним місцем, де ваші спроби відтворити їх аналіз можуть бути чутливими до відмінностей у підході.

— кардинал

@cardinal, перше дякую, що зацікавився цим. Правильно, що резюме може змінити ситуацію, але автори насправді мають підмножини (індекси), використовувані для CV на веб-сторінці разом із даними. У будь-якому випадку, CV використовується лише для вибору оптимальної лямбда-параметра, тоді весь набір даних тренінгу використовується для відповідності моделі, яка потім оцінюється за тестовими даними. Отже, навіть якщо крок резюме вибирає іншу лямбда, ця лямбда перебуває на шляху рішення даних про навчання, і ми не можемо їх знайти ...

— NRH

ви перевірили пакет R книги? він містить усі набори даних, функції та більшість скриптів, які використовуються там ...

— user603
джерело

хороша спроба. Так, я перевірив пакет, але стверджувати, що він містить усі дані, функції та більшість сценаріїв - це перебільшення. Він не є повним, і він не містить відповідних наборів даних.

— NRH