Чи повинен пошук у сітці SVM показувати область високої точності з низькою точністю навколо?


12

У мене є 12 позитивних навчальних наборів (ракові клітини, які лікуються лікарськими засобами з кожним із 12 різних механізмів дії). Для кожного з цих позитивних навчальних наборів я хотів би навчити підтримуючу векторну машину, щоб відрізнити її від негативного набору рівних розмірів, відібраного з експерименту. Кожен набір має від 1000 до 6000 комірок, і існує 476 ознак (особливостей зображення) кожної комірки, кожна з яких лінійно масштабується до [0, 1].

Я використовую LIBSVM і ядро ​​Gaussian RGB. Використовуючи п'ятикратну перехресну перевірку, я здійснив пошук сітки для log₂ C ∈ [-5, 15] та log₂ ɣ ∈ [-15, 3]. Результати такі:

Результати пошуку в сітці

Я був розчарований, що не існує єдиного набору параметрів, які дають високу точність для всіх 12 проблем класифікації. Я також був здивований, що сітки, як правило, не демонструють області високої точності, оточеної меншою точністю. Чи це просто означає, що мені потрібно розширити простір параметрів пошуку, або пошук в сітці вказує на те, що щось інше не так?


2
Повторне розчарування: Ви б не очікували, що кожна проблема має однакові параметри, тож чому б ви очікували, що проблеми поділять хороші значення для гіперпараметрів (log gama та C)?
сполученийперіор

@Conjugate Prior: Набір тренувань - це підмножини одного експерименту, і негативні навчальні набори відбираються з тієї ж сукупності, тому я сподівався, що та ж ширина ядра RBF ɣ буде ефективною. Оскільки позитивні множини дискримінуються з однакового (негативного) населення, я сподівався, що ідеальне покарання С буде подібним. Якщо це не так, SVM дійсно важко застосувати. Наприклад, м'яке підвищення, здається, набагато простіше настроїти.
Вебйорн Льоса

Ага. Але мені здається, що хоч це той самий експеримент у фізичному сенсі, ти все-таки нападаєш на окремі та різні проблеми в статистичному сенсі. Особливо, якщо негативні випадки будуть повторно відібрані для кожного лікування.
кон'югатпріор

1
BTW, пошук по сітці є досить неефективним, алгоритм оптимізації симплексного синдрому Nelder-Mead дуже ефективний, як і методи оптимізації спуску градієнта. Пошук сітки простий, але трохи "груба сила".
Дікран Марсупіал

@Vebjorn Ljosa (через рік), скільки розкидаються 5 значень, скажімо на фіналі (C, гама)? Чи 12 масштабів масштабуються однаково, наприклад 50% .. 100% правильний прогноз? Дякую
Denis

Відповіді:


9

Оптимальні значення для гіпер-параметрів будуть різними для різних навчальних задач, їх потрібно налаштувати окремо для кожної проблеми.

Причина, коли ви не отримуєте єдиного оптимуму, полягає в тому, що параметр ядра і параметр регуляризації контролюють складність моделі. Якщо C невеликий, ви отримуєте гладку модель, також, якщо ядро ​​з широким, ви отримаєте гладку модель (оскільки основні функції не дуже локальні). Це означає, що різні комбінації C і ширини ядра призводять до аналогічно складних моделей з подібною продуктивністю (саме тому ви отримуєте діагональну особливість у багатьох ділянках, які у вас є).

Оптимум також залежить від конкретної вибірки навчального набору. Можливе перевищення помилки перехресної перевірки, тому вибір гіперпараметри шляхом перехресної перевірки може насправді погіршити продуктивність, якщо вам не пощастить. Дивіться Каулі та Талбот для деяких обговорень цього питання.

Те, що існує широке плато значень для гіпер-параметрів, де ви отримуєте аналогічно хороші значення, насправді є хорошою характеристикою підтримуючих векторних машин, оскільки це говорить про те, що вони не надто вразливі до надмірного розміщення у виборі моделі. Якщо у вас різкий пік при оптимальних значеннях, це було б погано, оскільки пік було б важко знайти, використовуючи кінцевий набір даних, який би дав ненадійні вказівки, де цей пік насправді перебуває.


До речі, я виконую дослідження надмірно підібраного вибору моделі за допомогою пошуку в сітці, що виявляється набагато цікавішим, ніж я думав. Навіть маючи декілька гіперпараметрів, ви все одно можете переоцінити критерій вибору моделі, якщо оптимізувати через сітку, що це занадто добре!
Дікран Марсупіал

Зараз я підходжу до кінця імітаційної роботи, сподіваюся, мені вдасться подати папір через місяць-два ...
Дікран Марсупіал

Мені буде цікаво прочитати цей документ, якщо він буде закінчений? У оптимізаціях пошуку в сітці я натрапив на дивні шипи тощо, що схоже на те, що ви тут обговорюєте.
BGreene

Всі роботи з імітації зараз завершені, я зараз просто кладу папір (здебільшого просто забезпечую, щоб вона була повністю відтвореною). Я врятував усі сітки, тому слід здійснити деякий аналіз, щоб переглянути інші питання, про які я не думав на той час.
Дікран Марсупіал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.