Дякую Ар'є за те, що донесли до мене це питання.
Як уже згадували інші, відповідь на (1) - « Так» , а простий метод мінімізації емпіричного ризику в С досягає складності вибірки Про ( ( д/ ε)журнал( 1 / ε ) ) (див. Вапник та Червоненкіс, 1974; Блюмер, Еренфехт, Хауслер і Вармут, 1989).
Що стосується (2), то насправді відомо, що існують простори С
де жоден правильний алгоритм навчання не досягає кращої складності вибірки Ω ( ( d/ ε)журнал( 1 / ε ) ) , а отже, правильне навчання не може досягти оптимального Виведення ( д/ ε) складність вибірки. Наскільки мені відомо, цей факт насправді ніколи не публікувався, але він укорінений у спорідненому аргументі Даніелі та Шалев-Шварца (COLT 2014) (спочатку сформульований для іншого, але пов'язаного з цим питання в навчанні на багатокласовій основі).
Розглянемо простий випадок г= 1 , і покласти простір Х , як { 1 , 2 , . . . , 1 / ε } , а С є одинаковими fz( x ) : = I [ x = z] , z∈ X : тобто кожен класифікатор в С класифікує рівно одну точку від Х як 1 а інші як 0. Для нижньої межі візьміть цільову функцію як випадковий сингтон fх∗ , де х∗∼ U n i fo r m ( X) , а П , граничний розподіл Х , рівномірний для Х∖ { x∗} . Тепер учень ніколи не бачить жодних прикладів з позначкою 1 , але він повинен вибрати точку z щоб здогадатися, що вона позначена 1 (важливо, що функція `` нуль '' не знаходиться в С, Так що будь-який правильний учень повинен здогадатися , який z ), і , поки він не бачив кожну точку в Х∖ { x∗} має принаймні 1 / 2 шанс вгадати неправильно (тобто, задня ймовірність його fz , має z≠ x∗ складає щонайменше 1 / 2 ). Аргумент збирача купонів означає, що він вимагатиме Ω ( ( 1 / ε ) журнал( 1 / ε ) )зразки, щоб побачити кожну точку в Х∖ { x∗} . Таким чином, це доводить нижню межу Ω ( ( 1 / ε ) журнал( 1 / ε ) ) для всіх належних учнів.
Для загального г> 1 , ми візьмемо Х як { 1 , 2 , . . . , д/ (4ε)} , візьміть С як класифікатори ЯА для множини A ⊂ X розміром точно г , виберіть цільову функцію навмання від С і знову прийміть П як рівномірний лише в точках, на які цільова функція класифікує 0 ( тому учень ніколи не бачить крапки з позначкою 1). Тоді узагальнення аргументу збирача купонів означає, що нам потрібні зразки Ω ( ( d/ ε)журнал( 1 / ε ) ) щоб побачити принаймні | Х| -2д різних точок з Х , і не бачачи це багато різних точок будь-який власний учень має принаймні 1/3 шанс отримати більше , ніж d/4 його здогад A з d точок неправильно в його вибрали гіпотези hA, тобто його коефіцієнт помилок перевищує ε . Отже, у цьому випадку не існує належного учня зі складністю вибірки, меншою за Ω((d/ε)log(1/ε)) , а це означає, що належний учень не досягає оптимальної складності вибірки O(d/ε) .
Зверніть увагу , що результат цілком специфічний для простору C побудовано. Існують простори C де належні учні можуть домогтися оптимальної складності вибірки O(d/ε) , і навіть навіть точного повного вираження O((d/ε)+(1/ε)log(1/δ)) з ( Hanneke, 2016a). Деякі верхні та нижні межі для загальних студентів, що навчаються в ERM, були розроблені в (Hanneke, 2016b), кількісно визначені з точки зору властивостей простору C, а також обговорення деяких більш спеціалізованих випадків, коли конкретні належні учні іноді можуть досягти оптимальної складності вибірки.
Список літератури:
Вапник і Червоненкіс (1974). Теорія розпізнавання візерунків. Наука, Москва, 1974.
Блюмер, Еренфехт, Хауслер і Вармут (1989). Навчання та вимір Вапніка-Червоненкіса. Журнал Асоціації обчислювальної техніки, 36 (4): 929–965.
Даніелі та Шалев-Шварц (2014). Оптимальні курси для багатокласових проблем. У працях 27-ї конференції з теорії навчання.
Hanneke (2016a). Оптимальна складність вибірки навчання PAC. Journal of Machine Learning Research, Vol. 17 (38), стор 1-15.
Hanneke (2016b). Уточнені межі помилок для кількох алгоритмів навчання. Journal of Machine Learning Research, Vol. 17 (135), стор 1-55.