Правильна межа PAC навчання VC


11

Добре відомо, що для концептуального класу C з розмірністю VC d достатньо отримати O(dεlog1ε)мічені приклади до PAC дізнатисяC. Мені незрозуміло, чи алгоритм навчання PAC (який використовує ці багато зразків) є правильним чи неправильним? У підручниках Кірнса і Вазірані, а також Ентоні і Біггса здається, що алгоритм навчання PAC є неправильним (тобто, вихідна гіпотеза не лежить вC)

  1. Чи може хтось уточнити, чи відповідає аналогічна верхня межа для правильної настройки навчання PAC? Якщо так, чи не могли б ви дати мені посилання, де це прямо вказано, а також містить самодостатнє підтвердження?

  2. Нещодавно Hanneke покращив цю межу, позбувшись фактора журнал(1/ε) . Чи може хтось уточнити, чи відомо, що журнал(1/ε) є знімним для правильної настройки навчання PAC? Або це все ще відкрите питання?


Що це за папір Ханнеке, про яку ви посилаєтесь?
градстудент

Відповіді:


9

Дякую Ар'є за те, що донесли до мене це питання.

Як уже згадували інші, відповідь на (1) - « Так» , а простий метод мінімізації емпіричного ризику в С досягає складності вибірки О((г/ε)журнал(1/ε)) (див. Вапник та Червоненкіс, 1974; Блюмер, Еренфехт, Хауслер і Вармут, 1989).

Що стосується (2), то насправді відомо, що існують простори С де жоден правильний алгоритм навчання не досягає кращої складності вибірки Ω((г/ε)журнал(1/ε)) , а отже, правильне навчання не може досягти оптимального О(г/ε) складність вибірки. Наскільки мені відомо, цей факт насправді ніколи не публікувався, але він укорінений у спорідненому аргументі Даніелі та Шалев-Шварца (COLT 2014) (спочатку сформульований для іншого, але пов'язаного з цим питання в навчанні на багатокласовій основі).

Розглянемо простий випадок г=1 , і покласти простір Х , як {1,2,...,1/ε} , а С є одинаковими fz(х): =Я[х=z],zХ : тобто кожен класифікатор в С класифікує рівно одну точку від Х як 1 а інші як 0. Для нижньої межі візьміть цільову функцію як випадковий сингтон fх , де хUнifоrм(Х) , а П , граничний розподіл Х , рівномірний для Х{х} . Тепер учень ніколи не бачить жодних прикладів з позначкою 1 , але він повинен вибрати точку z щоб здогадатися, що вона позначена 1 (важливо, що функція `` нуль '' не знаходиться в С, Так що будь-який правильний учень повинен здогадатися , який z ), і , поки він не бачив кожну точку в Х{х} має принаймні 1/2 шанс вгадати неправильно (тобто, задня ймовірність його fz , має zх складає щонайменше 1/2 ). Аргумент збирача купонів означає, що він вимагатиме Ω((1/ε)журнал(1/ε))зразки, щоб побачити кожну точку в Х{х} . Таким чином, це доводить нижню межу Ω((1/ε)журнал(1/ε)) для всіх належних учнів.

Для загального г>1 , ми візьмемо Х як {1,2,...,г/(4ε)} , візьміть С як класифікатори ЯА для множини АХ розміром точно г , виберіть цільову функцію навмання від С і знову прийміть П як рівномірний лише в точках, на які цільова функція класифікує 0 ( тому учень ніколи не бачить крапки з позначкою 1). Тоді узагальнення аргументу збирача купонів означає, що нам потрібні зразки Ω((г/ε)журнал(1/ε)) щоб побачити принаймні |Х|-2г різних точок з Х , і не бачачи це багато різних точок будь-який власний учень має принаймні 1/3 шанс отримати більше , ніж г/4 його здогад А з г точок неправильно в його вибрали гіпотези годА, тобто його коефіцієнт помилок перевищує ε . Отже, у цьому випадку не існує належного учня зі складністю вибірки, меншою за Ω((г/ε)журнал(1/ε)) , а це означає, що належний учень не досягає оптимальної складності вибірки О(г/ε) .

Зверніть увагу , що результат цілком специфічний для простору С побудовано. Існують простори С де належні учні можуть домогтися оптимальної складності вибірки О(г/ε) , і навіть навіть точного повного вираження О((г/ε)+(1/ε)журнал(1/δ)) з ( Hanneke, 2016a). Деякі верхні та нижні межі для загальних студентів, що навчаються в ERM, були розроблені в (Hanneke, 2016b), кількісно визначені з точки зору властивостей простору С, а також обговорення деяких більш спеціалізованих випадків, коли конкретні належні учні іноді можуть досягти оптимальної складності вибірки.

Список літератури:

Вапник і Червоненкіс (1974). Теорія розпізнавання візерунків. Наука, Москва, 1974.

Блюмер, Еренфехт, Хауслер і Вармут (1989). Навчання та вимір Вапніка-Червоненкіса. Журнал Асоціації обчислювальної техніки, 36 (4): 929–965.

Даніелі та Шалев-Шварц (2014). Оптимальні курси для багатокласових проблем. У працях 27-ї конференції з теорії навчання.

Hanneke (2016a). Оптимальна складність вибірки навчання PAC. Journal of Machine Learning Research, Vol. 17 (38), стор 1-15.

Hanneke (2016b). Уточнені межі помилок для кількох алгоритмів навчання. Journal of Machine Learning Research, Vol. 17 (135), стор 1-55.


Цікаво ... Чи існує комбінаторна характеристика класів для яких правильне навчання PAC є вибірково оптимальним? Або хоча б достатні умови (закриття під перехрестям, союз?)С
Климент К.

2
@ClementC. Невідома повна характеристика того, які класи мають оптимальні показники, які досягаються належними учнями загалом. Довідковий документ "Уточнені межі помилок ..." дає комбінаторну характеристику, за якою класи допускають оптимальні показники для всіх студентів, що навчаються на ERM (Дослідження 14). Відповідна кількість - це "зірковий номер": найбільша кількість точок, що дозволяє перевернути мітку будь-якої точки без зміни інших (Визначення 9). Закриті перехрестя класи мають оптимальне правильне навчання: альг «закриття» (теорема 5 у статті, а також доведено Дарнштадтом, 2015).
С. Ханнеке

Дякую!
Климент К.

6

Ваші запитання (1) та (2) пов'язані. По-перше, поговоримо про правильне навчання PAC. Відомо, що є належні слухачі ПКС, які досягають нульової помилки вибірки, але все ж вимагають приклади. Для простого доказуϵзалежності розглянемо клас понять інтервалів[a,b][0,1]при рівномірному розподілі. Якщо ми обираємонайменшийпослідовний інтервал, ми дійсно отримуємо вибірку складностіO(1/ϵ). Припустимо, однак, ми вибираємонайбільшийпослідовний інтервал, а цільовою концепцією є точковий інтервал, такий як[0,0]Ω(dϵlog1ϵ)ϵ[а,б][0,1]О(1/ϵ)[0,0]. Тоді простий аргумент збору талонів показує, що якщо ми не отримаємо приблизно Приклади, нас обдурить проміжок між негативними прикладами (єдиний вид, який ми побачимо) - який має характерну поведінку1/[розмір вибірки] при рівномірному розподілі. Більш загальні нижні межі цього типу наведені в1ϵжурнал1ϵ1/

П. Ауер, Р. Ортнер. Новий PAC призначений для закритих перехрестям концепційних класів. Машинне навчання 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

Справа в належному PAC полягає в тому, що для позитивних результатів в абстрактному випадку не можна вказувати алгоритм поза ERM, який говорить "знайти концепцію, відповідну міченому зразку". Якщо у вас є додаткова структура, наприклад інтервали, ви можете вивчити два різні алгоритми ERM, як зазначено вище: мінімальний проти максимально послідовного сегмента. І вони мають різну складність вибірки!

Сила неналежного ПКС полягає в тому, що ви отримуєте розробку різних схем голосування (Hanneke's такий результат) - і ця додаткова структура дозволяє вам довести кращі показники. (Історія простіша для агностичного PAC, де ERM дає вам найкращий найгірший показник, аж до констант.)

Редагувати. Зараз мені здається, що стратегія прогнозування графіків на 1 включення Д. Гаусслера, Н. Літтлстоун, М. К. Вармута. Прогнозування {0,1} -Функції на випадково накреслених точках. Інф. Обчислення. 115 (2): 248-292 (1994), можливо, є природним кандидатом на універсальний власний PAC.О(г/ϵ)


Дякую! Добре, тож якщо я вас правильно зрозумів, вибіркова складність неправильного навчання PAC становить а для правильного навчання PAC це Θ ( d / ϵ log ( 1 / ϵ ) ) , нижня межа для останнього є досягнутого за прикладом, який ви даєте. Це так? Θ(d/ϵ)Θ(г/ϵжурнал(1/ϵ))
Анонім

Так, з невеликим застереженням, що для неправильного PAC потрібно використовувати певний алгоритм (Hanneke's) - не будь-який старий ERM. Не соромтеся приймати відповідь :)
Aryeh

Я запізнююся на вечірку, але чи не згадана нижня межа складності вибірки нижня межа складності вибірки лише для конкретного алгоритму навчання (або обмеженого класу)? Я маю на увазі, без такого обмеження теоретично не існує інформаційного поділу між належним та неналежним ПКС, правда? (І, отже, немає розлуки без обчислювальних припущень, таких як чи подібних)?)NПRП
Климент С.

1
Звичайне визначення навчальної здатності PAC вимагає алгоритмів полі часу. Мої моменти полягають у тому, що (i) розслаблення цього, належне та неправильне, має однакову складність вибірки; (ii) з цією вимогою ми не можемо довести безумовний поділ між належним та неналежним (оскільки це, по суті, доводить щось на кшталт NP, не рівне RP). (Ми можемо довести нижчі межі складності вибірки конкретних алгоритмів правильного навчання, однак, наскільки я розумію, це те, що робить посилання Арія.)
Климент С.

1
@ClementC. В одному з своїх попередніх коментарів, які ви згадали після запуску неправильного алгоритму PAC, учень отримує можливо неправильну гіпотезу, і тоді учень може знайти найближчу належну гіпотезу з класу концепцій (без більше зразків). Але як міг вчитель це зробити, не знаючи розподілу, за яким йому дають зразки? Чи не вимірюється найближче за невідомим розподілом?
Анонім

5

Щоб додати до прийнятої відповіді:

  1. Так. верхня межа складності вибірки також належна для правильного навчання PAC(хоча важливо зазначити, що це може не призвести до обчислювально ефективного алгоритму навчання. Це нормально, оскільки, якщоNP=RPневідомо, що деякі класи є не ефективно належне засвоєння ПКС (див. напр., теорема 1.3 у книзі «Кірнс-Вазірані», яку ви згадуєте). Насправді це показано в книзі Кірнс-Вазірані (теорема 3.3), такLіснує постійна гіпотеза шукача з класом гіпотезиH=C. Див. Також [1].

    O(dεlog1ε)
    NP=RPLН=С
  2. Невідомо. Алгоритм Ханнеке [2] - це неправильний алгоритм навчання. Чи може цей додатковий коефіцієнт у складності вибірки зняти для належного вивчення PAC (теоретично інформація, тобто відміна будь-яких вимог до обчислювальної ефективності) , залишається відкритим питанням. Ср. відкриті питання наприкінці [3]:журнал(1/ε)

    Класично, досі залишається відкритим питання, чи потрібен фактор у верхній межі [1] для ( ε , δ ) -профільного навчання PAC.журнал(1/ε)(ε,δ)

    (Зноска 1 у цьому ж документі також є актуальною)


[1] А. Блюмер, А. Еренфюхт, Д. Гауслер та М. К. Вармут. Навчання та вимір Вапніка-Червоненкіса. Журнал АСМ, 36 (4): 929–965, 1989.

[2] С. Ханнеке. Оптимальна складність вибірки навчання PAC. Дж. Мах. Дізнайтеся. Рез. 17, 1, 1319-1333, 2016.

[3] С. Аруначалам та Р. де Вольф. Оптимальна складність квантової вибірки алгоритмів навчання. У працях 32-ї конференції з обчислювальної складності (CCC), 2017.


Чи можна вважати, що графік 1-включення Хаусслера та ін. такий оптимальний учень на ПКС?
Ар'єй

@Aryeh Я не впевнений. З того, що я міг знайти, Вармут вигадав так у 2004 році. Я не знаю більше того.
Климент К.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.