Агностичне навчання за довільними розподілами


11

D{0,1}d×{0,1}Cf:{0,1}d{0,1}fC

err(f,D)=Pr(x,y)D[f(x)y]
OPT(C,D)=minfC err(f,D)
Скажіть, що алгоритм агностично дізнається над будь-яким розподілом, якщо для будь-якого він може з ймовірністю знайти функцію таку, що , заданий час і кількість зразків з , обмежених многочленом у та .ACD2/3ferr(f,D)OPT(C,D)+ϵDd1/ϵ

Запитання: Які класи функцій як відомо, агностічно вивчаються при довільних розподілах?C

Жоден клас не надто простий! Я знаю, що навіть монотонні сполучники, як відомо, не можна засвоїти через довільні розподіли, тому я просто шукаю нетривіальні класи функцій.


Варто зазначити для непосвячених, що агностичне навчання орієнтоване на випадок, коли OPT (C, D)> 0 (тобто у вас неправильний клас гіпотез
Суреш Венкат

Гарна думка. У спеціальному випадку, коли OPT (C, D) = 0, це навчання PAC, і це набагато простіше. Для агностичного навчання гарантія повинна зберігатися незалежно від того, що таке OPT (C, D).
Аарон Рот

Існує також випадок "PAC w / Classification Noise", коли OPT (C, D)> 0, і, хоча у вас є правильний клас гіпотез (реалізація налаштування), є певна помилка, оскільки мітки випадково перегортаються через шум ... I Хочеться, щоб імена різних налаштувань були менш заплутаними.
Лев Рейзін

це звучить як агностичне навчання з верхньою межею на OPT (C, D)
Суреш Венкат

Не зовсім тому, що шум не допускається довільним у класифікаційній моделі шуму. Отже, якщо існувала якась змагальна модель шуму, яка ускладнювала навчання (або знаходження емпіричного мінімізатора ризику) в агностичній моделі, це може не часто зустрічатися в класифікаційній моделі шуму (тобто потрапляти в дельта-параметр PAC).
Лев Рейзін

Відповіді:


9

Якщо жоден клас не надто простий, то ось декілька класів, що вивчаються агностично PAC. У відповідь на зауваження перекреслюються класи з поліноміально багато гіпотез:

  • дерева рішень постійної глибини (та інші класи, які мають лише багато гіпотез)
  • гіперплани в (тільки гіпотези, що створюють чітке маркування)R2O(n2)
  • об'єднання інтервалів (динамічне програмування)
  • парність на одному з перших з біт (див. це і це )log(k)loglog(k)n
  • інші класи гіпотез в умовах низьких розмірів.

Практично все інше - NP-Важко (принаймні належним чином) агностично засвоїти PAC.

Підручник Адама Калай з вивчення агностиків також може вас зацікавити.


Дякую. Отже, дерева рішень постійної глибини, двовимірні гіперплани (я припускаю, що інші низькі розмірні параметри, на які ви посилаєтесь), всі підпадають під категорію виконання лише багаточленових функцій, про які можна дізнатися виснаженням. Паритети на біти log (k) loglog (k) та об'єднання інтервалів цікаві тим, що вони містять суперполіномічно багато функцій. Є інші подібні?
Аарон Рот

Право, хоча в R ^ 2 є нескінченно багато гіперпланів, просто O (n ^ 2) wrt класифікує точки даних по-різному. Я не знаю жодних інших цікавих занять у верхній частині голови, але якщо я думаю / знайду будь-який, я відредагую свою відповідь.
Лев Рейзін

значить, ви хочете безмежні класи VC-розмірів?
Суреш Венкат

Безмежний розмір VC, безумовно, буде цікавим, але великі кінцеві (для фіксованих d) класів вже надзвичайно цікаві (і здаються рідкісними)
Аарон Рот

1
@LevReyzin Посилання на лекції Kalai не працює. Не могли б ви це зафіксувати? Я шукав в мережі, але не міг знайти і цього.
Анірбіт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.