Що означає теорія навчання PAC?


15

Я новачок у машинному навчанні. Я вивчаю курс машинного навчання (Стенфордський університет) і не зрозумів, що означає ця теорія і в чому її корисність. Мені цікаво, чи міг би хтось детально розказати цю теорію для мене.

Ця теорія заснована на цьому рівнянні. введіть тут опис зображення


2
PAC означає, ймовірно, приблизно коректний.
Marc Claesen

@MarcClaesen, Чи можу я пояснити це так: "Це означає, що підходи до машинного навчання пропонують
ймовірне

Відповіді:


16

Ймовірно, приблизно правильна (PAC) теорія навчання допомагає проаналізувати, чи і за яких умов учень , можливо, виведе приблизно правильний класифікатор. (Ви побачите, що деякі джерела використовують A замість L. )LАL

Спочатку визначимося з "приблизним". Гіпотеза є приблизно правильною, якщо її похибка в розподілі входів обмежена деякими ϵ , 0 ϵ 1годНТобто,errorD(h)<ϵ, деD- розподіл на входи.ϵ,0ϵ12.errorD(h)<ϵD

Далі "напевно". Якщо виведе такий класифікатор з вірогідністю 1 - δ , при 0 δ 1L1δ , ми називаємо цей класифікатор,ймовірно,приблизно правильним.0δ12

Знання того, що цільова концепція засвоєна PAC, дозволяє обмежити необхідний розмір вибірки, щоб, мабуть, вивчити приблизно правильний класифікатор, що саме показано у формулі, яку ви відтворили:

m1ϵ(ln|H|+ln1δ)

Щоб отримати деяку інтуїцію щодо цього, зверніть увагу на ефекти на коли ви змінюєте змінні в правій частині. У міру зменшення допустимої помилки зростає необхідний розмір вибірки. Крім того, він росте з ймовірністю приблизно правильного учня, і з розміром гіпотези простору H . (Вільно, простір гіпотез - це набір класифікаторів, які ваш алгоритм вважає.) Більш просто, якщо ви вважаєте більш можливими класифікатори або бажаєте меншої помилки або більшої ймовірності коректності, вам потрібно більше даних, щоб розрізняти їх.mH

Докладніше, це та інші пов’язані відео можуть бути корисними, як це може бути тривале вступ або один із багатьох текстів машинного навчання, скажімо, Мітчелл , наприклад.


Це є типом відповіді я шукав в протягом тривалого часу; і простий, але звуковий. Хоча багато джерел дають розгорнуту відповідь, це не так бажано для швидкого посилання.
Ебе Ісаак

4


(xi,yi)xiyix~ модель буде обчислити або передбачити відповідніy~ .
Дійсно, когось не цікавить, наскільки точна гіпотеза щодо даних (навчальних), за винятком того, що важко повірити, що модель, створена за допомогою деяких даних, не буде точно відображати цей набір даних, але буде точною в будь-якому майбутньому набори даних Два важливих застереження полягають у тому, що не можна прогнозувати нові дані зі 100% точністю, а також існує можливість, що в прикладах даних, за якими бачили, пропущено щось важливе. Прикладом іграшки є те, що якби я дав вам «дані» 1,2,3,4, один би «передбачив», що 5 буде наступним числом. Якщо ви тестували це, запитуючи людей, що було наступним числом у послідовності, більшість людей сказали б 5. Хтось мігскажімо, 1 000 000, хоча. Якби вам дали послідовність 1,2,3, ... 999,999, було б впевненіше, що наступне число - 1 000 000. Однак наступне число може становити 999,999,5 або навіть 5. Справа в тому, що чим більше даних бачимо, тим впевненіше можна зробити, що вона створила точну модель, але ніколи не може бути абсолютно впевненою.

xi,1imyifθfΘp>1δfΘϵ(δ,ϵ)(δ,ϵ) і наскільки складним є даний клас гіпотези.

Hfθ(ϵ,δ)0<ϵ,δ,<.5fΘx~,y~Err(fΘ(x~),y~)<ϵ with probability p>1δ if the model was selected (trained) with at least m=m(δ,ϵ,H) training examples. Here Err is the chosen loss function which is usually (fΘ(x~)y~)2.

The diagram you have gives a formula for how much data one needs to train on for a given class of hypotheses to satisfy a given pair (δ,ϵ). I could be wrong, but I believe that this definition was given by Valiant in a paper called "A Theory of the Learnable" and was in part responsible for Valiant winning the Turing prize.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.