Чи є різниця між віддаленим наглядом, самонавчанням, самонавідним навчанням та слабким наглядом?


12

З того, що я прочитав:


Далекий нагляд :

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

Самопідготовка :

введіть тут опис зображення


Самонавчання ( Йейтс, Олександр та ін. "Textrunner: відкрите вилучення інформації в Інтернеті". Праці з технологій людської мови: Щорічна конференція Північноамериканської глави Асоціації обчислювальної лінгвістики: демонстрації. Асоціація обчислювальної лінгвістики, 2007. ):

Учень працює в два етапи. По-перше, він автоматично позначає власні дані тренувань як позитивні чи негативні. По-друге, він використовує ці марковані дані для підготовки класифікатора Naive Bayes.


Слабкий нагляд (Гофман, Рафаель та ін. "На основі знань слабкий нагляд за інформацією видобутку взаємозв'язків". Матеріали 49-го щорічного засідання Асоціації обчислювальної лінгвістики: Технології людської мови. Том 1. Асоціація обчислювальної лінгвістики, 2011 .):

Більш перспективний підхід, який часто називають "слабким" або "віддаленим" спостереженням, створює власні дані тренувань, евристично співпадаючи вміст бази даних з відповідним текстом.


Для мене це все звучить однаково, за винятком того, що самонавчання здається дещо іншим, оскільки евристичний маркування є тренованим класифікатором, а між фазою маркування та фазою підготовки класифікатора існує цикл. Однак Яо, Лімін, Себастьян Рідель та Ендрю Маккаллум. " Колективне вилучення взаємних документів без мічених даних ". Матеріали Конференції 2010 року про емпіричні методи обробки природних мов. Асоціація обчислювальної лінгвістики, 2010. стверджують, що дистанційний нагляд == самонавчання == слабкий нагляд.

Також є інші синоніми ?


Цікаве запитання. Чи може це належати Data Data?
goangit

@goangit Напевно, як хороший шматок цього веб-сайту;)
Franck Dernoncourt

Відповіді:


7

f

f

Традиційно в будь-якому документі з машинного навчання про контрольоване навчання можна виявити, що в документі неявно припускається, що дані про навчання доступні і для чого його варто, як правило, передбачається, що етикетки є точними і що в етикетках немає двозначності. які наводяться до прикладів у навчальних даних. Однак, використовуючи далекі / слабкі документи з нагляду, люди зрозуміли, що їх навчальні дані мають неточні позначки, і те, що вони хочуть зазвичай виділити в своїй роботі, - це те, що вони отримують хороші результати, незважаючи на очевидний недолік використання неточних етикеток (і вони можуть мати інші алгоритмічні способи подолати питання неточних етикеток шляхом додаткового процесу фільтрування тощо. Зазвичай статті хочуть підкреслити, що ці додаткові процеси є важливими та корисними). Це породило терміни "слабкий" або "віддалений", щоб вказати, що мітки на даних про навчання неточні. Зауважте, що це не обов'язково впливає на навчальний аспект класифікатора. Класифікатор, яким користуються ці хлопці, все ще неявно передбачає, що мітки точні, а алгоритм тренувань майже не змінюється.

З іншого боку, самопідготовка в цьому сенсі є дещо особливою. Як ви вже зазначали, він отримує свої мітки від власного класифікатора і має трохи циклу зворотного зв'язку для виправлення. Як правило, ми вивчаємо контрольовані класифікатори за дещо великою метою "індуктивних" алгоритмів, де вивчений класифікатор - це індуктивний висновок, зроблений з навчальних даних про всі дані. Люди вивчали іншу форму, яку ми називаємо трансдуктивним умовиводом, де загальний індуктивний висновок - це не вихід алгоритму, але алгоритм у сукупності приймає як навчальні дані, так і дані тесту, як вхідні дані і виробляє мітки на тестових даних. Однак люди зрозуміли, чому б не використати трансдуктивний умовивід в індуктивному навчанні, щоб отримати класифікатор з більшими навчальними даними.

Сподіваюсь, я вас більше не плутав, сміливо коментуйте і просіть додаткових роз'яснень, якщо це необхідно.

[1] Може бути корисним - http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf


Дякую, ваша відповідь дуже цікава! Як щодо самонавчання? Те саме, що віддалений / слабкий нагляд?
Franck Dernoncourt

1
Так. Я не бачу різниці між самонавчанням та віддаленим / слабким наглядом, оскільки етикетки отримують окремо від неточного джерела і потім подають на контрольований класифікатор.
TenaliRaman
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.