Яка фактична якість машинного перекладу?


27

До сьогодні мене - як непрофесійного мирянина - збентежили обіцяні та досягнуті вдосконалення автоматизованого перекладу.

Моє враження: ще є дуже-дуже далекий шлях. Або є інші пояснення, чому автоматизовані переклади (пропоновані та надані, наприклад, Google) досить простих статей у Вікіпедії, як і раніше, читаються і звучать переважно нерозумно, важко читаються і є лише частково корисними та корисними?

Це може залежати від особистих уподобань (щодо читабельності, корисності та корисності), але мої особисті очікування розчаровані сильно.

Навпаки: чи все-таки переклади Google читаються, корисні та корисні для більшості користувачів ?

Або у Google є причини зберігати свої досягнення (а не показувати користувачам найкраще, що вони можуть показати)?


Попередній результат: Ми ще далекі від того, щоб говорити зі штучними розумами на рівних умовах і розуміти - лише на рівні струн. То чому ми повинні боятися? Тому що вони знають більше, ніж ми знаємо, - але ми не знаємо?


2
Машинний переклад є важкою проблемою, тим більше, що сучасні методи не намагаються зрозуміти текст, який потрібно перекласти. Це працює в більшій чи меншій мірі у багатьох випадках, але також може вражати невдачі. Я особисто вважаю, що - маючи це на увазі - більшість перекладів є корисними, і я не маю підстав вважати, що компанії з МТ стримуються. Можливо, деякі доменні програми, які є більш комерційними, але не є загальними загальними MT.
Олівер Мейсон

@OliverMason: "сучасні методи не намагаються зрозуміти текст, який потрібно перекласти" - це суть, яку слід сказати? Ось як я маю зрозуміти результати МТ? Досить сумно. (Деякі протиріччя з боку спільноти ШІ були б дуже раді!)
Ганс-Пітер Стрікер

1
@ Ганс-ПетерСтрікер: Ну, все-таки все почалося, коли Фред Єлінек зауважив, що стрілянина мовознавців зробила його розпізнавачем мови більш точним. Відтоді різні форми машинного навчання обігнали AI, заснований на правилах, і зараз ми навряд чи маємо уявлення про те, як більшість систем ШІ «насправді працює» - за винятком, можливо, на стохастичному рівні.
Кевін

2
@ Hans-PeterStricker Не дуже корисно думати про сучасну систему AI як "розуміння" чогось. Подумайте про це більше як про систему, яка приймає набір входів і створює набір результатів. Вхідним текстом може бути текст англійською мовою, а вихідним - іспанський текст. Система "дізналася" це з цілого ряду текстів англійською мовою та їх рівнозначних іспанських текстів. Це означає, що він розуміє англійську, чи розуміє іспанську? Це більше питання філософії. Що практично важливо, це те, що він може перетворити англійську мову на іспанську з певним ступенем надійності.
Джош Еллер

У відповідях це було зачіпано злегка, але я думаю, що варто зазначити, що відповідь сильно залежить від мовних пар, про які ви говорите. Якість сказати, англійська <-> іспанська, набагато вище, ніж англійська <-> японська.
mbrig

Відповіді:


21

Хто стверджував, що машинний переклад такий же хороший, як і людський перекладач? Для мене, як професійного перекладача, який заробляє на переклад уже 35 років, MT означає, що моє щоденне виробництво перекладу якості людини зросло на коефіцієнт від 3 до 5, залежно від складності вихідного тексту.

Я не можу погодитись, що якість MT знижується з тривалістю введення іноземної мови. Це було справедливо для старих систем із семантичним та граматичним аналізами. Я не думаю, що я знаю всі старі системи (я знаю Systran, сміттєвий інструмент від Siemens, який продавались від однієї компанії до іншої, як подарунок Danaer, XL8, Personal Translator and Translate), але навіть професійну систему в яку я вклав 28 000 німецьких марок (!!!!), зазнав невдачі.

Наприклад, речення:

У цей спекотний літній день мені довелося працювати, і це був біль у попі.

можна перекласти за допомогою декількох засобів МТ на німецьку мову.

Особистий перекладач 20 :

Auf diesem heißen Sommertag musste ich arbeiten, und es war ein Schmerz im Esel.

Підказка :

A diesem heißen Sommertag musste ich arbeiten, und es war ein Schmerz im Esel.

DeepL :

Дім-геасен Sommertag musste ich arbeiten und es war eine Qual.

Google:

A diesem heißen Sommertag musste ich arbeiten und es war ein Schmerz im Arsch.

Сьогодні Google зазвичай подає мені читабельні, майже правильні переклади, а DeepL - ще краще. Тільки сьогодні вранці я переклав 3500 слів за 3 години, і результат є бездоганним, хоча текст у вихідному тексті був повний помилок (написаний китайською мовою).


4
Тим із нас, хто не володіє німецькою мовою, незрозуміло, яка з цих альтернатив є хорошою та поганою. Я знаю, що "Езель" означає "попка (тварина)", а "Арш" означає "попка (частина тіла)". Я не знаю, що означає "Qual", або якщо "ein Schmerz im Arsch" є прийнятним.
Стиг Хеммер

3
"Шмерц ім Езель" - комічний (і неправильний). "Арш" - це досить розмовне слово, яке ви не вживали б у письмовій німецькій мові. "Якість" - це "біль", тому ІМХО є кращим вибором, хоча і не зовсім точним, оскільки речення висловлює роздратування, а не реальний біль.
Олівер Мейсон

1
@OliverMason Qual - хороший переклад: dict.leo.org/englisch-deutsch/qual
yunzen

4
@OliverMason Я є носієм німецької мови, і я вважаю це цілком придатним
yunzen

5
@OliverMason "біль у попці" - це ідіома. "Шмерц ім Арш" не є: ніхто цього не говорить. "Qual" - це точний переклад англійської ідіоми, який, всупереч сказаному, рідко позначає фактичний, фізичний біль (і, також, "Qual" може бути як буквальним, так і образним болем). Без іншого контексту переклад DeepL видається ідеальним.
Конрад Рудольф

7

Переклади Google можуть бути корисними, особливо якщо ви знаєте, що переклади не є ідеальними, і якщо ви просто хочете мати початкове уявлення про зміст тексту (переклади якого Google можуть бути часом вводячи в оману або неправильно). Я б не рекомендував перекладачу Google (або будь-якому іншому перекладачу, що не стосується людини) здійснити серйозний переклад, якщо це, можливо, звичайне речення або слово, воно не передбачає дуже довгих текстів та неофіційної мови (або жаргону); Англійська мова чи ви не маєте доступу до перекладача з людини.

0100100

У роботі Зробити AI значимим знову автори також обговорюють складність завдання перекладу (який, як вважають, є проблемою, повним AI ). Вони також згадують про трансформатор (іншу сучасну модель машинного перекладу), який досягає досить поганих результатів (оцінюється за допомогою метрики BLEU).

Підсумовуючи це, машинний переклад є важкою проблемою, і сучасні системи машинного перекладу, безумовно, не працюють так добре, як професійний перекладач з людини.


100 балів BLEU не означає переклад із золотого стандарту людини, це означає, що він точно відповідає еталонному перекладу. Оскільки зазвичай існує кілька способів перекладу речення, навіть людський переклад зазвичай не має 100 BLEU, але більше схожий на 50-60.
justhalf

@justhalf Прочитайте мою відповідь ще раз.
nbro

1
Дякую за відповідь, і вибачте, якщо мій попередній коментар виявився грубим. Моя думка в моєму попередньому коментарі полягала в тому, що невірно створювати враження, що людський переклад отримає 100 балів BLEU, що, здається, відповідає вашій нинішній відповіді.
justhalf

100

5

Ви задали досить багато питань, на деякі з яких не можна відповісти остаточно. Щоб ознайомитись з якістю (та її історією) машинного перекладу, я хотів би посилатися на Крістофера Меннінга на його «орієнтир в одному реченні», представлений у його лекції . Він містить один приклад з китайської на англійську, який порівнюється з результатами Google Translate. Правильним перекладом для прикладу буде:

У 1519 р. Шість сотень іспанців висадилися в Мексиці, щоб завоювати імперію ацтеків з населенням у кілька мільйонів. Вони втратили дві третини своїх солдатів у першій сутичці.

Google Translate повернув наступні переклади.

2009 1519 600 іспанців висадилися в Мексиці, мільйони людей завоювали імперію ацтеків, перші дві третини солдатів проти їх втрати.

2011 1519 У Мексиці висадилося 600 іспанців, мільйони людей підкорили імперію ацтеків, початкові втрати солдатів, дві третини їхніх зустрічей.

2013 1519 600 іспанців висадилися в Мексиці, щоб підкорити імперію ацтеків, сотні мільйонів людей, початкові протистояння втрат солдатів на дві третини.

2015 1519 600 Мешканців Іспанії висадилися в Мексиці, мільйони людей підкорили імперію ацтеків, перші дві третини втрат солдатів, які вони зіткнулися.

2017 У 1519 році 600 іспанців висадилися в Мексиці, щоб підкорити мільйони людей імперії ацтеків, в першому протистоянні вони вбили дві третини.

Чи зберігає Google чи «ховає» свої найкращі результати: я сумніваюся в цьому. Є багато чудових дослідників, які працюють у галузі обробки природних мов (NLP). Якби Google отримав би «найбільше досягнення» для перекладу, дослідники рано чи пізно це зрозуміють. (Чому в будь-якому випадку Google ховає їхнє "найбільше досягнення"? Вони, схоже, бачать перевагу відкритого коду, див. Трансформатор [1] або BERT [2])

NB. Для оновленого списку найсучасніших алгоритмів NLP див. Таблицю лідерів SQuAD2.0 .

[1] Васвані, Ашиш та ін. "Увага - все, що вам потрібно". Успіхи в нейронних системах обробки інформації. 2017 рік.

[2] Девлін, Яків та ін. "Берт: Попередня підготовка глибоких двонаправлених трансформаторів для розуміння мови". arXiv передрук arXiv: 1810.04805 (2018).


Дякую за посилання на "добре компенсованих дослідників". Маючи на увазі компенсації, завжди допомагає зрозуміти речі краще (навіть не знаю, що ви мали на увазі під час встановлення цього посилання).
Ганс-Пітер Стрікер

Аргумент теж не був дуже твердим. Видалили посилання та спробували вдосконалити аргумент. Я читав багато робіт з NLP і досить впевнений у своїх висновках, але важко знайти підтримку аргументу.
RikH

Будь ласка, повідомте мені про ваші висновки (якщо ви не заперечуєте). Мою електронну адресу можна знайти на сторінці мого профілю.
Ганс-Пітер Стрікер

1
2019 :In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
Дан М.

4

Це дійсно залежить від мовної пари та теми змісту. Зазвичай найкраще підтримується переклад на / з англійської на будь-яку іншу мову. Переклад на та з популярних мов працює краще, наприклад, переклад з англійської на румунську є біднішим перекладом, ніж англійська на російська. Але переклад з англійської на російську або румунську краще, ніж переклад російської на румунську. А переклад румунської на англійську краще, ніж переклад англійської на румунську.

Але якщо ви звикли працювати з перекладачами і маєте ознайомлення з мовами, помилками перекладу та темою, легко зрозуміти, що там повинно було бути. І в цей момент іноді легше прочитати щось, перекладене на рідну мову, для швидкого сканування, ніж прочитати його на другій мові.

Менш популярні мови (для перекладу не обов'язково за кількістю мовців) набагато ближче до буквальних перекладів лише трохи краще, ніж те, що ви особисто зробили б, використовуючи словник для двох мов, яких ви не знаєте.


2

Я помиляюся, і переклади Google все-таки читаються, корисні та корисні для більшості користувачів?

Так, вони дещо корисні і дозволяють швидше перекладати.

Або у Google є причини зберігати свої найбільші досягнення (а не показувати користувачам найкраще, що вони можуть показати)?

Можливо, я не знаю. Якщо ви шукаєте інформацію, Google насправді робить багато жахливих дурних речей, як, наприклад, вчитися на тому, що користувачі говорять в Інтернеті, приймаючи невідповідні дані як надійні набори вхідних даних.


2

Вибачення за те, що не писав англійською мовою. Тут можна знайти адаптований переклад:

Щоб дати зацікавленим людям уявлення про якість MT (DeepL), будь ласка, ознайомтесь із цим прикладом із тексту, над яким я працював сьогодні вранці (6300 слів, розпочато о 9 ранку, доставка сьогодні близько 13 вечора, та ще час знайти цю посаду). Я працював над цим реченням (201 слово), коли публікував свій коментар.

або будь-які процеси, які запускаються або активуються, коли ви не ввійшли на цей веб-сайт, або іншим чином перешкоджають належній роботі або покладають необгрунтоване навантаження на інфраструктуру цього веб-сайту; або (e) використовувати ручне або автоматизоване програмне забезпечення, пристрої чи інші процеси для "сканування", "вискоблювання" або "павука" будь-якої сторінки цього веб-сайту; або (f) декомпілювати, реверсувати інженер або намагатися іншим чином отримати вихідний код цього веб-сайту. "

DeepL повертає це:

Sie versichern, garantieren унд verpflichten Січ gegenüber АВС, Дасс Sie вмирає Nicht чан Werden: (а) betrügerische, missbräuchliche Одер anderweitig Illegale Aktivitäten durchzuführen, вмирають Anlass für померти Beendigung Ihres RECHTS Ауф Zugang Одер Nutzung Dieser веб-сайту унд / Одер дер Dienste зет können; oder (b) Mitteilungen oder Aufforderungen, die dazu bestimmt sind oder sind, Passwörter, Konten oder private Informationen von anderen Nutzern dieser Website zu erhalten, zu posten oder zu übertragen oder posten oder posu oder zu übertragen; oder (c) die Sicherheit eines Computernetzwerks verletzen, Passwörter oder Sicherheitsverschlüsselungscodes knacken, illegales Матеріал (einschließlich Material, das als bedrohlich oder obszön angesehen werden kann) übertragen odgen spelenichtenteer tuerichente tuer die ausdrücklich verboten sind; oder (d) Mailliste, Listenserver oder jede andere Форма автовідповідача oder "Спам" auf dieser Веб-сайт oder Prozesse, die ausgeführt werden orer активиert werden, während Sie nicht auf dieser Веб-сайт ангельдент, будь-який, і навпаки, не вдається, щоб це не було. Belastung der Infrastruktur dieser Веб-сайт stören; oder (e) manuelle oder automaisierte Software, Geräte oder andere Prozesse verwenden, um eine Seite dieser Website zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Website zu erhalten. die ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser Веб-сайт angemeldet sind, oder die anderweitig das ordnungsgemäße Funktionieren oder eine unangemessene Belastung der Infrastruktur dieser Website stören; oder (e) manuelle oder automaisierte Software, Geräte oder andere Prozesse verwenden, um eine Seite dieser Website zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Website zu erhalten. die ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser Веб-сайт angemeldet sind, oder die anderweitig das ordnungsgemäße Funktionieren oder eine unangemessene Belastung der Infrastruktur dieser Website stören; oder (e) manuelle oder automaisierte Software, Geräte oder andere Prozesse verwenden, um eine Seite dieser Website zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Website zu erhalten. zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Website zu erhalten. zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Website zu erhalten.

На користь цього пункту мені знадобилося від 5 до 10 хвилин.

Як перекладач, я знаю, що не можу покластися на машинний переклад, але я з часом дізнався про особливості та можливості різних систем і знаю, на що слід звернути увагу.

МТ мені дуже допомагає в роботі.


2
Зауважте, що юридичні тексти дають кращий автоматичний переклад, оскільки в цій галузі є багатомовні тексти.
Quora Feans

1

Це буде не стільки відповідь, скільки коментар.

Якість залежить від кількох речей, включаючи (як Аарон сказав вище) 1) мовну пару та 2) тему, а також 3) роди та 4) стиль оригіналу та 5) кількість паралельного тексту, який ви маєте для підготовки системи МТ.

Для встановлення сцени практично всі MT сьогодні базуються на паралельних текстах, тобто на двох різних мовах, причому одна, мабуть, є перекладом іншої (або обидві є перекладом якоїсь третьої мови); і потенційно, використовуючи словники (можливо, допомагають морфологічні процеси) як зворотній зв'язок, коли паралельні тексти не містять конкретних слів.

Більше того, як говорили інші, система МТ жодним чином не розуміє текстів, які він перекладає; він просто бачить рядки символів і послідовності слів, що складаються з символів, і шукає подібні рядки та послідовності в текстах, які перекладені раніше. (Гаразд, це трохи складніше, ніж це. Були спроби потрапити на семантику в обчислювальних системах, але поки це в основному рядки.)

1) Мови різняться. У деяких мовах багато морфології, це означає, що вони роблять речі одним словом, що інші мови мають декілька слів. Простим прикладом може бути іспанська 'cantaremos' = англійська «ми будемо співати». І одна мова може робити речі, які інша мова навіть не турбує, як-от неофіційне / формальне (ту / usted) відмінність на іспанській мові, якому англійська мова не має еквіваленту. Або одна мова може робити речі з морфологією, що інша мова робить із порядком слів. Або сценарій, який використовує мова, може навіть не позначати межі слів (китайська та кілька інших). Чим більше різняться ці дві мови, тим важче буде системі МТ перекладати між ними. Перші експерименти зі статистичними MT були зроблені між французькою та англійською мовами,

2) Тема: Якщо у Біблії у вас є паралельні тексти (що стосується майже будь-якої пари письмових мов), і ви навчаєте свою систему МТ з цих, не сподівайтесь, що це добре зробить технічні тексти. (Ну, Біблія - ​​це порівняно невелика кількість тексту за стандартами підготовки систем МТ, але прикидайтесь :-).) Лексика Біблії сильно відрізняється від інженерних текстів, а також частота різних граматичних текстів споруди. (Граматика по суті однакова, але в англійській мові, наприклад, ви отримуєте набагато більше пасивного голосу та більше складних іменників у наукових та технічних текстах.)

3) Положення: Якщо ваш паралельний текст є всім декларативним (наприклад, інструкції з трактора, скажімо), намагання використовувати отриману систему МТ у діалоговому вікні не дасть хороших результатів.

4) Стиль: Подумайте Хіларі проти Дональда; ерудит проти популярних. Тренування на одній не дасть хороших результатів з іншого. Аналогічно навчати систему МТ щодо романів для дорослих і використовувати її в дитячих книгах.

5) Мовна пара: в англійській мові багато текстів, і шанси знайти тексти в іншій мові, паралельній даному англійському тексту, набагато вищі, ніж шанси знайти паралельні тексти, скажімо, російською та ігбо. (Це було сказано, можуть бути винятки, як, наприклад, мови Індії.) Як грубе узагальнення, чим більше таких паралельних текстів вам доведеться тренувати систему МТ, тим кращі результати.

Підсумовуючи, мова складна (саме тому я її люблю - я мовознавець). Тож не дивно, що системи МТ не завжди працюють добре.

До речі, і люди-перекладачі не завжди так добре. Десять-два роки тому я отримував переклади документів від людських перекладачів англійською мовою, щоб використовуватись як навчальні матеріали для систем МТ. Деякі з перекладів було важко зрозуміти, а в деяких випадках, коли ми отримували переклади від двох (або більше) людських перекладачів, важко було повірити, що перекладачі читали ті самі документи.

І нарешті, є (майже) ніколи не один правильний переклад; Є кілька способів перекладу уривку, який може бути більш-менш корисним, залежно від того, які особливості (граматична правильність, стиль, послідовність використання, ...) ви хочете. Немає простої міри "точності".


1

Дивно, але всі інші відповіді дуже розпливчасті і намагаються підійти до цього від людського перекладача POV. Перейдемо до інженера ML.

Створюючи інструмент перекладу, одне з перших питань, яке слід розглянути, - це "Як ми вимірюємо, що працює наш інструмент?".

Що по суті те, про що задається ОП.

Зараз це непросте завдання (деякі інші відповіді пояснюють, чому). Стаття у Вікіпедії, де згадуються різні способи оцінювання результатів машинного перекладу - існують як людські, так і автоматичні оцінки (такі як BLEU , NIST , LEPOR ).

З наростанням методів нейронної мережі ці показники значно покращилися.

Переклад - це складна проблема. Є багато речей, які можуть піти правильно (або неправильно), а система комп'ютерного перекладу часто ігнорує деякі тонкощі, які виділяються для людського мовця.

Я думаю, що якщо ми будемо думати про майбутнє, є кілька речей, на які можна покластися:

  • Наші методи стають все кращими, більш відомими та перевіреними. Це допоможе підвищити точність у довгостроковій перспективі.
  • Ми розробляємо нові методи, які можуть враховувати раніше змінені змінні чи просто робити кращу роботу.
  • Багато існуючих в даний час моделей перекладу часто "повторно використовуються" для перекладу інших мов (наприклад, спробуйте перекласти "JEDEN" з польської на китайську (традиційну) за допомогою Google Translator - ви отримаєте "ONE", що є свідченням, що вказує на той факт, що Google перекладає польську на англійську, а потім англійську на китайську). Це, очевидно, не дуже вдалий підхід - ви втратите деяку інформацію в процесі, - але це все одно буде працювати, тому такі компанії, як Google, використовують його для мов, де у них немає достатньої робочої сили чи даних. З часом з’являться більш спеціалізовані моделі, які покращать ситуацію.
  • Також, як було зазначено в попередньому пункті, все більше даних допоможуть лише покращити машинний переклад.

Підводячи підсумок, ця складна проблема, хоча і не вирішена, але, безумовно, є вдалим способом і дозволяє отримати вражаючі результати для добре вивчених мовних пар.


"Дивно всі інші відповіді ...", не всі інші відповіді. Я б сказав "Деякі інші відповіді" або "Більшість інших відповідей".
nbro

0

"Або у Google є причини зберігати свої досягнення (а не показувати користувачам найкраще, що вони можуть показати)"

Якби вони були, то те, що вони стримують, було б дивним . Google публікує чимало потужних робіт з обробки природних мов, у тому числі тих, які отримують найсучасніші результати або роблять значні концептуальні прориви . Вони також випустили дуже корисні набори даних та інструменти . Google - одна з небагатьох компаній, яка не тільки використовує передові сучасні дослідження, але активно бере участь у літературі.

Машинний переклад - це лише важка проблема. Хороший перекладач з людей повинен добре володіти обома мовами, щоб добре виконати роботу. Кожна мова матиме свої ідіоми та нелітеральні чи залежні від контексту значення. Просто робота з двомовним словником дасть жахливі результати (для людини чи комп'ютера), тому нам потрібно навчити наші моделі на існуючих корпусах, які існують на декількох мовах, щоб дізнатися, як насправді використовуються слова (nb, складене вручну Таблиці перекладів можна використовувати як функції ; вони просто не можуть бути цілою історією). Для деяких мовних пар є паралельних корпорацій багато (наприклад, для мов ЄС, ми маємо повний розгляд Європейського парламенту ). Для інших пар дані тренувань набагато рідкісні. І навіть якщо ми маємо дані про навчання, існуватимуть менш вживані слова та фрази, які не з’являються досить часто, щоб їх засвоїти.

Це було ще більшою проблемою, оскільки синоніми важко було врахувати. Якби наші дані про навчання мали пропозиції щодо "Собака зловив м'яч", а не "Щеня зловив м'яч", ми б закінчилися з низькою ймовірністю для другого речення. Дійсно, значне згладжування знадобиться, щоб у багатьох таких випадках ймовірність не дорівнювала нулю .

Поява моделей нейронних мови в останні 15 років або близько того масивно допомогли з цією проблемою, дозволяючи слова , які будуть відображатися в режимі реального цінного семантичного простору , перш ніж вивчення зв'язку між словами. Це дозволяє вивчити моделі, в яких слова, близькі між собою за значенням, також близькі між собою в семантичному просторі, і, таким чином, перемикання слова на його синонім не сильно вплине на ймовірність вмісту речення. word2vecце модель, яка це дуже добре проілюструвала; це показало, що ви можете, наприклад, взяти семантичний вектор для "короля", відняти вектор для "чоловік", додати вектор для "жінка" і виявити, що найближчим словом до отриманого вектора було "королева". Після того, як дослідження моделей нейронної мови почалися серйозно, ми почали спостерігати негайні та масові падіння недоумкування (тобто, наскільки заплутані моделі були природним текстом), і ми спостерігаємо відповідні збільшення балів BLEU (тобто якості перекладу) тепер, коли ці мовні моделі інтегруються в системи машинного перекладу.

Машинний переклад все ще не так добре , як переклади якості людини, і цілком можливо , НЕ буде , що добре , поки ми не тріснути повністю Сапіент ІІ. Але хороші людські перекладачі коштують дорого, тоді як у всіх, хто має доступ до Інтернету, доступні машинні перекладачі. Питання полягає не в тому, чи краще людський переклад, а в тому, наскільки наближається машина до такого рівня якості. Цей розрив скорочується і продовжує скорочуватися.


Мені не подобається такий підхід - але це питання смаку та думки. Якщо не робити перекладу "навчений / диваку / розуміння" лише тому, що "людські перекладачі дорогі", мені стає сумно. Про що тоді йдеться в перекладі?
Ганс-Пітер Стрікер

@ Hans-PeterStricker Переклад - це можливість спілкуватися з людьми, з якими ви не маєте спільної мови. Наразі машинний переклад достатньо хороший, щоб ми могли це зробити дещо добре, хоча переклади, які випливають із цього результату, часто є неграматичними або схожими на немовців. (продовження ...)
Рей

Залежно від того, що ви маєте на увазі під "навченим / диваком / розумінням", ми вже можемо це робити. Ось в чому полягає відображення семантичного вектора; слова вбудовані у векторний простір, який представляє їх основне значення. Документ Суцкевера, який я зв'язав (як "концептуальний"), насправді робить переклад, зіставляючи все речення на семантичний вектор, а потім перетворюючи цей вектор у речення мовою цілі. Тож "розуміння" такого роду, безумовно, відбувається там. (продовження ...)
Рей

Існують також моделі, які вивчають синтаксис, що лежить в основі (тобто структура речення), і проводилася робота по інтеграції цього в нейронні моделі, хоча на даний момент здаються моделі, які вивчають, на які частини речення вони повинні звернути увагу в будь-який момент бути ефективнішим в обробці подібних речей, ніж явні синтаксичні моделі. (продовження ...)
Рей

Якщо ви не вважаєте, що будь-яке подібне «розуміння» вважається Істинним Розумінням, то що було б розглянутим, окрім ШІ, який пройшов тест Тьюрінга, тобто цілковитого сапіента? Зауважте, що я ніколи не говорив, що ми не зможемо зробити повністю сапієнтний ШІ (я не міг сказати, як довго це пройде; це не моя частина поля. Але я маю мало сумнівів, що ми зрештою потрапимо туди). Але моделі , яку я описую тут то , що ми використовуємо в даний час , і вони працюють досить добре на дозволяючи людям спілкуватися. Дослідження AI - це те, щоб отримати послідовно кращі версії "досить хорошого"
Рей
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.