Це буде не стільки відповідь, скільки коментар.
Якість залежить від кількох речей, включаючи (як Аарон сказав вище) 1) мовну пару та 2) тему, а також 3) роди та 4) стиль оригіналу та 5) кількість паралельного тексту, який ви маєте для підготовки системи МТ.
Для встановлення сцени практично всі MT сьогодні базуються на паралельних текстах, тобто на двох різних мовах, причому одна, мабуть, є перекладом іншої (або обидві є перекладом якоїсь третьої мови); і потенційно, використовуючи словники (можливо, допомагають морфологічні процеси) як зворотній зв'язок, коли паралельні тексти не містять конкретних слів.
Більше того, як говорили інші, система МТ жодним чином не розуміє текстів, які він перекладає; він просто бачить рядки символів і послідовності слів, що складаються з символів, і шукає подібні рядки та послідовності в текстах, які перекладені раніше. (Гаразд, це трохи складніше, ніж це. Були спроби потрапити на семантику в обчислювальних системах, але поки це в основному рядки.)
1) Мови різняться. У деяких мовах багато морфології, це означає, що вони роблять речі одним словом, що інші мови мають декілька слів. Простим прикладом може бути іспанська 'cantaremos' = англійська «ми будемо співати». І одна мова може робити речі, які інша мова навіть не турбує, як-от неофіційне / формальне (ту / usted) відмінність на іспанській мові, якому англійська мова не має еквіваленту. Або одна мова може робити речі з морфологією, що інша мова робить із порядком слів. Або сценарій, який використовує мова, може навіть не позначати межі слів (китайська та кілька інших). Чим більше різняться ці дві мови, тим важче буде системі МТ перекладати між ними. Перші експерименти зі статистичними MT були зроблені між французькою та англійською мовами,
2) Тема: Якщо у Біблії у вас є паралельні тексти (що стосується майже будь-якої пари письмових мов), і ви навчаєте свою систему МТ з цих, не сподівайтесь, що це добре зробить технічні тексти. (Ну, Біблія - це порівняно невелика кількість тексту за стандартами підготовки систем МТ, але прикидайтесь :-).) Лексика Біблії сильно відрізняється від інженерних текстів, а також частота різних граматичних текстів споруди. (Граматика по суті однакова, але в англійській мові, наприклад, ви отримуєте набагато більше пасивного голосу та більше складних іменників у наукових та технічних текстах.)
3) Положення: Якщо ваш паралельний текст є всім декларативним (наприклад, інструкції з трактора, скажімо), намагання використовувати отриману систему МТ у діалоговому вікні не дасть хороших результатів.
4) Стиль: Подумайте Хіларі проти Дональда; ерудит проти популярних. Тренування на одній не дасть хороших результатів з іншого. Аналогічно навчати систему МТ щодо романів для дорослих і використовувати її в дитячих книгах.
5) Мовна пара: в англійській мові багато текстів, і шанси знайти тексти в іншій мові, паралельній даному англійському тексту, набагато вищі, ніж шанси знайти паралельні тексти, скажімо, російською та ігбо. (Це було сказано, можуть бути винятки, як, наприклад, мови Індії.) Як грубе узагальнення, чим більше таких паралельних текстів вам доведеться тренувати систему МТ, тим кращі результати.
Підсумовуючи, мова складна (саме тому я її люблю - я мовознавець). Тож не дивно, що системи МТ не завжди працюють добре.
До речі, і люди-перекладачі не завжди так добре. Десять-два роки тому я отримував переклади документів від людських перекладачів англійською мовою, щоб використовуватись як навчальні матеріали для систем МТ. Деякі з перекладів було важко зрозуміти, а в деяких випадках, коли ми отримували переклади від двох (або більше) людських перекладачів, важко було повірити, що перекладачі читали ті самі документи.
І нарешті, є (майже) ніколи не один правильний переклад; Є кілька способів перекладу уривку, який може бути більш-менш корисним, залежно від того, які особливості (граматична правильність, стиль, послідовність використання, ...) ви хочете. Немає простої міри "точності".