Чи є гідне програмне забезпечення для розпізнавання мовлення для Linux?

49

Коротка версія питання: Я шукаю програмне забезпечення для розпізнавання мови, яке працює на Linux і має гідну точність та зручність використання. Будь-яка ліцензія та ціна - це добре. Це не повинно обмежуватися голосовими командами, оскільки я хочу мати можливість диктувати текст.

Детальніше:

Я незадовільно пробував таке:

Сфінкс КМУ
CVoiceControl
Вуха
Юлій
Kaldi (наприклад, сервер Kaldi GStreamer )
IBM ViaVoice (використовувався для роботи на Linux, але був припинений років тому)
Інструментарій NICO ANN
OpenMindSpeech
RWTH ASR
кричати
silvius (побудований на інструментарії розпізнавання мовлення Калді)
Саймон слухає
ViaVoice / Xvoice
Wine + Dragon NaturallySpeak + NatLink + dragonfly + damselfly
https://github.com/DragonComputer/Dragonfire : приймає лише голосові команди

Усі вищезазначені рідні рішення Linux мають як низьку точність, так і зручність використання (або деякі з них не дозволяють диктанту вільного тексту, а лише голосові команди). Під низькою точністю я маю на увазі точність, значно меншу від тієї, яку я згадав нижче для інших платформ. Що стосується Wine + Dragon NaturallySpeaking, на моєму досвіді він постійно руйнується, і, на жаль, я не єдиний, хто має такі проблеми.

У Microsoft Windows я використовую Dragon NaturallySpeaking, в Apple Mac OS XI використовую Apple Dictation та DragonDictate, на Android використовую розпізнавання мови Google, а на iOS використовую вбудоване розпізнавання мови Apple.

Baidu Research випустила вчора в код для його бібліотеки розпізнавання мови з використанням Коннекшіоністского Temporal Класифікації реалізована з факелом. Тести від Gigaom підбадьорюють, як показано на скріншоті нижче, але я не знаю жодної гарної обгортки, яка зробила б її корисною без певного кодування (і великого набору даних про навчання):

Існує кілька дуже альфа-проектів з відкритим кодом:

https://github.com/mozilla/DeepSpeech (частина проекту Vaani Mozilla: http://vaani.io ( дзеркало ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, система управління системою Linux за допомогою Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (випускається Google, згадується на Interspeech 2018)

Мені також відома ця спроба відстеження стану мистецтва та останніх результатів (бібліографії) щодо розпізнавання мовлення. а також цей орієнтир існуючих API розпізнавання мовлення .

Мені відомо Aenea , яка дозволяє розпізнавати мовлення за допомогою Dragonfly на одному комп’ютері, щоб пересилати події на інший, але вона має певні затримки:

Мені також відомі ці два переговори, які вивчають варіант Linux для розпізнавання мови:

2016 - Одинадцята надія: Кодування голосом за допомогою розпізнавання мовлення з відкритим кодом (Девід Вільямс-Кінг)
2014 - Pycon: використання голосу Python для коду (Tavis Rudd)

software-rec speech-recognition

— Франк Дернонкур
джерело

2

Деякі подробиці про те, що ви вважаєте "незадовільним", можуть просунути вашу інакше цікаву, але досить загальну тему публікації. Наприклад: що конкретно вам не здавалося незадоволеним у поєднанні "Wine + Dragon NaturallySpeaking"? (як не вдалося повторити ваш досвід роботи з Windows?)

— Теофраст

1

@Theophrastus В основному всі рідні рішення Linux мають як низьку точність, так і зручність використання. Під низькою точністю я маю на увазі точність, значно нижчу від тієї, яку я згадав у інших програмах. Що стосується Wine + Dragon NaturallySpeak, то, на моєму досвіді, воно постійно руйнується, і я, здається, не єдиний, хто має такі проблеми, на жаль ( appdb.winehq.org/… )

— Франк Дернонкурт

1

Я цього не пробував, але, якщо хтось вважає це корисним: github.com/Uberi/speech_recognition та jasperproject.github.io та github.com/benoitfragit/google2ubuntu

— Hatshepsut

Чи є одна з цих програм, яка має інструмент командного рядка? Було б дуже цікаво поєднати розпізнавання мовлення з інструментом натискання клавіш та мишею, таким як xdotool ( github.com/jordansissel/xdotool ) або xsendkey ( github.com/kyoto/sendkeys ).

— хрещення

13

Зараз я експериментую з використанням підключення KDE у поєднанні з розпізнаванням мови Google на своєму смартфоні Android.

Підключення KDE дозволяє використовувати андроїд-пристрій як вхідний пристрій для комп'ютера Linux (також є деякі інші функції). Потрібно встановити додаток KDE connect з магазину Google Play на вашому смартфоні / планшеті та встановити як kdeconnect, так і індикатор-kdeconnect на вашому комп'ютері Linux. Для систем Ubuntu установка відбувається наступним чином:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Недоліком цієї установки є те, що вона встановлює купу пакетів KDE, які вам не потрібні, якщо ви не використовуєте середовище робочого столу KDE.

Після того як ви з'єднаєте свій пристрій Android з комп’ютером (вони повинні бути в одній мережі), ви можете скористатися клавіатурою Android, а потім натиснути / натиснути на мікрофон, щоб використовувати розпізнавання мови Google. Під час розмови текст почне з’являтися там, де на вашому комп’ютері Linux активний курсор.

Щодо результатів, вони трохи змішані для мене, оскільки я зараз пишу технічний документ з астрофізики, і розпізнавання мови Google бореться з жаргоном, який ти зазвичай не читаєш. Також забудьте про це, з'ясовуючи пунктуацію або правильну написання великої літери.

— амортизатор
джерело

4

Наразі в Linux працює лише ноутбук Voice .

— Олексій
джерело

2

Дякуємо, він працює лише в браузері Chrome.

— Франк Дернонкурт

3

Як ще один Linuxer, який шукав корисну програму «промова в текст» (диктант), я заглянув у govorpad.pw:

він дуже добре розпізнає мою рідну мову
він працює швидко і дуже надійно

Недоліки:

звичайно, це власницьке і закрите програмне забезпечення від Google
служба Google слухатиме, обробляє та нібито зберігатиме кожне слово, яке ви говорите
аудіо та текст буде оброблено та, очевидно, збережене Google
govorpad.pw вимагає щомісячну / щоквартальну / щорічну плату за підписку
govorpad.pw працює лише як доповнення до браузера Google Chrome - жодного іншого браузера

Таким чином, govorpad.pw є дуже захищеним джерелом, а також є закритим джерелом, а також пов'язаний з Google, який ми всі знаємо як безсонні колектор метаданих, особистої інформації та особистого вмісту.

Ці недоліки роблять це непридатним додатком для мене, хоча розпізнавання мови працює дуже добре - набагато краще, ніж усе, що я бачив досі.

— теж
джерело

Дякую, так, значні недоліки, тим більше, що він працює лише в браузері Chrome.

— Франк Дернонкурт

1

Ви можете використовувати Документи Google на Chrome і використовувати їх "Інструменти" »" Голосова введення ... ". Можливо, саме те саме програмне забезпечення для розпізнавання мовлення, але це безкоштовно. Потім скопіюйте вставте результати з свого документа в те місце, де вам потрібен текст.

— Алексіс Вільке

2

Додаток Chrome "VoiceNote II" ( http://voicenote.in/ ) чудово працює на моїй машині Xubuntu 16.04. Не потрібно голосової підготовки, а налаштування була простою. Один пошук, щоб знайти його, один клік для встановлення, один клацання для створення ярлика і на робочий стіл прив’язати його.

— Indy Tech Fix
джерело

Дякую, хоча працює лише в Google Chrome

— Franck Dernoncourt

0

Я б запропонував використовувати дракона на телефоні чи планшеті, а потім надіслати текст самому собі. Його перетяг, але він працює і дуже точний. Якщо ви наполягаєте на використанні Linux для цього, отримання другого дисплея значно полегшить копіювання та минуле життя.

Я цього не пробував, але ви, можливо, зможете використовувати або адаптувати програму чату Python Bluetooth Chat з драконом на планшеті / телефоні. Також можуть існувати програми для віддаленої клавіатури для мобільних пристроїв, які можуть підтримувати введення диктантів.

Я буду експериментувати і намагатись повернутися до вас з чимось більш чітким.

— user273470
джерело

0

Я використовую додаток KD Connect. це працює досить ефективно! Я вмію тримати погляд на моніторі під час розмови з телефоном на столі. Єдиним недоліком є те, що це робиться за допомогою клавіатури Google. це не є безкоштовним, рідним або відкритим кодом. Цей коментар не розміщено, не вносячи жодних виправлень та виправлень

— Джош Левін
джерело

-2

Ви можете використовувати мовлення до тексту в додатку Linux Цей додаток використовує Google Speech Api та модуль бінарної інтеграції для 32 або 64 бітного Linux. Ви можете побачити коротку презентацію використання інструментів govorpad.pw в Ubuntu

— Павло Попов
джерело

1

ОП шукає механізм мовлення до тексту. Це просто обгортка веб-інтерфейсу (і погана у цьому) навколо двигуна STT.

— Серін