Чи є гідне програмне забезпечення для розпізнавання мовлення для Linux?


49

Коротка версія питання: Я шукаю програмне забезпечення для розпізнавання мови, яке працює на Linux і має гідну точність та зручність використання. Будь-яка ліцензія та ціна - це добре. Це не повинно обмежуватися голосовими командами, оскільки я хочу мати можливість диктувати текст.


Детальніше:

Я незадовільно пробував таке:

Усі вищезазначені рідні рішення Linux мають як низьку точність, так і зручність використання (або деякі з них не дозволяють диктанту вільного тексту, а лише голосові команди). Під низькою точністю я маю на увазі точність, значно меншу від тієї, яку я згадав нижче для інших платформ. Що стосується Wine + Dragon NaturallySpeaking, на моєму досвіді він постійно руйнується, і, на жаль, я не єдиний, хто має такі проблеми.

У Microsoft Windows я використовую Dragon NaturallySpeaking, в Apple Mac OS XI використовую Apple Dictation та DragonDictate, на Android використовую розпізнавання мови Google, а на iOS використовую вбудоване розпізнавання мови Apple.

Baidu Research випустила вчора в код для його бібліотеки розпізнавання мови з використанням Коннекшіоністского Temporal Класифікації реалізована з факелом. Тести від Gigaom підбадьорюють, як показано на скріншоті нижче, але я не знаю жодної гарної обгортки, яка зробила б її корисною без певного кодування (і великого набору даних про навчання):

введіть тут опис зображення

Існує кілька дуже альфа-проектів з відкритим кодом:

Мені також відома ця спроба відстеження стану мистецтва та останніх результатів (бібліографії) щодо розпізнавання мовлення. а також цей орієнтир існуючих API розпізнавання мовлення .


Мені відомо Aenea , яка дозволяє розпізнавати мовлення за допомогою Dragonfly на одному комп’ютері, щоб пересилати події на інший, але вона має певні затримки:

введіть тут опис зображення

Мені також відомі ці два переговори, які вивчають варіант Linux для розпізнавання мови:


2
Деякі подробиці про те, що ви вважаєте "незадовільним", можуть просунути вашу інакше цікаву, але досить загальну тему публікації. Наприклад: що конкретно вам не здавалося незадоволеним у поєднанні "Wine + Dragon NaturallySpeaking"? (як не вдалося повторити ваш досвід роботи з Windows?)
Теофраст

1
@Theophrastus В основному всі рідні рішення Linux мають як низьку точність, так і зручність використання. Під низькою точністю я маю на увазі точність, значно нижчу від тієї, яку я згадав у інших програмах. Що стосується Wine + Dragon NaturallySpeak, то, на моєму досвіді, воно постійно руйнується, і я, здається, не єдиний, хто має такі проблеми, на жаль ( appdb.winehq.org/… )
Франк Дернонкурт

1
Я цього не пробував, але, якщо хтось вважає це корисним: github.com/Uberi/speech_recognition та jasperproject.github.io та github.com/benoitfragit/google2ubuntu
Hatshepsut

Чи є одна з цих програм, яка має інструмент командного рядка? Було б дуже цікаво поєднати розпізнавання мовлення з інструментом натискання клавіш та мишею, таким як xdotool ( github.com/jordansissel/xdotool ) або xsendkey ( github.com/kyoto/sendkeys ).
хрещення

Відповіді:


13

Зараз я експериментую з використанням підключення KDE у поєднанні з розпізнаванням мови Google на своєму смартфоні Android.

Підключення KDE дозволяє використовувати андроїд-пристрій як вхідний пристрій для комп'ютера Linux (також є деякі інші функції). Потрібно встановити додаток KDE connect з магазину Google Play на вашому смартфоні / планшеті та встановити як kdeconnect, так і індикатор-kdeconnect на вашому комп'ютері Linux. Для систем Ubuntu установка відбувається наступним чином:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Недоліком цієї установки є те, що вона встановлює купу пакетів KDE, які вам не потрібні, якщо ви не використовуєте середовище робочого столу KDE.

Після того як ви з'єднаєте свій пристрій Android з комп’ютером (вони повинні бути в одній мережі), ви можете скористатися клавіатурою Android, а потім натиснути / натиснути на мікрофон, щоб використовувати розпізнавання мови Google. Під час розмови текст почне з’являтися там, де на вашому комп’ютері Linux активний курсор.

Щодо результатів, вони трохи змішані для мене, оскільки я зараз пишу технічний документ з астрофізики, і розпізнавання мови Google бореться з жаргоном, який ти зазвичай не читаєш. Також забудьте про це, з'ясовуючи пунктуацію або правильну написання великої літери.

введіть тут опис зображення

введіть тут опис зображення



3

Як ще один Linuxer, який шукав корисну програму «промова в текст» (диктант), я заглянув у govorpad.pw:

  • він дуже добре розпізнає мою рідну мову
  • він працює швидко і дуже надійно

Недоліки:

  • звичайно, це власницьке і закрите програмне забезпечення від Google
  • служба Google слухатиме, обробляє та нібито зберігатиме кожне слово, яке ви говорите
  • аудіо та текст буде оброблено та, очевидно, збережене Google
  • govorpad.pw вимагає щомісячну / щоквартальну / щорічну плату за підписку
  • govorpad.pw працює лише як доповнення до браузера Google Chrome - жодного іншого браузера

Таким чином, govorpad.pw є дуже захищеним джерелом, а також є закритим джерелом, а також пов'язаний з Google, який ми всі знаємо як безсонні колектор метаданих, особистої інформації та особистого вмісту.

Ці недоліки роблять це непридатним додатком для мене, хоча розпізнавання мови працює дуже добре - набагато краще, ніж усе, що я бачив досі.


Дякую, так, значні недоліки, тим більше, що він працює лише в браузері Chrome.
Франк Дернонкурт

1
Ви можете використовувати Документи Google на Chrome і використовувати їх "Інструменти" »" Голосова введення ... ". Можливо, саме те саме програмне забезпечення для розпізнавання мовлення, але це безкоштовно. Потім скопіюйте вставте результати з свого документа в те місце, де вам потрібен текст.
Алексіс Вільке

2

Додаток Chrome "VoiceNote II" ( http://voicenote.in/ ) чудово працює на моїй машині Xubuntu 16.04. Не потрібно голосової підготовки, а налаштування була простою. Один пошук, щоб знайти його, один клік для встановлення, один клацання для створення ярлика і на робочий стіл прив’язати його.


Дякую, хоча працює лише в Google Chrome
Franck Dernoncourt

0

Я б запропонував використовувати дракона на телефоні чи планшеті, а потім надіслати текст самому собі. Його перетяг, але він працює і дуже точний. Якщо ви наполягаєте на використанні Linux для цього, отримання другого дисплея значно полегшить копіювання та минуле життя.

Я цього не пробував, але ви, можливо, зможете використовувати або адаптувати програму чату Python Bluetooth Chat з драконом на планшеті / телефоні. Також можуть існувати програми для віддаленої клавіатури для мобільних пристроїв, які можуть підтримувати введення диктантів.

Я буду експериментувати і намагатись повернутися до вас з чимось більш чітким.


0

Я використовую додаток KD Connect. це працює досить ефективно! Я вмію тримати погляд на моніторі під час розмови з телефоном на столі. Єдиним недоліком є ​​те, що це робиться за допомогою клавіатури Google. це не є безкоштовним, рідним або відкритим кодом. Цей коментар не розміщено, не вносячи жодних виправлень та виправлень


-2

Ви можете використовувати мовлення до тексту в додатку Linux Цей додаток використовує Google Speech Api та модуль бінарної інтеграції для 32 або 64 бітного Linux. Ви можете побачити коротку презентацію використання інструментів govorpad.pw в Ubuntu


1
ОП шукає механізм мовлення до тексту. Це просто обгортка веб-інтерфейсу (і погана у цьому) навколо двигуна STT.
Серін
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.