Розпізнавання мови програма для перетворення MP3 в текст?

27

Хтось знає про програму, яка може перетворити аудіо в текст? Я запускаю ubuntu 12.04 LTS.

software-recommendation speech-recognition

— Копано
джерело

Я припускаю, що це розмовний текст. На якій мові цей текст?

— Мартін Удінг

Текст мовлення простий англійською мовою.

— Копано

21

Програмне забезпечення, яке ви можете використовувати, - це CMUSphinx . На відміну від запропонованої в іншій відповіді Юлій не підходить, оскільки вимагає моделей. Моделі розпізнавання мовлення великої лексики недоступні для Юлія.

Ви можете використовувати Pocketsphinx для конвертації аудіофайлів. Ці дві команди повинні виконати роботу. Спочатку ви конвертуєте файл у потрібний формат, а потім розпізнаєте його:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Пробіг кишені

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Результат буде збережено в result.txt.

— Микола Шмирев
джерело

Також, як додаток до цієї відповіді, тут прохолодна демонстрація обох speech recognitionта voice commandінструментів: youtube.com/…

— Daithí

Як додати акустичну модель до системи?

— jarno

Ви просто завантажуєте його і розпаковуєте, немає такого поняття, як "додати до системи"

— Микола Шмирев

@NikolayShmyrev Де я повинен розпакувати його, щоб кишенькові його знайшли?

— jarno

4

Ну, я встановив пакунки pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj та pocketsphinx-lm-en-hub4 у всесвітньому сховищі Ubuntu 14.04. Потім pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logпрацювали. Можливо, вони не є оптимальними пакетами, але це були найкращі відповідники, які я міг знайти у сховищах.

— jarno

12

Я знаю, що це старе, але щоб розширити відповідь Миколи і, сподіваємось, заощадити когось у майбутньому, для того, щоб отримати оновлену версію кишенькової роботи, вам потрібно зібрати її з сховища github або sourceforge (не впевнений який оновлюється більш актуально). Зверніть увагу, що -j8 означає, якщо можливо, паралельно виконуйте 8 окремих завдань; якщо у вас більше ядер CPU, ви можете збільшити їх кількість.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Потім з: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ завантажте найновіші версії cmusphinx-en-us-....tar.gzтаen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Тоді можна нарешті приступити до кроків з відповіді Миколи:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Сфінкс працює добре. Я б не покладався на нього, щоб зробити читабельну версію тексту, але це досить добре, що ви можете шукати його, якщо шукаєте певну цитату. Це особливо добре спрацьовує, якщо ви використовуєте алгоритм пошуку типу Xapian ( http://www.lesbonscomptes.com/recoll/ ), який приймає підстановку та не вимагає точних пошукових виразів.

Сподіваюся, це допомагає.

— Джонатан Перрі-Хотс
джерело

4

кожна річ працює як принадність, але в моєму випадку мені довелося виконати наступну команду, щоб виправити

pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory

-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

— Vijay Dohare

Це також рекомендується на cmusphinx.github.io/wiki/tutorialpocketsphinx/…

— andrybak

11

Я шукаю, щоб перетворити мовлення в текст, ви можете спробувати відкрити свій Центр програмного забезпечення Ubuntu та здійснити пошук Julius

Опис

"Julius" - це високоефективне, двопрохідне велике словникове безперервне розпізнавання мовлення (LVCSR), програмне забезпечення для декодера, пов'язане з мовленням.

Або інший варіант, якого немає в Центрі програмного забезпечення - Саймон

... є програмою розпізнавання мови з відкритим кодом та замінює мишу та клавіатуру.

Довідкові посилання

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

— CoalaWeb
джерело

1

Можна використовувати панель транскрипції govorpad.pw

Дивіться відео про використання транскрипції

— alexei
джерело

Це виглядає круто, хоча я не думаю, що це відповідає на питання, яке було отримати транскрипцію існуючого файлу. Коли це було сказано, я просто спробував Сфінкс, і він невдало провалився ... транскрипція помилялася на 99,9%.

— Алексіс Вілке