Відповіді:
Програмне забезпечення, яке ви можете використовувати, - це CMUSphinx . На відміну від запропонованої в іншій відповіді Юлій не підходить, оскільки вимагає моделей. Моделі розпізнавання мовлення великої лексики недоступні для Юлія.
Ви можете використовувати Pocketsphinx для конвертації аудіофайлів. Ці дві команди повинні виконати роботу. Спочатку ви конвертуєте файл у потрібний формат, а потім розпізнаєте його:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
Пробіг кишені
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
Результат буде збережено в result.txt.
speech recognition
та voice command
інструментів: youtube.com/…
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
працювали. Можливо, вони не є оптимальними пакетами, але це були найкращі відповідники, які я міг знайти у сховищах.
Я знаю, що це старе, але щоб розширити відповідь Миколи і, сподіваємось, заощадити когось у майбутньому, для того, щоб отримати оновлену версію кишенькової роботи, вам потрібно зібрати її з сховища github або sourceforge (не впевнений який оновлюється більш актуально). Зверніть увагу, що -j8 означає, якщо можливо, паралельно виконуйте 8 окремих завдань; якщо у вас більше ядер CPU, ви можете збільшити їх кількість.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
Потім з: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/
завантажте найновіші версії cmusphinx-en-us-....tar.gz
таen-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
Тоді можна нарешті приступити до кроків з відповіді Миколи:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
Сфінкс працює добре. Я б не покладався на нього, щоб зробити читабельну версію тексту, але це досить добре, що ви можете шукати його, якщо шукаєте певну цитату. Це особливо добре спрацьовує, якщо ви використовуєте алгоритм пошуку типу Xapian ( http://www.lesbonscomptes.com/recoll/ ), який приймає підстановку та не вимагає точних пошукових виразів.
Сподіваюся, це допомагає.
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Я шукаю, щоб перетворити мовлення в текст, ви можете спробувати відкрити свій Центр програмного забезпечення Ubuntu та здійснити пошук Julius
Опис
"Julius" - це високоефективне, двопрохідне велике словникове безперервне розпізнавання мовлення (LVCSR), програмне забезпечення для декодера, пов'язане з мовленням.
Або інший варіант, якого немає в Центрі програмного забезпечення - Саймон
... є програмою розпізнавання мови з відкритим кодом та замінює мишу та клавіатуру.
Довідкові посилання
http://julius.sourceforge.jp/en_index.php
Можна використовувати панель транскрипції govorpad.pw