Як отримати мовний вихід із введеного тексту за допомогою командного рядка?
Також можна змінити швидкість мови, висоту, гучність тощо за допомогою простої команди .
Як отримати мовний вихід із введеного тексту за допомогою командного рядка?
Також можна змінити швидкість мови, висоту, гучність тощо за допомогою простої команди .
Відповіді:
У порядку зменшення популярності :
скажіть, перетворює текст у звукове мовлення за допомогою мовного двигуна GNUstep.
sudo apt-get install gnustep-gui-runtime
say "hello"
фестиваль Загальна багатомовна система синтезу мовлення.
sudo apt-get install festival
echo "hello" | festival --tts
spd-say надсилає запит виведення тексту з мовою в реч-диспетчер
sudo apt-get install speech-dispatcher
spd-say "hello"
espeak - це багатомовний програмний синтезатор мови.
sudo apt-get install espeak
espeak "hello"
spd-say
по- видимому, попередньо встановленої в 14.04 і пізніше: releases.ubuntu.com/trusty / ...
sudo pip install gTTS
, (Google Text to Speech / github.com/pndurette/gTTS ), gtts-cli "hello" -o hello.mp3
ви також можете передавати його mpg123 -
. gtts-cli "why, hello there" | mpg123 -
.
spd-say
схоже, не можна одночасно грати в tts, лише один раз
espeak
/ spd-say
найкраще для мемів (інші навіть не можуть правильно вимовити слово "мем"). Найкраще, що я можу сказати, spd-say
використовує espeak
як його бекенд (голоси звучать однаково).
espeak
це приємний маленький інструмент.
Мені просто подобається грати з ним у командному рядку. Ви можете виявити це в конфлікті з Pulseaudio, тому я використовую довгомоторну версію, яка заперечує необхідність її правильного налаштування.
sudo apt-get install espeak
espeak --stdout "this is a test" | paplay
espeak --help
покаже вам параметри калібрування швидкості читання, висоти, голосу тощо.
Коли ви робите нотатки, збережіть їх як текстовий файл, а потім:
echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"
Потім можна пограти з ffmeg et al, щоб стиснути це з PCM на щось більш кероване, як MP3 або OGG. Але це вже інша історія.
Від man spd-say
:
ІМ’Я spd-say - надіслати запит на вихід тексту в мовлення диспетчеру мови СИНОПИС spd-say [параметри] "деякий текст" ОПИС spd-say надсилає запит виводу тексту в мовлення процесу мовлення-диспетчера, який обробляє його, і в ідеалі виводить результат до аудіосистеми. ВАРІАНТИ -r, --rate Встановіть частоту мови (від -100 до +100, за замовчуванням: 0) -p, - pitch Встановіть висоту мовлення (між -100 та +100, за замовчуванням: 0) -i, - об’єм Встановіть гучність (інтенсивність) мови (від -100 до +100, за замовчуванням: 0)
Отже, ви можете отримати текст в мовлення, виконавши наступну команду:
spd-say "<type text>"
Наприклад:
spd-say "Welcome to Ubuntu Linux"
Ви також можете встановити частоту мовлення, висоту, гучність тощо .
spd-say -t female2 "text"
робить його
Mbrola не працює з 11.10.
Інструменти SVOX (pico) прості в установці, прості у використанні і приносять хороші якості голосу в Ubuntu. Встановіть його:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
Ще простіше, ви можете використовувати LibreOffice у поєднанні з інструментами SVOX (pico), встановивши розширення "Прочитати текст", і ви отримаєте "GUI" для цього чудового програмного забезпечення TTS:
Налаштування параметрів читання розширення тексту за допомогою Інструменти - Додатки - Читання вибору .... Використовуйте / usr / bin / python як зовнішню програму. Виберіть параметр командного рядка, що включає маркер (PICO_READ_TEXT_PY).
Python Google Speach:
pip install google_speech
google_speech "Test the hello world"
Svox з Android:
apt-get install svox-pico
pico2wave --wave=test.wav "Test the hello world"
play test.wav
Svox Nanotts:
git clone https://github.com/gmn/nanotts.git
cd nanotts
make
./nanotts -v en-US "Test the hello world"
Посилання - Wiki:
google_speech
на Ubuntu 18.04 я повинен був встановити python3-pip
і libsox-fmt-mp3
і використовувати pip3 install google_speech
.
Далі не є рішенням FLOSS, але ви можете вважати це вартим. (це винний розчин),
Я особисто дуже захоплююсь TTS, використовую його досить часто ... наприклад. прослуховуючи бурхливий дискурс, який я ніколи б не потрудився дотримуватися іншого (тому що мені потрібно випити ще одну чашку кави ... :)
Декілька речей, які я виявив по дорозі .. або, якщо сказати, речі, яких я не виявив по дорозі ... Якщо говорити прямо: Кожен фрагмент голосового програмного забезпечення FOSS TTS, який я спробував, знаходиться в номіналі і тому непридатний для будь-якого напівзахисного прослуховування ...
В даний час я використовую NaturalVoices ATnT. Він доступний лише для Windows (можливо, для Mac), але він працює wine
в Ubuntu .. (у ньому є незначний глюк, де мені іноді потрібно натиснути на панель, коли я віддаляюся від читача ... Це другорядне питання порівняно з перевагою, отриманою якістю мовлення від NatualVoices.
Деякі інші речі, які я вважаю фактично важливими для наполовину розумного прослуховування, є; ...
Ці прогами ТТС не розумні (ну, можливо, такі ж розумні, як юний бабуїн). Тому їм потрібна допомога, яку вони можуть отримати. і є одна (і лише одна програма для читання, яку я знайшов, яка дуже допомагає в цьому .. Додаток називається ReadPlease (2003 Pro)
... Це дозволило вам спеціально змінювати слова та групи слів, які вимовлятись так, як ви їх хочете ... Це аж ніяк не ідеально, але для мене це зробило різницю між тим, що весь процес є придатним для використання, а не корисним ...
Промова в "Природні голоси" - це "добре", але це трохи нудно. Є й інші хороші продукти, але вони, на жаль, все для Windows).
Це інколи заражає несподівано, але іноді .. але OMG, спочатку це біль! .. тому №2 - це * терпіння ... і багато оновлення списку ваших "спеціальних слів" ... Терпінням, я маю на увазі, що ви (я) насправді звикли до мовленнєвих мовних особливостей бабуїна:) ... і від До речі, у мене наразі близько 3000 слів, які зараз звучать "по-людськи" достатньо, щоб я більше не тиснув, коли чую їх.
3 .. "Слідуйте за підстрибуючим м'ячем" ... Знову, оскільки голос ніколи не такий гарний, як справжній оратор, речі іноді потребують уточнення. Програма Reader, яку я використовую, має одну функцію, для якої я навіть мирився з її незграбним інтерфейсом .... Чи є варіант слова "вибрати поточний, що читається". центр екрана. Це безцінне значення для того, щоб швидко перечитати те, що ви недавно пропустили (тому автоматичне центрирування лінійки вилікування добре) ...
Ну, це мій досвід .. Я зараз зроблю каву, і поки я це роблю, я буду слухати це, щоб побачити, як він «читається» .... TTS дивно, добре підбирати друкарські помилки (я роблю багато помилок) ...
Якщо щось схоже на ATnT NaturalVoices з'явиться у сховищі Ubuntu, я перескочу на це.
Ось посилання на деякі зразки природних голосів : я використовую "MIke"
SVOX pico2wave
це те, що я використовую. І це звучить природно, його легко зрозуміти, він розпізнає Одиниці (м, ° С, кг, ...)
Ось мій перший пост до pico2wave
Текст природного звучання до виступу?
Все, що у вас є, це:
Перейдіть до програмного центру Ubuntu та знайдіть "pico". Ви знайдете 4 або 5 записів із "Маленьким лінгом сліду ...". Встановіть їх.
Можливе використання pico2wave описано в моїй першій публікації (перейдіть за посиланням вище).
До побачення
Бо festival
(голос здається мені більш природним):
sudo apt-get install festival
echo "hello" | festival --tts
Конфігурація кроку та швидкості:
створити ~/.festivalrc
:
(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100")
(Parameter.set 'Audio_Method 'Audio_Command)
Дивіться також http://www.solomonson.com/content/ubuntu-linux-text-speech
Оновлення: спробували на іншому комп'ютері ubuntu. Довелося встановити пакет англійської мови, щоб правильно працювати з фестивалем:
sudo apt-get install festvox-kallpc16k
Також play
є команда cli, яка постачається з sox
пакетом:
sudo apt-get install sox
Незважаючи на те, що ви вже прийняли відповідь, я хотів зазначити festival
, що мені теж дуже подобається. Цей пост на форумах Ubuntu містить багато інформації про отримання дуже приємних голосів, створених для нього.
Знайомтесь espeak-ng
- багатомовний програмний синтезатор мови:
espeak-ng "text to read"
espeak-ng -f "~/file to read"
Він використовує англійський голос за замовчуванням, але є численні інші голоси для інших мов і навіть діалекти, які можуть бути перелічені espeak-ng --voices
(для всіх) або наприклад espeak-ng --voices=en
(для англійської). Їх можна встановити -v
разом із абревіатурою мови або назвою файлу, наприклад, для шотландської або суахілі:
espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili
Існує багато інших варіантів, наприклад, -s
про швидкість та -w
записування виводу у хвильовий файл, див. Сторінку, що пов’язана нижче.
espeak-ng
("Ng" для "наступного покоління") - це активно розроблена вилка оригінального espeak
програмного забезпечення синтезатора мови , див. Розділ Історія у Вікіпедії . Обидва доступні з офіційних джерел через пакет espeak
або espeak-ng
відповідно.
Балаболка під Wine працює чудово (для мене) з голосами SAPI4 (голоси SAPI5 не виявляються в моїй системі Linux). Він може відкрити файли і почати читати.
Ось посилання на запис AppDB для вина для Балаболки: https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859
Інструмент gTTS чудово підходить для генерації аудіофайлів з тексту. Він використовує текстовий мовний API Google Translate і створює mp3-файли.
Зважаючи на те, що він використовується pip
для встановлення, я настійно рекомендую встановити Miniconda, а потім використовувати conda
для створення середовища, де можна встановити gTTS. Ви можете завантажити Miniconda звідси:
https://docs.conda.io/en/latest/miniconda.html
Репозиторій GitHub для gTTS:
https://github.com/pndurette/gTTS
А ви можете знайти документацію gTTS тут: