Розпізнавання мовлення - програмне забезпечення MP3 до тексту [закрито]


16

Я шукаю незалежну програму спікера (комерційну чи безкоштовну), яка б дозволила мені переписати MP3-файли, що містять записи мовлення (особливо подкасти), до тексту. Я хотів спробувати Dragon Naturally Speaking, але, схоже, він підтримує лише перепис моїх власних записів мовлення. То які альтернативи?


Коментар Avi: Я не вірю, що це можливо - доповідач незалежний
Іво Фліпс

яка операційна система?
studiohack

Windows або Linux.
pako

Відповіді:


7

Dragon Naturally Speaking імпортує mp3-файли та спробує їх переписати. Він вважає за краще налаштовувати своє розпізнавання голосу на окремого оратора, але виконує справжню роботу без настройки. Напевно, найкраще спрацює, якщо динаміки вашого подкасту звучать як Том Брокау.


2
Я спробував Dragon Naturally Speaking, але це зробило жахливу роботу для подкастів з невідомими динаміками. Це я працював досить добре з власним голосом після тренування програми.
pako

1
Чи може він також імпортувати інші аудіофайли та переписувати їх?
Ларрі Морріс

4

Одним із можливих рішень було б завантажити відео на Youtube і спробувати автоматичні підписи, які ви можете ввімкнути ... це ще не надто точно, але ви можете завантажити файл підписів і відредагувати його самостійно, якщо це допоможе ... як якщо ви можете вирішити питання щодо авторських прав / піратства пісні, ви можете зробити це відео приватним у своєму профілі, якщо це навіть можливо?


1
@studioback: Чи застосовується цей метод Youtube лише до власного відео, а не до тих, які завантажували інші?
StackExchange для всіх

1
@Tim: насправді це для обох.
studiohack

1
@studiohack: як зробити це відео, завантаженим іншими користувачами? Я маю на увазі, не завантажуючи і не завантажуючи як власне відео?
StackExchange для всіх

1
У більшості відео внизу є значок CC, клацніть по ньому, а потім автоматична транскрипція ...
studiohack


2

Я б застеріг від спроб Dragon Naturally Speaking - я написав кілька сценаріїв на своєму iilbroken iphone, щоб скопіювати / перетворити всі файли голосової пошти з мого телефону в папку на моєму комп'ютері, і змусив службу транскрипції Dragon Naturally Speaking проти них.

Результат запуску транскрипції у файли з різними динаміками був абсолютно непридатним. Я спробував декілька альтернатив з відкритим кодом, але розпізнавання голосу, незалежне від ораторів, все ще здається обмеженим дуже невеликими словниками.


1

Я використовую http://www.voicebase.com з подкастом та відео на англійській мові, і це працює дуже добре. Це безкоштовно на 50 аудіо годин.

Ви можете завантажити аудіо транскрипцію на rtf, srt або pdf.

Ви можете завантажувати машинні транскрипції приблизно через 10-15 хвилин після завантаження, а іноді й на початку.


1

Відкрите джерело: Сфінкс CMU

Загальне програмне забезпечення: http://www.e-speaking.com/ (Windows)

Комерційний: Dragon NaturallySpeaking (Windows)

Ви також можете спробувати цей метод, якщо ви намагалися з osx, що можна зробити за допомогою audacity та soundflower

Ви можете також знайти деякі відповідні посилання для відкритого вихідного коду інших умовно варто спробувати був voxcribecc

Якщо ви програмувач .net, ви можете використовувати цей метод для створення власного набору


0

Podzinger було б чудовим рішенням, але я не впевнений, що пандус (нова назва для компанії, яка раніше була EveryZing, яка виробляла Podzinger) пропонує послугу безкоштовно ...

http://en.wikipedia.org/wiki/Podzinger

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.