Чому більшість розумних помічників пропонують мало, якщо такі є, налаштування слова прокидання?


14

Більшість брендів розумних помічників , таких як Amazon Echo і Google Home, пропонують дуже мало способів налаштування слова пробудження (словосполучення, яке ви використовуєте для пробудження пристрою, щоб воно слухало вас).

Наприклад, Alexa пропонує лише три варіанти, а Google Home підтримує лише "OK Google" . Багато користувачів, схоже, зацікавлені в ідеї користувацьких слів, але жоден з основних брендів не додав підтримки.

Чи є якісь технічні причини для обмеження налаштування слів, або це просто вибір бренду?

Я читав про мотивацію Google щодо використання "OK Google" , що говорить про те, що ідея про брендинг може бути правдивою, але також здається, що розпізнавання слів пробудження не дуже точне , можливо, вказує на технічну причину. Хтось міг би уточнити, який фактор є основною причиною?


2
Потрібно пам’ятати, що обробка такої функції повинна бути виконана в дуже низькому доступі, завжди ввімкненому домені - у деяких великих SoC (особливо тих, що використовуються в телефонах), для цього завдання часто доступне спеціалізоване обладнання, і я припускаю, що коефіцієнти фільтра / інші параметри ретельно обчислюються та завантажуються в обладнання. Я забуваю, на якому SoC Echo працює, але я думаю, що є подібний фільтр. Назва класу алгоритмів
покидає

Відповіді:


12

Так, є кілька причин.

Ця публікація в блозі пояснює це про Ехо та пробудження слова Alexa. Я трохи підсумую.

Розпізнавання слів пробуджується локально та в режимі реального часу . Це обмежує довжину неспального слова через очевидні обмеження обробки. Крім того, користувачі не хочуть читати вірш, щоб активувати розумного помічника. Таким чином, він повинен бути коротким.

Він повинен працювати з майже 100% точністю при виклику, а також не визнається з такою впевненістю, коли його не вимагають. Це створює проблеми, а також передбачає мінімальну довжину для слів. Вибір Amazon, щоб дозволити Echo, викликає подив, оскільки це лише два склади .

Якщо ми подивимось на звичайних підозрюваних, у нас є Alexa (3 склади), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4) та Hey Siri (3). Усі гіганти галузі майже згодні з трьома, що є хорошим числом складів.

Як не дивно, найпотрібніше слово "комп'ютер" також має три склади, і це легко відповідатиме цій вимозі. Це також не є торговою маркою.

Як говорить нам блог - і причина - ми повністю хочемо уникати помилкових позитивних результатів. Давайте подивимось, наскільки встановлені слова Computer, Siri, Cortana та Alexa. Це книжковий корпус Google з 2008 року.

Комп'ютер Ngram підкреслює алексу та сирі

Рівно Сірі та Алекса фактично протистоять комп’ютеру, і Кортана видає помилку. Не знайдено. Має сенс з корпусу з 2008 року. Щоб дати нам більше уявлення про те, чому комп’ютер - це жахливе слово, інший графік.

ngram комп’ютера порівняно з іншими словами

Цей Ngram показує два найпопулярніші імена для немовлят США 2016 року (для валюти), а також Тома і Дейва, також рівну лінію проти комп'ютера . Королеву, баскетбол та поліцію вдається зареєструвати належним чином. Так чи інакше, це дає нам уявлення про те, чому Комп'ютер, граф Грей, Гарячий поки що не дозволені. Люди використовують слово комп'ютер занадто часто.

Ще одне про помилкові позитиви. Алекса римується практично ні з чим, ніхто не скаже.

19 речей, які римуються за допомогою алекси

Комп'ютерні рими з 74 речами.



2
"Я збираюся сексу пташку ... Ні, ти не Алекса!"
Девід каже, що повернеться до Моніки

1
"OK Google" - це чотири склади ("oh kay goo galeb"), не три, а набагато більше, ніж багато фонем.
Монті Хардер

1
Алекса - це химерне прізвище ... Я особисто знаю 2 людей з таким ім'ям, один з яких - двоюрідний брат. Ехо використовується так, як у моїй мові, і я часто кажу "є відлуння", коли є відлуння по телефону чи щось таке. Амазонія - це ім'я річки / давнього племені, яке хлопець у рольовій грі, як я, говорять відносно часто. Вони справді зіпсували це.
Олів'є Грегоар

2
Я не впевнений, що купую пояснення того, чому слово "комп'ютер" не працює. Саме слово - не єдине, що визнається. Будучи першим словом висловлювання та супроводжуючись паузою, - це також значні відомості, що ідентифікують командне слово.
Кевін Крумвієде

2

Чи є якісь технічні причини для обмеження налаштування слів

Якщо помічник пристрою не використовується, прикладний процесор (я думаю, що ARM у випадку Alexa, а також Google Home) призупиняється і переводиться до стану мінімальної потужності. Розпізнавання слів прокидання залишається дуже енергоефективним DSP, який слухає навколишній шум / голоси і запускає алгоритм, щоб вирішити, чи є відповідність слову неспання. Якщо він виявить збіг з хорошою довірою, DSP прокидає ядро ​​ARM, щоб перейти до решти обробки.

Тепер, оскільки мета полягає в енергоефективності, про який йдеться, DSP запускає алгоритм, а також зберігає шаблон шаблону на вбудованій пам'яті, а не на основній бортовій оперативній пам'яті. Це дозволяє системі навіть приймати оперативну пам’ять DDR до стану найнижчої потужності.

Оскільки у DSP є кілька ключових речей, які потрібно зробити, і дуже мало пам'яті на мікросхемі, слова Assistant для пробудження обмежені кількома найвиборчивішими з них, які можуть зрівнятися за алгоритмом з високим ступенем впевненості.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.