Алгоритмы и повышение мощности аппаратного обеспечения голосового управления

Голосовое управление и голосовые интерфейсы начали свое неумолимое проникновение практически во все категории периферийных устройств. Достижения как в алгоритмах распознавания голоса, так и в аппаратном ускорителе искусственного интеллекта означают, что технология доступна даже для приложений с ограниченными энергопотреблением и стоимостью, таких как устройства для умного дома (и даже некоторые глупые).

Драйверы, лежащие в основе голосового управления в устройствах умного дома со стороны пользователя, очевидны.

Алиреза Кенарсари-Анари (Источник:PicoVoice)

«Простота использования и удобство являются основными движущими силами в настоящее время», - сказал EE Times Алиреза Кенарсари-Анхари, генеральный директор PicoVoice. Легко представить, как вы кричите из-за стола в кофеварку в домашнем офисе, когда хотите кофе, или диктуете приказы сушильной машине, держа в руках корзину с мокрым бельем.

Мы предполагаем, что такие интеллектуальные устройства, которые не являются портативными, имеют постоянный доступ к домашнему Wi-Fi-соединению. Так почему бы не выполнить эту обработку голоса в облаке?

Тенденция к развитию искусственного интеллекта в этой ситуации в первую очередь обусловлена конфиденциальностью, которая, по словам Кенарсари-Анхари, вызывает озабоченность у потребителей, но является обязательной для некоторых предприятий. Надежность - еще один фактор:«Имеет ли смысл прекращать работу стиральной машины, если не работает Wi-Fi?» - сказал он.

Задержка также важна в определенных ситуациях; некоторым приложениям действительно нужны гарантии в реальном времени для обработки голосовых рабочих нагрузок, например игр.

Стоимость - еще один важный фактор для периферийной обработки голоса, поскольку обработка этих голосовых данных в облаке стоит денег. Бизнес-модель оплаты каждый раз, когда вы используете облачный API, не работает для таких случаев использования, как бытовая техника и бытовая электроника, которые имеют низкую стоимость и могут использоваться много раз в день.

PicoVoice, чей механизм преобразования речи в текст на основе искусственного интеллекта разработан для работы независимо от облака на микроконтроллерах стоимостью менее 1 доллара, стремится обеспечить голосовое управление в приложениях, где в противном случае это было бы невозможно. Сюда могут входить потребительские носимые и слуховые аппараты, которым требуется энергоэффективность и экономическая эффективность, которые могут быть обеспечены с помощью голосового решения на основе микроконтроллера. По словам Кенарсари-Анхари, решение, оптимизированное по энергопотреблению и стоимости, также может открыть новые возможности в области промышленности, безопасности и медицины.

Недавно компания запустила Shepherd, платформу без кода для создания голосовых приложений на микроконтроллерах, которая работает с программным обеспечением компании для создания моделей PicoVoice Console. Shepherd поддерживает популярные микроконтроллеры Arm Cortex-M от ST и NXP с поддержкой других устройств.

«Я думаю о голосе как об интерфейсе - если вы можете создать свой графический интерфейс или веб-сайт без программирования, возможно, используя WordPress, создание голосовых интерфейсов аналогичным образом является следующим логическим шагом», - сказал Кенарсари-Анхари. «Shepherd дает возможность менеджерам по продуктам и дизайнерам UX создавать прототипы и быстро выполнять итерации, но мы действительно стремимся расширить целевую базу пользователей. Что, если бы каждый мог построить своего собственного помощника? Называйте это как они хотят - не Алекса! - и придать ему индивидуальность, которую они хотят ».

Хотя вполне возможно разработать модели обработки естественного языка и реализовать их без специального программного обеспечения, этот путь не для всех.

«Конечно, можно - это сделали Apple, Amazon, Google и Microsoft», - сказал он. «На самом деле все зависит от того, есть ли у предприятия ресурсы, готово ли строить вокруг себя организацию и может ли оно подождать несколько лет».

Будущие тенденции

Голос становится предпочтительным интерфейсом для следующего поколения пользователей технологий, сказал Курт Буш, генеральный директор Syntiant, в интервью EE Times прошлым летом.

Курт Буш (Источник:Syntiant)

Буш описал, как его младший ребенок, который умел читать, но был еще слишком молод для письма и орфографии, мог отправлять текстовые сообщения своим друзьям с помощью голосового интерфейса на смартфоне.

«Его старшие братья и сестры пишут, но его поколение получило телефоны на несколько лет раньше, чем они», - сказал Буш. «По прошествии времени для его поколения и моложе интерфейс по умолчанию используется для общения с ним».

По мнению Буша, голос станет «сенсорным экраном будущего», а обработка внутри устройства обеспечит быстрые и отзывчивые интерфейсы сначала на устройствах с клавиатурой или мышью, а затем в бытовой технике.

Чипы Syntiant - это специальные ускорители искусственного интеллекта, предназначенные для обработки голосовых рабочих нагрузок искусственного интеллекта в устройствах бытовой электроники с бюджетом от низкого до чрезвычайно низкого. На сегодняшний день стартап отгрузил по всему миру более 10 миллионов своих чипов, большинство из которых было установлено на мобильные телефоны, чтобы обеспечить постоянное обнаружение ключевых слов. Новейший чип Syntiant, NDP120, может распознавать горячие слова, такие как «Окей, Google», чтобы активировать Google Ассистент при мощности менее 280 мкВт.

В будущем Busch также видит голосовое управление, обеспечивающее подключение и доступ к технологиям для всех.

«Мы рассматриваем голос как великого демократизатора технологий», - сказал Буш. «В мире 3 миллиарда человек живут на 2 доллара в день. Я предполагаю, что у этих людей нет доступа к Интернету и, возможно, они не прошли через систему образования. Естественный интерфейс здесь - [речь]. Вот как вы доставляете технологии в треть мира, которые сегодня не взаимодействуют с технологиями. Мы наблюдаем большой интерес в развивающихся странах к приложениям для передачи голоса, чтобы получить те сегменты общества, которые, возможно, не имели доступа раньше, не только с точки зрения затрат, но и с точки зрения комфорта ».

Фрагментация рынка

Опасность рынка, который растет так же быстро, как и голос, заключается в том, что он может быстро стать чрезвычайно фрагментированным, сказал EE Times Викрам Ширастава, старший директор IoT в Knowles, - и не только в отношении оборудования.

Викрам Шривастава (Источник:Ноулз)

«Рынок фрагментируется, скажем, из-за того, какой механизм распознавания речи используется?» Сказал Ширастава. «Рынок фрагментируется в зависимости от того, интегрируетесь ли вы с TV SoC или это простой микроконтроллер внутри, скажем, микроволновой печи. Вы получаете фрагментацию на основе операционных систем или акустической среды - это просто дом? Это дверной звонок на улице? Не может быть универсального решения. Вы должны найти общие знаменатели в каждой из этих вертикалей и соответствующим образом попытаться решить проблему интеграции голоса ».

У Knowles есть решение для голосового управления на основе DSP, которое она намеревается представить версии для различных вертикалей. Его подход состоит в том, чтобы сгруппировать фрагменты рынка в те, которые имеют общий знаменатель - например, элементы управления домом, звуковые панели телевизора и пульты дистанционного управления могут попасть в одну группу, - а затем разработать решение, оптимизированное для этой группы приложений. Ширастава называет этот подход «на один уровень ниже« под ключ »», который предлагает масштабируемость под ключ, но с некоторой дополнительной гибкостью.

«У нас должно быть несколько разных релизов, которые обращаются к определенному аспекту этой фрагментации, чтобы позволить нам охватить те отрасли, которые мы хотим развивать», - сказал он.

Недавний выпуск Knowles, стандартное решение AISonic Bluetooth, представляет собой комплект средств разработки для распознавания голоса в устройствах, подключенных по Bluetooth, таких как интеллектуальные колонки, устройства для умного дома, носимые устройства и голосовые помощники в автомобиле. Набор основан на двухъядерном DSP-кристалле Knowles IA8201, который разработан специально для обработки нейронных сетей при гораздо меньшем энергопотреблении, чем процессор приложений. Например, чип может обрабатывать отдельные модели AI для определения ключевых слов, классификации источников, формирования луча, подавления акустического эха (AEC) и оценки направления источника одновременно с мощностью менее 50 мВт. Это обеспечивается расширением набора инструкций почти на 400 пользовательских инструкций для обработки звука и AI на ядрах Tensilica DSP, что, в свою очередь, позволяет снизить тактовую частоту для экономии энергии.

Автомобильный держатель смартфона Sugr iOttie Aivo Connect использует устройство Knowles IA8201 для голосовой связи в автомобиле. Он имеет встроенную функцию голосового помощника Alexa. (Источник:Ноулз)

Станет ли голосовая связь в конечном итоге пользовательским интерфейсом по умолчанию для большинства классов бытовой электроники? Так и выглядит. Сочетание передовых эффективных алгоритмов голосового управления ИИ, среды разработки, позволяющей разработчикам легко интегрировать голосовую связь, и растущей экосистемы энергоэффективных и экономичных аппаратных решений, сделали все это возможным.

>> Эта статья изначально была опубликована на нашем дочернем сайте EE Times.

Эталонный дизайн смарт-значка Особенности Bluetooth SoC Сведение к минимуму энергопотребления устройства в режиме ожидания

Интернет вещей