Промышленное производство
Промышленный Интернет вещей | Промышленные материалы | Техническое обслуживание и ремонт оборудования | Промышленное программирование |
home  MfgRobots >> Промышленное производство >  >> Industrial Internet of Things >> Датчик

Рекомендации по проектированию маломощных, постоянно включенных систем голосового управления

Голосовые помощники и интеграция внедряются в большинство продуктов, устройств и технологий, представленных на рынке. При этом не секрет, что эти полезные голосовые помощники всегда готовы слушать слова активации / пробуждения (например, «окей, Google» или «Алекса»), которые часто требуют большого количества энергии. В мире, где технологии стремительно развиваются, необходимо учитывать их влияние на потребление энергии.

В этой статье представлены рекомендации по проектированию маломощных, постоянно включенных систем голосовых команд, использующих обнаружение голосовой активности (VAD). В нем рассматриваются компромиссы и соображения при выборе компонентов, необходимых для создания простого и энергоэффективного голосового пользовательского интерфейса (VUI).

Функция VAD обнаруживает человеческий голос в окружающей среде, прежде чем прислушаться к пробуждающему слову, а это означает, что, когда никого нет дома, ваш голосовой помощник не будет тратить лишнюю энергию. По оценкам, в мире используется 4,2 миллиарда цифровых голосовых помощников, и ожидается, что к 2024 году это число удвоится. Внедрение этой технологии в программное обеспечение голосового помощника и другие продукты, основанные на голосовой интеграции, резко снизит энергопотребление этих устройств. кто пользуется голосовыми помощниками.

Существует несколько аппаратных архитектур для реализации системы VUI. Как правило, типичная реализация голосового пользовательского интерфейса состоит из микрофонов, либо одного микрофона, либо набора микрофонов, подключенных к аудиопроцессору для захвата и обработки голоса.

Входящий аудиопоток может обрабатываться на граничном звуковом процессоре, интеллектуальном микрофоне со встроенным граничным звуковым процессором или на стандартном процессоре приложений (AP). Аудиопроцессоры Edge оптимизированы для обработки аудиосигналов с низким энергопотреблением и малой задержкой. Помимо специализированной обработки входящего звука, пограничный аудиопроцессор также может использоваться для пост-обработки выходных аудиосигналов. Если система VUI подключена к облаку, пограничный аудиопроцессор также может взаимодействовать с облачным интерфейсом VUI через основную систему на кристалле (SoC) с возможностью беспроводного подключения. В этом документе представлены две различные реализации для систем VUI, а также их соответствующие компромиссы.

VAD со сверхнизким энергопотреблением (обнаружение голосовой активности)

Архитектура, показанная на рисунке 1, поддерживает VUI со сверхнизким энергопотреблением с использованием аналогового тракта сигнала, включая аналоговый микрофон и аналоговый компаратор для обеспечения триггера пробуждения. При обнаружении акустической активности цепь аналогового сигнала генерирует прерывание, чтобы разбудить аудиопроцессор для захвата голоса. Устройство также может включать функцию «нажми и говори», при которой пользователь нажимает кнопку, чтобы разбудить аудиопроцессор.

Аналоговый пробуждающий микрофон всегда должен прислушиваться к окружающей среде, поэтому этот микрофон вместе с компаратором должны потреблять очень мало энергии. Примером эффективного аудиопроцессора с потребляемой мощностью менее 1 мВт в простейшем режиме триггера пробуждения и 1 МБ памяти для расширенной обработки звука является Knowles IA8201. Хотя подход, проиллюстрированный на рисунке 1, обеспечивает простой подход с низким энергопотреблением AAD (обнаружение акустической активности) для постоянно включенного VUI в таких устройствах, как пульты дистанционного управления и носимые устройства, он имеет ограничения. Эта реализация будит аудиопроцессор для любого акустического сигнала и может привести к высокому общему энергопотреблению системы в шумных ситуациях. Кроме того, системы голосового пользовательского интерфейса, подключенные к облаку, требуют аудиоданных за период, непосредственно предшествующий захвату слова пробуждения, для повышения точности обнаружения слова пробуждения. Это обычно называется предварительным просмотром и является обязательным требованием для устройств с поддержкой Alexa и других интеллектуальных динамиков.

На рисунке 2 показана архитектура, которая поддерживает буферизацию перед прокруткой для таких устройств, как интеллектуальные колонки. Эти устройства, как правило, имеют батареи большего размера и / или могут не иметь требования к нескольким месяцам автономной работы от одной зарядки. Система VUI всегда включена, прислушивается к окружающей среде и записывает предварительную прокрутку в кольцевой буфер. Длительность предварительной прокрутки обычно составляет порядка 500 мс аудиоданных и используется для калибровки уровня окружающего шума.

Существует несколько различных подходов к разработке постоянно работающей интерфейсной архитектуры. Выбор аудиопроцессора зависит от количества используемых микрофонов и от того, аналоговые они или цифровые.

В показанной выше архитектуре используется Knowles IA611 для обнаружения голосовой активности, цифровые микрофоны SPH0655LM4H-1 Cornell II для формирования луча и Knowles IA8201 для обработки звука. Knowles IA611 - это интеллектуальный микрофон, предлагающий разработчикам системы преимущества, обсуждаемые в следующем разделе.

Выбор микрофона

Для архитектуры, показанной на рисунке 1, один аналоговый микрофон и компаратор используются в качестве триггерного входа для пробуждения аудиопроцессора при обнаружении акустической активности. Пробуждающий микрофон должен быть маломощным аналоговым микрофоном с отношением сигнал / шум (SNR) предпочтительно выше 62 дБ. Ассортимент микрофонов Knowles SiSonic MEMS предлагает несколько вариантов для пробуждения. Например, аналоговый микрофон SPV1840LR5H-B Kaskade - хороший выбор, потребляющий всего 45 мкА во включенном состоянии. Постоянный аналоговый тракт, включающий микрофон, усилитель и компаратор, потребляет менее 67 мкА. На рынке доступны пьезоэлектрические микрофоны с очень низкой постоянно включенной мощностью (10 мкА), но они обычно имеют низкое соотношение сигнал / шум, что может повлиять на производительность системы.

Для архитектуры с возможностью буферизации перед прокруткой, показанной на рисунке 2, микрофоны со встроенным аудиопроцессором и достаточной памятью для непрерывного захвата голосовых данных в кольцевой буфер продолжительностью 2 секунды, такие как Knowles IA611, являются жизнеспособными вариантами для постоянно включенной голосовой активности. обнаружение. Он также поставляется с экосистемой портированных голосовых триггеров и команд, таких как Amazon Alexa. При обнаружении ключевого слова как буфер предварительной прокрутки, так и озвученная речь отправляются в облачный механизм автоматического распознавания речи (ASR). Постоянно включенный IA611, мощность голосового пробуждения составляет 0,39 мА при батарее 1,8 В и КПД 90 процентов, что делает его хорошим выбором для голосового пользовательского интерфейса в устройствах с батарейным питанием, таких как динамики Bluetooth. Устройство также принимает входной сигнал PDM от цифрового микрофона и может использоваться для поддержки формирования луча на главном процессоре BT-SoC путем передачи звука после выхода системы из спящего режима.

Хотя это постоянно включенное питание приемлемо для приложений перед роликом, его также стоит рассмотреть для архитектуры без предварительного просмотра, как показано на рисунке 1. Как описано ранее, аналоговый микрофон с функцией пробуждения срабатывает при любом входящем звуке и включает аудиопроцессор. Это может быть проблематично в шумной среде, например, когда телевизор включен, где будет много ложных срабатываний, ведущих к значительным потерям мощности. Если вместо маломощного аналогового пробуждающего микрофона используется обнаружение голосовой активности, система включится только при обнаружении ключевого слова. Логично понять, почему использование микрофона для определения голосовой активности может быть более эффективным, чем простой аналоговый микрофон для пробуждения в шумной среде.

На рисунке 3 показаны данные моделирования, в которых сравнивается количество дней автономной работы для типичного пульта дистанционного управления телевизором, использующего VAD на IA611, с конкурирующим пьезоэлектрическим маломощным микрофоном AAD и аудиопроцессором для различной продолжительности времени включения акустической активности. Акустическая активность может присутствовать, когда телевизор или другие бытовые приборы включены, или в других ситуациях, когда слышен лепет и т.д. на микрофоне конкурента по сравнению с обнаружением голосовой активности на IA611 исчезает.

При пяти часах включения акустической активности решение для обнаружения голосовой активности предлагает восемь дополнительных дней автономной работы по сравнению с конкурирующим решением на основе AAD. Если рассматривать это преимущество в контексте, согласно исследованию Nielsen, опубликованному в 2017 году, взрослые в США смотрели телевизор почти восемь часов в день. часов акустической активности в типичном домохозяйстве в США, вероятно, также продолжит расти. Использование интеллектуального пробуждения на основе VAD поможет разработчикам систем разрабатывать более энергоэффективные системы VUI.

Заключение

От умного дома, гостиничного бизнеса, цифровых рабочих мест, голосовых платежей, интеллектуального управления энергопотреблением, голосовой связи на периферии и здравоохранения, вплоть до промышленных приложений Интернета вещей, меняющих производственный цех, голосовая связь добавляет гибкости, эффективности, устойчивости и принятия новых технологий.

Различные аппаратные архитектуры для проектирования голосового пользовательского интерфейса, а также секции микрофона удовлетворяют несколько разные потребности в зависимости от приложений конечного устройства и предпочтений разработчика; Например, для устройств с поддержкой Alexa и интеллектуальных динамиков требуется архитектура с поддержкой буферизации перед прокруткой.

Важно, чтобы инженеры-электронщики и дизайнеры внимательно оценили, как конечное устройство будет использовать голос, возможности, к которым они хотят получить доступ, и, исходя из этого, определить правильную архитектуру и компоненты микрофона соответственно.


Радж Сенгуттуван обладает более чем 15-летним опытом разработки новых технологий для потребительских и промышленных приложений, развития бизнеса на ранних этапах и управления проектами для компаний, включая Analog Devices и Texas Instruments. В своей роли директора по стратегическому маркетингу Knowles он руководит разработкой на уровне системы, управляет венчурными инвестициями и партнерствами, а также маркетинговой стратегией для IoT и потребительских технологий, включая аудиопроцессоры, алгоритмы, микрофоны, датчики и приемники. Радж имеет степень магистра делового администрирования Корнельского университета и докторскую степень в области электротехники Технологического института Джорджии.


Связанное содержание :

Чтобы получить больше информации о Embedded, подпишитесь на еженедельную рассылку Embedded по электронной почте.

Датчик

  1. 6 Важные соображения при проектировании для 3D-печати из металла
  2. Преимущества встроенных технологий для модульного проектирования
  3. Рекомендации по компоновке печатной платы
  4. Дизайн для производства печатных плат
  5. Рекомендации по проектированию освещения для роботизированных хирургических систем машинного зрения
  6. Почему прослеживаемость является важной основой для производственных систем с поддержкой IIoT
  7. Дизайн, вдохновленный пауками, прокладывает путь к более совершенным фотодетекторам
  8. Важные аспекты сборки печатной платы
  9. Вопросы проектирования импеданса гибко-жесткой печатной платы
  10. Соображения по проектированию антенны при разработке IoT