Демократизация голосового интерфейса

Книги по истории вполне могут рассматривать голосовое управление как наиболее важный шаг вперед, достигнутый в человеко-машинном интерфейсе. Больше не нужно набирать текст и указывать пальцем, мы просто говорим то, что хотим. Первоначальный прогресс в этой области продолжался до появления умных динамиков, когда мы начали понимать, что может быть возможно. Теперь гонка продолжается с улучшениями в распознавании, функциях и приложениях в телефонах, гарнитурах, наушниках и умном доме. Наиболее широко известные сегодня решения зависят от платформ и сервисов, контролируемых небольшим количеством провайдеров, но ситуация меняется. Голосовая активация может быть встроена где угодно, с индивидуальной настройкой, улучшенной помехозащищенностью, меньшей мощностью, большей дальностью действия и при этом быть такой же эффективной, как и большие платформы в распознавании речи.

(Источник:CEVA / Shutterstock)

Рынок потребительского аудио, где эта возможность играет важную роль, имеет интересную историю. FutureSource показывает, что с 2008 по 2012 год объем продаж в долларовом выражении снизился, поскольку передача звука в основном использовалась в смартфонах. С 2012 по 2014 год рынок практически не изменился. Затем с 2015 по 2018 год он снова вырос в среднем на 15%, в основном за счет голосовой активации. Забегая вперед, Yole Développement ожидает, что к 2023 году среднегодовой темп роста составит не менее 30%, в основном за счет распознавания речи . . Основная часть этого роста по-прежнему будет приходиться на смартфоны, за которыми следуют гарнитуры и наушники, персональные помощники и функции умного дома (телевизоры, бытовая техника и т. Д.). В том же отчете делается вывод о том, что сейчас мы входим во вторую фазу интеллектуального звука, когда голосовое управление станет гораздо более распространенным, поскольку потребители станут более комфортно использовать этот метод управления.

Где бы они ни были развернуты, цель состоит в том, чтобы повысить дифференциацию. В смартфоне или любом другом устройстве с батарейным питанием очевидным преимуществом является поддержка постоянного прослушивания; нет необходимости нажимать кнопку перед тем, как дать команду. Для этого требуется обнаружение триггерного слова со сверхнизким энергопотреблением, что, как мы знаем, означает аппаратное обеспечение с тщательно подобранным программным обеспечением, чтобы минимизировать энергопотребление в режиме ожидания. Естественно, вы хотите персонализировать триггерные слова или фразы для своего бренда на нескольких языках, чтобы добиться сильного проникновения в свой регион и, возможно, также на международный рынок. Вы все равно можете передать последующие команды одному из основных поставщиков распознавания голоса для распаковки запроса. Или, может быть, нет. Если вашему устройству нужна поддержка только для ограниченного словарного запаса, вам может не потребоваться помощь третьих лиц, если ваш механизм распознавания речи может быть расширен до этой цели.

Еще одна критическая потребность - это распознавание и, возможно, аутентификация в шумной среде. Распознавание голоса представляет собой другие проблемы, чем распознавание объектов. Например, в гостиной или автомобиле может быть несколько источников звука:говорящие люди, телевизор и независимые музыкальные / радиоисточники, внутренний и внешний шум и их эхо от поверхностей в комнате или салоне автомобиля. Изоляция источника команды, подавление эха и уменьшение фонового шума требует использования некоторых сложных технологий, зависящих от нескольких микрофонов, формирования луча и подавления эха, а также подавления шума.

Таковы потребности, и, естественно, доступные решения, такие как CEVA, готовы удовлетворить эти потребности. Такие решения, как недавно представленный продукт для распознавания фраз CEVA WhisPro ™, используют программное обеспечение на основе нейронных сетей, работающее на платформах CEVA DSP. WhisPro уже поддерживает «Alexa» и «OK Google» в качестве голосовых триггеров, и его можно настроить во время обучения для поддержки любых триггеров по запросу клиентов. Он поддерживает несколько языков и может обрабатывать несколько голосовых триггеров. Обучение выполняется с несколькими фоновыми шумами, поэтому распознавание имеет встроенную помехозащищенность, обеспечивающую распознавание> 95% и ложное принятие менее 1 в час, без необходимости облачной проверки.

Добавив специализированное решение для приема голоса, CEVA ClearVox ™, разработчики могут добиться поддержки нескольких микрофонов и формирования луча для улучшения приема голоса в дальней зоне, а также подавления эха и дальнейшего снижения шума. Использование WhisPro вместе с ClearVox обеспечивает конкурентное распознавание триггеров на лучшем расстоянии (до 7 метров), особенно в шумной среде.

Ювал Нахум является старшим менеджером по маркетингу продукции CEVA для линейки аудио- и голосовых продуктов. Юваль обладает более чем 20-летним многопрофильным опытом работы в области маркетинга, системной архитектуры, ASIC и программного обеспечения в ведущих технологических компаниях. Он страстно желает предвидеть долгосрочные тенденции и вести технические программы к их успешному завершению. Высокий уровень мастерства в объединении требований рынка, определений продуктов, отраслевых стандартов и дизайнерских инноваций в революционные продукты. Юваль имеет степень бакалавра наук. и M.Sc. Кандидат электротехники в Технионе - Израильском технологическом институте.

Эффективная технология веб-сервера для микроконтроллеров с ограниченными ресурсами Поддержание роста Интернета вещей

Интернет вещей