Специализированные процессоры ускоряют рабочие нагрузки ИИ конечных точек

Хотя ускорение приложений искусственного интеллекта и машинного обучения все еще является относительно новой областью, существует множество процессоров, которые могут ускорить практически любую рабочую нагрузку нейронной сети. От производителей процессоров до некоторых новейших стартапов в отрасли - все они предлагают что-то разное - ориентировано ли это на разные вертикальные рынки, области применения, бюджеты мощности или ценовые категории. Вот краткий обзор того, что сегодня есть на рынке.

Обработчики приложений

Intel Movidius Myriad X
Myriad X, разработанный ирландским стартапом Movidius, который был куплен Intel в 2016 году, представляет собой устройство обработки изображений третьего поколения и первое устройство с выделенным вычислительным механизмом нейронной сети, обеспечивающим 1 тераопераций в секунду (TOPS) выделенных ресурсов. вычисление глубокой нейронной сети (DNN). Механизм нейронных вычислений напрямую взаимодействует с высокопроизводительной интеллектуальной структурой памяти, чтобы избежать каких-либо проблем с памятью при передаче данных. Он поддерживает вычисления FP16 и INT8. Myriad X также включает кластер из 16 запатентованных ядер SHAVE и обновленные и расширенные ускорители зрения.

Myriad X доступен в составе Intel Neural Compute Stick 2, по сути, в качестве оценочной платформы в виде флэш-накопителя USB. Его можно подключить к любой рабочей станции, чтобы очень быстро запускать и запускать приложения AI и компьютерного зрения на выделенном оборудовании Movidius.

NXP Semiconductors i.MX 8M Plus
I.MX 8M Plus - это гетерогенный процессор приложений с выделенным IP-ускорителем нейронной сети от VeriSilicon (Vivante VIP8000). Он предлагает 2,3 TOPS ускорения для логических выводов в конечных устройствах в потребительском и промышленном Интернете вещей (IIoT), чего достаточно для идентификации нескольких объектов, распознавания речи 40 000 слов или даже медицинской визуализации (MobileNet v1 со скоростью 500 изображений в секунду).

Помимо процессора нейронной сети, i.MX 8M Plus также имеет четырехъядерную подсистему Arm Cortex-A53, работающую на частоте 2 ГГц, а также подсистему реального времени Cortex-M7.

Для приложений технического зрения есть два процессора сигналов изображения, которые поддерживают две камеры высокой четкости для стереозрения или одну 12-мегапиксельную (МП) камеру. Для передачи голоса в устройство входит процессор цифровых аудиосигналов HiFi4 с частотой 800 МГц (DSP) для предварительной и последующей обработки голосовых данных.

i.MX 8M Plus от NXP - это первый процессор приложений компании со специальным ускорителем нейронной сети. Он разработан для приложений Интернета вещей. (Изображение:NXP Semiconductors)

XMOS xcore.ai
Xcore.ai предназначен для голосового управления в приложениях искусственного интеллекта (AIoT). Это устройство представляет собой кроссоверный процессор (с производительностью процессора приложений и маломощным микроконтроллером, работающим в режиме реального времени), предназначенное для логических выводов машинного обучения.

Он основан на проприетарной архитектуре Xcore XMOS, построенной на строительных блоках, называемых логическими ядрами, которые могут использоваться для ввода-вывода, DSP, функций управления или ускорения ИИ. На каждом чипе xcore.ai имеется 16 таких ядер, и разработчики могут выбрать, сколько ядер выделить для каждой функции. Сопоставление различных функций с логическими ядрами во встроенном ПО позволяет создавать «виртуальную SoC», полностью написанную в программном обеспечении. XMOS добавила в Xcore возможность векторного конвейера для рабочих нагрузок машинного обучения.

Xcore.ai поддерживает 32-битные, 16-битные, 8-битные и 1-битные (бинаризованные) сети, обеспечивая 3200 MIPS, 51,2 GMACC и 1600 MFLOPS. Он имеет 1 Мбайт встроенной SRAM и интерфейс DDR с низким энергопотреблением для расширения.

xcore.ai от XMOS основан на запатентованной архитектуре и разработан специально для рабочих нагрузок ИИ в приложениях для обработки голоса. (Изображение:XMOS)

Автомобильная SoC

TDA4VM компании Texas Instruments Inc.
TDA4VM входит в серию Jacinto 7 для автомобильных передовых систем помощи водителю (ADAS) и является первой системой на кристалле (SoC) TI со специальным встроенным ускорителем глубокого обучения. Этот блок основан на DSP C7x и разработанном собственными силами ускорителе матричного умножения (MMA), который может достигать 8 TOPS.

SoC может обрабатывать видеопоток с фронтальной камеры с разрешением до 8 Мп или комбинацию от четырех до шести камер по 3 Мп плюс радар, LiDAR и ультразвуковые датчики. MMA может использоваться, например, для совмещения датчиков на этих входах в автоматизированной системе парковки автомобилей служащим. TDA4VM разработан для систем ADAS мощностью от 5 до 20 Вт.

Устройство все еще находится на стадии предварительной подготовки, но уже доступны комплекты для разработки.

TI TDA4VM предназначен для сложных автомобильных систем ADAS, которые позволяют транспортным средствам воспринимать окружающую среду. (Изображение:Texas Instruments Inc.)

GPU

Nvidia Corp. Jetson Nano
Хорошо известный Jetson Nano от Nvidia - это небольшой, но мощный модуль графического процессора (GPU) для приложений искусственного интеллекта в конечных устройствах. Построенный на той же архитектуре Maxwell, что и более крупные члены семейства Jetson (AGX Xavier и TX2), графический процессор в модуле Nano имеет 128 ядер и способен выполнять 0,5 терафлопс, что достаточно для запуска нескольких нейронных сетей с несколькими потоками данных с высокой разрешение датчиков изображения, по данным компании. При использовании он потребляет всего 5 Вт. Модуль также оснащен четырехъядерным процессором Arm Cortex-A57.

Как и другие компоненты линейки Nvidia, Jetson Nano использует CUDA X, коллекцию библиотек ускорения Nvidia для нейронных сетей. Недорогие комплекты для разработки Jetson Nano широко доступны.

Модуль Nvidia Jetson Nano содержит мощный графический процессор со 128 ядрами для ИИ на периферии. (Изображение:Nvidia Corp.)

Потребительские сопроцессоры

Kneron Inc. KL520
Первым предложением от американо-тайваньского стартапа Kneron является процессор нейронной сети KL520, предназначенный для обработки изображений и распознавания лиц в таких приложениях, как умные дома, системы безопасности и мобильные устройства. Он оптимизирован для работы сверточных нейронных сетей (CNN), которые сегодня широко используются при обработке изображений.

KL520 может работать с 0,3 TOPS и потреблять 0,5 Вт (эквивалент 0,6 TOPS / Вт), что, по словам компании, достаточно для точного распознавания лиц, учитывая, что эффективность MAC чипа высока (более 90%). Архитектура микросхемы реконфигурируема и может быть адаптирована к различным моделям CNN. Дополнительный компилятор компании также использует методы сжатия, чтобы помочь запускать более крупные модели в рамках ресурсов чипа, чтобы помочь сэкономить электроэнергию и затраты.

KL520 доступен уже сейчас, а также его можно найти на карте ускорителя от производителя AAEON (M2AI-2280-520).

Kneron KL520 использует реконфигурируемую архитектуру и интеллектуальное сжатие для обработки изображений на мобильных и потребительских устройствах. (Изображение:Kneron Inc.)

Кречет Lightspeeur 5801
Разработанный для рынка бытовой электроники, Lightspeeur 5801 от Gyrfalcon предлагает 2,8 TOPS при энергопотреблении 224 мВт (эквивалент 12,6 TOPS / Вт) с задержкой 4 мс. Компания использует технологию «процессор в памяти», которая является особенно энергоэффективной по сравнению с другими архитектурами. Фактически, потребляемая мощность может быть компенсирована тактовой частотой, варьируя тактовую частоту от 50 до 200 МГц. Lightspeeur 5801 содержит 10 МБ памяти, поэтому на чипе могут поместиться целые модели.

Эта часть является четвертым производственным чипом компании и уже используется в смартфоне среднего класса LG Q70, где он обрабатывает логические выводы для эффектов камеры. Комплект для разработки USB-накопителя 5801 Plai Plug уже доступен.

Сверхнизкое энергопотребление

Eta Compute ECM3532
Первый производственный продукт Eta Compute, ECM3532, разработан для ускорения ИИ в проектах с батарейным питанием или энергозатратным оборудованием для Интернета вещей. Постоянно работающие приложения для обработки изображений и объединения сенсоров могут быть достигнуты с бюджетом мощности всего 100 мкВт.

Чип имеет два ядра - ядро микроконтроллера Arm Cortex-M3 и DSP NXP CoolFlux. Компания использует запатентованную технику масштабирования напряжения и частоты, которая регулирует каждый тактовый цикл, чтобы выжать все до последней капли энергии из обоих ядер. Рабочие нагрузки машинного обучения могут обрабатываться любым ядром (например, некоторые голосовые рабочие нагрузки лучше подходят для DSP).

Образцы ECM3532 доступны уже сейчас, а массовое производство ожидается во втором квартале 2020 года.

Syntiant Corp. NDP100
Процессор NDP100 от компании Syntiant, запущенной в США, разработан для машинного обучения по голосовым командам в приложениях с ограниченным энергопотреблением. Его кремний на базе процессора в памяти потребляет менее 140 мкВт активной мощности и может запускать модели для определения ключевых слов, определения слова пробуждения, идентификации говорящего или классификации событий. Компания заявляет, что этот продукт будет использоваться для обеспечения работы в режиме громкой связи с потребительскими устройствами, такими как наушники, слуховые аппараты, умные часы и пульты дистанционного управления. Уже доступны комплекты для разработки.

Устройство Syntiant NDP100 разработано для обработки голоса в приложениях со сверхнизким энергопотреблением. (Изображение:Syntiant Corp.)

GreenWaves Technologies GAP9
GAP9, первый прикладной процессор со сверхнизким энергопотреблением от французского стартапа GreenWaves, имеет мощный вычислительный кластер из девяти ядер RISC-V, набор команд которых был сильно настроен для оптимизации потребляемой мощности. Он оснащен двунаправленными многоканальными аудиоинтерфейсами и 1,6 МБ внутренней оперативной памяти.

GAP9 может обрабатывать рабочие нагрузки нейронной сети для изображений, звуков и обнаружения вибрации в устройствах IoT с питанием от батарей. По данным GreenWaves, GAP9 работает под управлением MobileNet V1 с изображениями 160 × 160, с масштабированием канала 0,25 всего за 12 мс и потребляемой мощностью 806 мкВт / кадр / секунду.

Silicon Labs для расширения портфолио беспроводных технологий Датчик температуры / влажности обеспечивает строго линейный отклик

Встроенный

Датчик

Облачные вычисления

Интернет вещей