Чип Edge AI отказывается от массива умножения-накопления для достижения 55 TOPS / Вт

Стартап из кремниевой долины утверждает, что он заново изобрел математику нейронных сетей и создал дополнительный крайний ИИ-чип, уже имеющий выборку, который не использует обычный большой массив единиц умножения-накопления. Чип может работать со скоростью, эквивалентной 4 TOPS, с впечатляющим энергопотреблением в 55 TOPS / Вт и, по заявлению компании, обеспечивает выведение класса центра обработки данных менее чем на 20 мВт (YOLOv3 при 30 кадрах в секунду).

Компания Perceive из Сан-Хосе до сих пор находилась в сверхстелс-режиме - будучи дочерней компанией Xperi, она полностью финансировалась своей материнской компанией с момента ее официального создания два года назад. Команда состоит из 41 человека, примерно столько же в Xperi работают над приложениями для этого чипа. Генеральный директор-основатель Стив Тейг также является техническим директором Xperi; Ранее он был основателем и техническим директором Tabula, стартапа по программированию трехмерной логики, который закрылся пять лет назад, а до этого он был техническим директором Cadence.

Тейг объяснил, что первоначальная идея заключалась в том, чтобы объединить классические знания Xperi в области обработки изображений и звука с машинным обучением. Xperi владеет такими брендами, как DTS, IMAX Enhanced и HD Radio - ее технологический портфель включает программное обеспечение для обработки изображений с такими функциями, как «эффект красных глаз» и стабилизация изображения, которые широко используются в цифровых камерах, а также программное обеспечение для обработки звука для проигрывателей дисков Blu-Ray.

Стив Тейг (Изображение:Воспринимать)

«Мы начали с чистого листа и использовали теорию информации, чтобы спросить:какие вычисления на самом деле делают нейронные сети? И есть ли другой способ приблизиться к этому вычислению, который мог бы изменить то, что возможно [на грани]? » - сказал Тейг. «После нескольких лет выполнения этой работы мы обнаружили, что это так, а затем решили… мы должны сделать чип, воплощающий эти идеи».

Идея, которую Тейг представил для платы Xperi, заключалась в том, чтобы выделить компанию для создания чипа, который мог бы делать значимые выводы в периферийных устройствах с бюджетом мощности 20 мВт. В результате чип 7x7 мм под названием Ergo может работать с 4 TOPS без внешней ОЗУ (фактически, он работает в эквиваленте того, чего может достичь графический процессор с рейтингом 4 TOPS, объяснил Тейг). Ergo поддерживает множество стилей нейронных сетей, включая сверточные сети (CNN) и рекуррентные сети (RNN), в отличие от многих имеющихся на рынке решений, адаптированных для CNN. Ergo может одновременно запускать несколько разнородных сетей.

«Единственное, что ограничивает количество сетей, которые мы можем запустить, - это общий объем памяти, необходимый для комбинации», - сказал Тейг, добавив, что Perceive продемонстрировала одновременный запуск YOLOv3 или M2Det - с 60 или 70 миллионами параметров - плюс ResNet 28 с несколькими миллионами. параметры, а также LSTM или RNN для обработки речи и звука. В приложении это может соответствовать одновременно визуализации и звуковому выводу.

Perceive также утверждает, что его чип Ergo чрезвычайно энергоэффективен, достигая 55 TOPS / Вт. Эта цифра на порядок превышает заявленную некоторыми конкурентами. По данным Perceive, на нем работает YOLOv3, большая сеть с 64 миллионами параметров, со скоростью 30 кадров в секунду при потреблении всего 20 мВт.

Perceive утверждает, что эффективность его чипа Ergo составляет до 55 TOPS / Вт, при работе YOLOv3 со скоростью 30 кадров в секунду при мощности всего 20 мВт (Изображение:Perceive)

Эта энергоэффективность сводится к некоторым агрессивным методам стробирования мощности и синхронизации, которые используют детерминированный характер обработки нейронной сети - в отличие от других типов кода, здесь нет ветвей, поэтому время известно во время компиляции. Это позволяет Perceive точно определить, что и когда нужно включить.

«При питании от батареи [чип] может быть буквально выключен - ноль милливатт - и иметь какой-то микроваттный датчик движения или аналоговый микрофон для обнаружения чего-то, что может представлять интерес», - сказал Тейг. «Мы можем выйти из режима ожидания, загрузить гигантскую нейронную сеть класса центра обработки данных и запустить ее примерно за 50 миллисекунд, включая расшифровку. Таким образом, мы оставляем на полу только два кадра видео ».

Но тщательный дизайн оборудования - это только часть картины.

Теория информации

«Мы придумали другой способ представления самих вычислений и связанных с ними арифметических операций», - сказал Тейг. «Мы представляем сеть по-новому, и в этом заключается наше преимущество».

Восприятие началось с теории информации - отрасли науки, которая включает математические способы отличить сигнал от шума - и использовало свои концепции, чтобы посмотреть, сколько вычислений требуется, чтобы выделить сигнал из шума. Тейг использует в качестве примера сеть обнаружения объектов.

«Вы передаете сети миллионы пикселей, и все, что вам нужно знать, - это собака на этой картинке или нет?» он сказал. «Все остальное на картинке - шум, кроме собачьего [сигнала]. Теория информации делает это количественно измеримым - сколько вам нужно знать [, чтобы сказать, есть ли собака на картинке]? Вы действительно можете сделать это математически точным ».

Как описывает Тейг, обычные нейронные сети могут делать обобщения на основе просмотра множества изображений собак, потому что они обнаружили хотя бы часть сигнала в шуме, но это было сделано эмпирическим путем, а не с помощью математически строгого подхода. Это означает, что вместе с сигналом передается шум, что делает основные нейронные сети очень большими и делает их уязвимыми для примеров враждебности и других уловок.

«Чем больше вы можете математически определить, какие части необходимо сохранить, а какие - просто шум, тем лучше вы сможете выполнить обобщение и тем меньше других накладных расходов придется нести с собой», - сказал Тейг. «Я бы сказал, что даже современные нейронные сети извлекают сигнал из шума, но они просто не делают это так тщательно, и в результате они несут с собой лишний вес».

Эта теоретико-информационная точка зрения является основой стратегии машинного обучения Perceive, которая представляет нейронные сети по-новому.

«На самом деле это союз между теоретико-информационным взглядом на машинное обучение и чипом, воплощающим эти идеи», - сказал Тейг.

Архитектура микросхемы

Учитывая, что Тейг работал техническим директором в Tabula, вы могли ожидать, что оборудование основано на программируемой логике, но в данном случае это не так.

«На меня сильно повлияли размышления о программируемой логике в течение десяти лет и о том, как построить богатую архитектуру межсоединений, чтобы обеспечить высокопроизводительные, очень параллельные вычисления, потому что многое из того, что происходит на FPGA, также является массово параллельным и очень интенсивным в своем взаимодействие между вычислениями и памятью », - сказал Тейг. «Эта работа определенно повлияла на мою работу в Perceive, но у нас нет программируемой логики как таковой . . На это повлияло такое мышление, но сама архитектура основана на нейронных сетях ».

Структура нейронной сети Perceive является масштабируемой:исходный чип Ergo имеет четыре вычислительных кластера, каждый со своей собственной памятью. Хотя точные детали все еще скрыты, Тейг сказал, что эти кластеры значительно отличаются от всего, что можно найти в других ускорителях ИИ, которые обычно используют массивы единиц умножения-накопления (MAC) для вычисления скалярных произведений векторов и матриц.

Технология Perceive основана на переосмыслении математики нейронных сетей с использованием методов теории информации (Изображение:Perceive)

«Мы этого не делаем», - сказал Тейг. «У нас нет набора MAC. В результате ... наша энергоэффективность в 20-100 раз выше, чем у всего остального на рынке, причина этого в том, что все делают то же самое, а мы - нет. Наше представление сетей довольно новое, и именно это позволило нам достичь такой высокой эффективности. Это плюс технология машинного обучения, которая может находить это представление сетей и обучать сети таким образом, чтобы они были совместимы с тем, что хочет видеть чип ».

Изображение и звук

Ergo может поддерживать две камеры и включает в себя блок обработки изображений, который работает как препроцессор, обрабатывая такие вещи, как устранение искажений изображений объектива «рыбий глаз», гамма-коррекция, баланс белого и кадрирование.

«Это не фантастика, но предварительная обработка, которая, очевидно, полезна в аппаратном обеспечении, а мы делаем в аппаратном обеспечении, - сказал Тейг. «И у нас также есть аудиоэквивалент - например, мы можем взять несколько стереомикрофонов и выполнить формирование луча».

Также имеется микропроцессор Synopsis ARC с блоком DSP, который также можно использовать для предварительной обработки, плюс блок безопасности, также от Synopsis.

«Одна из вещей, которые мы сделали, - это зашифровать абсолютно все, чтобы поддерживать уровень безопасности в среде Интернета вещей. Мы шифруем сети, шифруем код, который работает на микропроцессоре, шифруем интерфейсы, шифруем все », - сказал Тейг.

Чип имеет соответствующие входы / выходы для датчиков изображения и звука, а также поддерживает внешнюю флэш-память и / или микропроцессор, который позволяет обновлять данные по беспроводной сети. Это можно использовать для обновления нейронных сетей, загруженных на чип, или для загрузки других сетей по мере необходимости.

Ergo производит отбор проб вместе с прилагаемой справочной платой. Серийное производство ожидается во втором квартале 2020 года.

SIMO PMIC снижает занимаемую площадь при проектировании, снижает энергопотребление Беспроводные трансиверы используют UWB для передачи данных с низким энергопотреблением и малой задержкой

Встроенный

Датчик

Облачные вычисления

Интернет вещей