Гибридная архитектура ускоряет ИИ, рабочие нагрузки машинного зрения

Новый гибридный поток данных и архитектура фон Неймана могут ускорить рабочие нагрузки, включая нейронные сети, машинное обучение, компьютерное зрение, DSP и подпрограммы базовой линейной алгебры.

Quadric, стартап из Кремниевой долины, создал ускоритель, предназначенный для ускорения рабочих нагрузок как AI, так и стандартных алгоритмов компьютерного зрения для периферийных устройств, таких как роботы, автоматизация производства и медицинская визуализация. Аппаратная архитектура компании представляет собой новый гибридный поток данных и дизайн фон Неймана, который может обрабатывать рабочие нагрузки, включая нейронные сети, машинное обучение, компьютерное зрение, DSP и базовые подпрограммы линейной алгебры.

«С самого начала мы прекрасно понимали, что ИИ - не единственное приложение, которое необходимо для вычислений на устройстве на периферийных устройствах», - сказал EE Times генеральный директор Quadric Вирбхан Хетерпал. . «Разработчикам этих продуктов необходимо, чтобы вся система могла запускать классические высокопроизводительные вычислительные алгоритмы вместе с ИИ. Это действительно полные системные требования ».

Хетерпал подчеркнул, что архитектура - это не набор ускорителей для отдельных рабочих нагрузок. Скорее, это унифицированная архитектура с набором инструкций параллельного обмена данными, предназначенная для ускорения различных рабочих нагрузок, включая логический вывод ИИ.

«Там, где в последнее время развивается ИИ, есть несколько интересных тенденций, связанных с заменой целых слоев быстрым преобразованием Фурье (БПФ)», - сказал Дэниел Фиру, директор по продуктам Quadric. Quadric позиционирует себя, чтобы ускорить эти типы рабочих нагрузок, ссылаясь на недавнюю статью от Google, в которой исследователи ускорили трансформаторную сеть, заменив некоторые слои БПФ. Google заменил подуровень самовнимания кодировщика-преобразователя на БПФ, чтобы сгенерировать сеть, которая достигла 92-процентной точности в тесте BERT; обучение проходило в семь раз быстрее на GPU или в два раза быстрее на Google TPU.

Комплект разработчика Quadric, карта M.2 с процессором Q16 и 4 ГБ внешней памяти (Источник:Quadric)

Роботы для виноградников

Три соучредителя Quadric, Вирбхан Хетерпал, Даниэль Фиру и Найджел Дрего, ранее основали 21, компанию по добыче биткойнов, которая была продана Coinbase. Quadric, Burlingame, CA, не начинала конструировать микросхемы. Вместо этого изначально были созданы сельскохозяйственные роботы, которые могли ходить вверх и вниз по виноградникам долины Напа, глядя на виноградные лозы и отправляя предупреждения, когда обнаруживали утечки ирригации или вредителей.

Вирбхан Хетерпал (Источник:Quadric)

«Когда мы строили его, мы понимали, что это не будет жизнеспособным продуктом, созданным на основе цепочки поставок дронов за 5–10 000 долларов», - сказал Хетерпал. «Он должен быть построен из цепочки поставок тракторов стоимостью 50 000 долларов, и в нем должны быть большие ПК с графическими процессорами и тонны камер. Именно тогда мы решили заглянуть под капот всего этого программного обеспечения для робототехники и обнаружили, что в основе своей привело к увеличению этой потребности в энергии с такими платформами, как Nvidia и Intel ».

Компания перешла к созданию микросхемы ускорителя - «микросхемы, которую мы хотели иметь», по словам Фиру.

В 2017 году был запущен раунд начального финансирования, за которым последовал раунд серии A, который привлек 13 миллионов долларов от потенциальных клиентов, включая ведущего инвестора Quadric, японскую автомобильную компанию Tier-One Denso. Общий объем финансирования Quadric составляет 18 миллионов долларов.

Тьюринг завершен

Quadric’s использует архитектуру, управляемую инструкциями, которая берет элементы из архитектур потока данных и объединяет их с элементами машины фон Неймана. Цель состоит в том, чтобы заменить разнородные системы в периферийных устройствах чем-то менее сложным. Как заявляют в компании, ядра Quadric Vortex, как полные машины Тьюринга, сочетают в себе ускорение и гибкость. Архитектура масштабируется с точки зрения массивов ядер и переносится на усовершенствованные (7- или 5-нм) технологические узлы. Это подходит для периферийных устройств с бюджетом мощности примерно от сотен милливатт до 20 Вт.

Первый чип компании, Q16, представляет собой массив из 16 x 16 ядер Vortex. Каждое ядро имеет возможность выполнять матричное умножение и вычисления AI, но каждое также имеет многофункциональное ALU для таких операций, как AND, OR, сокращение, сдвиг и других. Программное обеспечение позволяет разработчикам выражать различные типы алгоритмов, включая функции активации LSTM и многое другое. Операторы If-Then-Else доступны во всем массиве, что позволяет разработчикам использовать мелкозернистую разреженность.

Каждое ядро в массиве имеет однократный доступ к своим соседним ядрам, а также однократный доступ к внутренней памяти объемом 4 КБ. Встроенная память также включена в массив, обеспечивая детерминированный доступ к ядрам с малой задержкой.

Ядра работают параллельно, что в Quadric называется методом «одиночная инструкция, множественное декодирование»; каждое ядро получает одну и ту же инструкцию с каждым циклом. Но на основе динамических данных во время выполнения каждое ядро может интерпретировать эту инструкцию по-разному. Это позволяет ядрам или группам ядер выполнять несколько разные функции.

Также включена выделенная широковещательная шина, которая оптимизирует полосу пропускания в массиве и может использоваться для широковещательной передачи констант, таких как веса нейронной сети, во все ядра одновременно (Фиру сказал, что многие алгоритмы компьютерного зрения также имеют некоторую инвариантную информацию о циклах, которая может быть нанесен на автобус).

Динамическая информация поступает в массив через статические программно-управляемые блоки загрузки-хранилища, которые обеспечивают детерминированное время выполнения ядра. Устройство позволяет одновременно загружать и сохранять с любых двух краев устройства, а также имеет специальное свойство с одного края, которое можно использовать для отправки весов нейронной сети - загрузка с двух краев и сохранение с третьего края одновременно может сократить время выполнения вычислений.

Даниэль Фиру (Источник:Quadric)

«Вы можете загружать с одной стороны, а затем хранить с перпендикулярной стороны», - сказал Фиру. «Это позволяет делать довольно интересные вещи на уровне программного обеспечения. Вы также можете начать делать такие вещи, как повторное отображение данных, поворот изображений и тому подобное, используя эту парадигму ».

Между тем, статическая память с программным управлением (не кэш) на кристалле предлагает место для больших структур данных. Quadric предоставляет доступ к ним через API, поэтому разработчики могут определять внутри произвольные структуры данных. В чипе Q16 объем памяти составляет 8 ГБ, что достаточно для размещения «двух или трех кадровых буферов в HD или всей нейронной сети весов», - сказал Фиру.

Программный стек

Компания Quadric создала свой программный стек раньше, чем кремний. По словам Хетерпала, клиенты уже год используют его с симулятором архитектуры компании или с ПЛИС. Стек Quadric абстрагирует архитектуру и набор инструкций с помощью компилятора на основе LLVM с C ++ API наверху.

Исходный режим поддерживает различные алгоритмы параллельного обмена данными с контролем C ++ на уровне исходного кода архитектурными особенностями процессора. По мере того, как нейронные сети становятся более сложными, режим исходного кода также позволяет разработчикам выражать настраиваемые операции.

Программный стек Quadric (Источник:Quadric)

В будущем обновлении стека будет предложен режим графика без кода, который будет поддерживать версии нейронных сетей TensorFlow или ONNX. Это будет включать в себя компилятор глубокой нейронной сети (DNN) на основе TVM, который автоматически генерирует код.

«Мы объединяем мощь отсутствия кода с гибкостью, чтобы иметь свой собственный код и комбинировать их интересными способами для создания вашего приложения», - сказал Хетерпал. «Большинство платформ предлагают только архитектуру, специфичную для ИИ, с каким-то компилятором DNN, но как насчет настройки? А как насчет неподдерживаемого DNN? А как насчет операторов, которые не поддерживаются? У нас нет этих ограничений, потому что это полное ядро по Тьюрингу, ядра могут выполнять любые операции. Гибкость кода дает разработчикам возможность писать любой алгоритм, который они хотят ».

План развития чипов

Чип Quadric Q16, который имеет 256 ядер Vortex в массиве 16 x 16 в кремнии 16 нм, предлагает 4 INT8 DNN TOPS. Он может запускать ResNet-50 со скоростью 200 выводов в секунду (для параметров INT8 при размере изображения 224 x 224), потребляя в среднем 2 Вт.

Дорожная карта Quadric включает в себя второе поколение архитектуры, а также чип Q32 (массив из 1000 ядер), «вероятно, 7 нм», - сказал Фиру. В то время как Q16 является строго ускорителем (он будет располагаться рядом с процессором хоста системы), разрабатываемый Q32 может также включать ядра Arm или RISC-V в качестве хоста.

Теперь доступен комплект разработчика формата M.2 с процессором Q16 и 4 ГБ внешней памяти, напрямую сопоставленной с универсальным пространством памяти Q16.

>> Эта статья изначально была опубликована на нашем дочернем сайте EE Times.

Связанное содержание:

Аппаратные ускорители обслуживают приложения ИИ.
Когда DSP превосходит аппаратный ускоритель
Руководство по ускорению приложений с помощью правильных пользовательских инструкций RISC-V.
Производительность микросхемы логического вывода зависит от оптимизированной конструкции подсистемы памяти.
Новые модули ускорения ИИ повышают производительность периферийных устройств.
Edge AI бросает вызов технологии памяти

Чтобы получить больше информации о Embedded, подпишитесь на еженедельную рассылку Embedded по электронной почте.

SoC с поддержкой AI обрабатывают несколько видеопотоков Решения с адаптивным ANC расширяют возможности звука

Встроенный

Датчик

Облачные вычисления

Интернет вещей