Тест машинного обучения расширяет поддержку периферийных рабочих нагрузок центров обработки данных

Организация по сравнительному анализу ML Commons выпустила новый раунд оценок MLPerf Inference. Этот последний раунд разделен на классы устройств для облегчения сравнения. Результаты также включают ряд новых моделей искусственного интеллекта, которые предназначены для представления ряда различных рабочих нагрузок, которые используются в коммерческих целях, но все еще считаются современными.

Системы с ускорением Nvidia составили около 85% от общего числа заявок, выиграв все категории, в которых они участвовали. Однако заявок от Nvidia в классах Mobile или Notebook не поступало (Nvidia не представлена на этих рынках с продуктами для ускорения ИИ). Также было несколько интересных материалов от стартапов, и в целом наблюдалась большая тенденция к размещению чисел в нескольких столбцах, что упрощало сравнение.

Изменения по сравнению с прошлым раундом

Первым серьезным изменением результатов этого раунда является то, что системы были разделены на классы:центры обработки данных, периферийные устройства, мобильные устройства и ноутбуки. Мобильные телефоны и ноутбуки имеют очень специфические форм-факторы и профили производительности, что позволяет легко выделить их из более широкого списка.

«Если вы говорите о ноутбуке, он, вероятно, работает под управлением Windows, если вы говорите о смартфоне, который, вероятно, работает под управлением iOS или Android», - сказал EE Times . «Отделение этих результатов от большего пула оценок логических выводов очень помогает прояснить ситуацию».

Контрольные показатели для этого второго раунда оценок вывода также были переработаны, чтобы включить модели ИИ, которые представляют современные варианты использования. В то время как предыдущий раунд был сосредоточен на моделях зрения и обработки изображений, на этот раз классы центра обработки данных и грани включают модель рекомендаций DLRM, модель медицинской визуализации 3D-UNet, которая используется для поиска опухолей при сканировании МРТ, модель преобразования речи в текст RNN- T и модель обработки естественного языка (NLP) BERT.

«[Выбор модели] определяется мнением клиентов, но мы не хотим попасть в ловушку, когда студенты устанавливают свои собственные тесты», - сказал Кантер, объясняя, что цель заключалась в выявлении передовых моделей, которые находятся в производстве. не только на этапе исследования. «DLRM и 3D-UNet - это был очень осознанный [выбор], сделанный нашим консультативным советом, людьми из мира медицины, людьми, которые делают рекомендации в большом масштабе ... Такое информированное построение рабочей нагрузки чрезвычайно ценно».

Классы мобильных устройств и ноутбуков используют MobileNetEdge для классификации изображений, SSD-MobileNetv2 для обнаружения объектов, Deeplabv3 для сегментации изображений и Mobile BERT для NLP.

Также были увеличены целевые показатели точности, чтобы отразить их использование в реальных условиях.

Приведенный ниже анализ относится только к «закрытому» разделу для честного сравнения.

Результаты центра обработки данных

Как и ожидалось, большинство представленных в классе центров обработки данных использовали ускорители Nvidia GPU. Остальные использовали процессоры Intel для обработки ИИ, за некоторыми исключениями (см. Ниже). На этот раз от Google не поступило никаких заявок на TPU, как и от кого-либо из активного сообщества стартапов, которые утверждают себя в этой сфере (Graphcore, Cerebras, Groq и т. Д.).

«Превышение производительности [Nvidia] над процессорами увеличилось примерно с 6X до 30X в базовой модели компьютерного зрения под названием ResNet, а в моделях расширенных рекомендательных систем… Nvidia A100 в 237 раз быстрее, чем CPU Cooper Lake [Intel]», - сказал Пареш Харья. , старший директор по управлению продуктами и маркетингу в Nvidia. «Один DGX-A100 обеспечивает ту же производительность в рекомендательных системах, что и серверы с 1000 ЦП, и представляет собой поразительную ценность для клиентов».

Mipsology была единственной коммерчески доступной компанией, не использующей ЦП и не использующей графический процессор, в этом подразделении. У компании есть технология ускорителя под названием Zebra, которая работает на ПЛИС Xilinx (в данном случае Xilinx Alveo U250). Их технология может обрабатывать 4096 запросов ResNet в секунду в режиме сервера (по сравнению с примерно 5563 для Nvidia T4) или 5011 выборок в секунду в автономном режиме (по сравнению с примерно 6112 для Nvidia T4).

Тайваньская компания Neuchips прислала оценку в категории "Исследования, разработки" или "Внутренние разработки", что означает, что используемое ею устройство не продается и, скорее всего, не будет еще как минимум 6 месяцев. RecAccel разработан специально для ускорения DLRM, модели рекомендаций, использованной в этом тесте. Он использует массивно-параллельный дизайн, работающий на Intel Stratix FPGA для вывода ИИ. Его результаты в категории DRLM были сопоставимы или хуже, чем у процессоров Intel Cooper Lake, и не соответствовали Nvidia.

Результаты Edge

В категории Edge доминировали результаты, набранные Nvidia A100, T4, AGX Xavier и Xavier NX.

Компания Centaur Technology представила результаты своей коммерчески доступной системы эталонного проектирования, в которой используется серверный процессор Centaur на основе собственной микроархитектуры x86, а также отдельный собственный ускоритель искусственного интеллекта в качестве сопроцессора. Согласно Centaur, этот эталонный дизайн представляет собой систему серверного класса для приложений локального или частного центра обработки данных и оптимизирован по стоимости и форм-фактору (а не по потребляемой мощности или пиковой производительности).

Что касается классификации изображений ResNet (задержка одного потока), система Centaur была быстрее, чем собственные материалы Nvidia для серверных систем, оснащенных Tesla T4. Тем не менее, T4 превзошел дизайн Centaur в оффлайновых выборках ResNet, обрабатываемых за секунду. Однако Centaur не так хорошо справлялся с обнаружением объектов, занимая промежуточное положение между двумя встроенными периферийными модулями Nvidia, Xavier NX и AGX Xavier.

Британская консалтинговая компания dividiti, специализирующаяся на объективной оценке аппаратных и программных систем машинного обучения, представила множество оценок по системам от Fireflys и Raspberry Pis до Nvidia AGX Xavier. На первый взгляд одинаковые оценки для записей Raspberry Pi на самом деле используются в разных операционных системах (32-битный Debian против 64-битного Ubuntu - Ubuntu был примерно на 20% быстрее). Результаты компании отличались от собственных результатов Nvidia для AGX Xavier, поскольку Nvidia использовала как графический процессор AGX Xavier, так и два встроенных ускорителя глубокого обучения для оценок ResNet Offline и Multistream, тогда как dividiti использовала только графический процессор.

Представитель dividiti также сообщил EE Times что, хотя компании удалось «более или менее» воспроизвести оценки Nvidia для предыдущего раунда вывода, последние результаты привели к снижению производительности тестовой оснастки, которая была замечена только за несколько минут до крайнего срока подачи (исправление этой ошибки позже позволило улучшить некоторые задержки на 10-20%). Это служит иллюстрацией важности сочетания аппаратного и программного обеспечения для результатов.

В категории Edge преобладают результаты, ускоренные графическими процессорами Nvidia, включая Jetson Xavier NX (Изображение:Nvidia)

Новые записи в этой категории включают IVA Technologies и Mobilint, как в категории «Исследования, разработки, так и для внутреннего использования».

Компания IVA Technologies, российский разработчик и производитель ИТ-оборудования, работает над микросхемой ускорителя искусственного интеллекта, которая поддерживает сверточные, 3D-сверточные и LSTM-модели. Компания представила оценку «FPGA», которая может быть прототипом ASIC ускорителя, реализованного на FPGA. Задержка одного потока ResNet составляла 12,23 мс, что примерно в 4 раза медленнее, чем у Xavier NX, и он обрабатывал 89 автономных выборок в секунду, что меньше одной десятой от Xavier NX. Однако категория Edge обширна, и о дизайне известно не так много - она может быть предназначена для устройств меньшего размера, чем Xavier NX.

Mobilint, корейский стартап ASIC-ускорителей искусственного интеллекта, представил оценку своего дизайна Mobilint Edge, которая EE Times Подозреваемые были реализованы в качестве прототипа на карте FPGA Xilinx Alveo U250. В ResNet его задержка была намного больше, чем у конструкции IVA Technologies и составляла 37,46 мс, но он обрабатывал больше автономных выборок в секунду (107). Компания также представила оценки за обнаружение объектов.

Несмотря на то, что ни IVA Technologies, ни Mobilint не показали новаторских результатов, тестирование прототипов, безусловно, имеет ценность, поскольку это доказывает, что к ним готовы соответствующие пакеты программного обеспечения.

Результаты для мобильных устройств

В новой категории мобильных SoC было три заявки, которые были достаточно хорошо согласованы, но без явного победителя.

MediaTek представил оценки для своего Dimensity 820 (в смартфоне Xiaomi Redmi 10X 5G). Это устройство использует собственный блок обработки AI (APU) 3.0 от MediaTek, который представляет собой ускоритель с поддержкой FP16 и INT16, оптимизированный для функций камеры / обработки изображений. SoC также имеет 5-ядерный графический процессор.

Qualcomm Snapdragon 865+ использует процессор Hexagon 698 компании, разработанный для ускорения AI с тактовой частотой 15 TOPS, вместе с графическим процессором Adreno 650. Тесты проводились на телефоне Asus ROG Phone 3.

Exynos 990 от Samsung был протестирован как часть Galaxy Note 20 Ultra. Это устройство содержит двухъядерный NPU (блок нейронной обработки) и графический процессор Arm Mali-G77, а также различные ядра процессора Arm.

Exynos 990 от Samsung лучше всех справился с классификацией изображений и НЛП; MediaTek Dimensity 820 был очень близок к классификации изображений, но у Samsung было более четкое лидерство в области НЛП. MediaTek явно лидировал в области обнаружения объектов, а Qualcomm Snapdragon 865+ занял второе место. MediaTek также выиграла тест на сегментацию изображений, опередив Qualcomm с небольшим отрывом.

Результаты в записной книжке

В категории «Ноутбуки» была только одна запись - эталонный дизайн Intel, в котором в качестве ускорителя используется будущий графический процессор Intel Xe-LP. Xe-LP - это версия с низким энергопотреблением Xe-HP и Xe-HPC, которые предназначены для ускорения AI и HPC в центре обработки данных; ни одно из более крупных устройств не тестировалось.

Поскольку в этом классе была только одна запись, сложно интерпретировать результаты Xe-LP. Однако в категории ноутбуков использовались те же модели искусственного интеллекта, что и в категории мобильных устройств, поэтому некоторое сравнение неизбежно. Самым большим преимуществом Xe-LP перед мобильными SoC было сегментация изображений (DeeplabV3), где он в 2,5 раза превосходил победителя мобильных устройств по пропускной способности (кадров в секунду). Его самая низкая производительность была при обнаружении объектов (SSD - MobileNetv2), где его преимущество было в 1,15 раза выше мобильного победителя с точки зрения пропускной способности (кадров в секунду).

Будущие контрольные показатели

В дальнейшем Кантер надеется, что в будущие раунды тестов будет включено больше записей о процессорах, не относящихся к Nvidia и Intel, и заявляет, что организация сделала все возможное, чтобы побудить стартапы и небольшие компании представить результаты.

«У нас есть открытое подразделение, где вы можете представить любую сеть, какую захотите», - сказал он. «Одна из приятных особенностей этого заключается в том, что если клиент говорит, что я хочу X, и вы делаете все необходимое для этого, вы можете использовать X, если вы можете добавить код, чтобы мы могли видеть, что вы запускаете. ”

Компании могут отправлять результаты всего по одной модели ИИ, чтобы снизить затраты на разработку, и даже могут отправлять свои собственные модели в открытую категорию.

Кантер также упомянул, что организация намерена ввести измерение мощности в следующий раунд оценки. Работа уже ведется.

«Одна из вещей, к которой мы хотели бы привлечь людей, - это помощь в создании инфраструктуры измерения мощности - помогите нам создать инструменты для этих измерений», - сказал Кантер.

Полный список результатов вывода MLPerf с подробностями доступен здесь.

>> Эта статья была первоначально опубликована на наш дочерний сайт EE Times.

Renesas и Altran разрабатывают носимый чипсет с использованием 3db Access UWB Платформа разработки радаров для визуализации предлагает разрешение 2K

Встроенный

Датчик

Облачные вычисления

Интернет вещей