Ускорение искусственного интеллекта на периферии:решающая роль специализированных процессоров и памяти

Искусственный интеллект больше не является просто модным словечком — это глобальный императив, который определяет дизайн современных вычислительных платформ. В то время как графические процессоры используются для обучения массивных языковых моделей в центрах обработки данных, сейчас передовые рубежи развития искусственного интеллекта находятся на грани:в устройствах с ограниченным энергопотреблением, таких как датчики Интернета вещей, камеры видеонаблюдения и автономные роботы.

Чтобы превратить миллиарды конечных точек из простых облачных агентов в автономные механизмы вывода на устройстве, мы должны оптимизировать как вычисления, так и память. Показатель, который действительно имеет значение, — это эффективность в тераоперациях в секунду на ватт (TOPS/Вт).

Проблемы с периферийным искусственным интеллектом в реальном времени

По мере того, как базовые модели разрастаются до миллиардов параметров, стоимость и энергопотребление инфраструктуры центров обработки данных резко возрастают. Тем не менее, спрос на логические выводы в реальном времени с малой задержкой в источнике данных остается сильнее, чем когда-либо. Поэтому Edge AI должен выйти за рамки простой плотности вычислений и устранить двойные ограничения:ограниченный бюджет мощности и жесткие целевые показатели затрат.

На практике это означает баланс между необработанной пропускной способностью (TOPS) и пропускной способностью памяти и задержкой. Современные ускорители, такие как графические процессоры, обеспечивают беспрецедентную вычислительную мощность, но их производительность ограничивается скоростью передачи данных в память и из нее. Узкое место в памяти подпитывает ускоритель, сводя на нет преимущества более высокой вычислительной мощности.

Ускорение искусственного интеллекта на периферии:решающая роль специализированных процессоров и памяти

Ограничения пропускной способности памяти стали наиболее существенным ограничителем производительности встроенного периферийного искусственного интеллекта. Даже когда модели становятся более сложными, медленный путь к памяти может помешать получению выводов в реальном времени.

Вывод — это конвейер, который начинается с необработанных данных датчиков, проходит предварительную обработку, подает информацию в квантованную нейронную сеть и заканчивается постобработкой, которая дает практические результаты. Если какое-либо звено в этой цепочке слабое — будь то шина памяти с низкой пропускной способностью или медленная процедура предварительной обработки — страдает вся система.

Более того, добавление нейронных процессоров (NPU) или ускорительных ядер к конструкциям систем на кристалле (SoC) может привести к увеличению стоимости материалов и снижению гибкости. Решение заключается в специально созданных ускорителях ASIC, которые сочетают высокую мощность TOPS/Вт с компактными интерфейсами памяти с низким энергопотреблением.

Выделенные ASIC предоставляют множество преимуществ:они оптимизированы для арифметических моделей нейронных сетей, их можно настроить для широкого спектра моделей и они обеспечивают максимально возможную энергоэффективность для периферийных развертываний, будь то автономная сельскохозяйственная машина, камера наблюдения или складской робот.

Синергия вычислений и памяти

Сопроцессоры, которые легко интегрируются с периферийными платформами, открывают возможности для глубокого обучения в режиме реального времени, сохраняя при этом низкое энергопотребление и стоимость. Они поддерживают разнообразные рабочие нагрузки:от преобразователей изображений до больших языковых моделей.

Яркой иллюстрацией этой синергии является партнерство между Hailo. Передовой ИИ-ускоритель и Micron Память DDR с низким энергопотреблением (LPDDR). Вместе они обеспечивают сбалансированное сочетание вычислительной памяти и памяти, необходимое для того, чтобы оставаться в рамках жестких ограничений по энергопотреблению и бюджету.

Технология LPDDR от Micron обеспечивает высокоскоростную передачу данных с высокой пропускной способностью без ущерба для энергоэффективности. LPDDR, используемый в смартфонах, ноутбуках, автомобильной электронике и промышленных системах управления, идеально подходит для рабочих нагрузок искусственного интеллекта, требующих быстрого ввода-вывода и низкой задержки.

LPDDR4/4X поддерживает скорость до 4,2 Гбит/с на вывод при ширине шины до x64. LPDDR5/5X от Micron увеличивает эту скорость до 9,6 Гбит/с на контакт и обеспечивает на 20 % большую энергоэффективность, чем LPDDR4X, обеспечивая пропускную способность, необходимую для самых требовательных моделей периферийного искусственного интеллекта.

Hailo, лидер в области производства микросхем искусственного интеллекта, использует это партнерство в области памяти для поставки таких процессоров, как Hailo‑10H. , который достигает 40TOPS. Его архитектура потока данных соответствует статистическим свойствам нейронных сетей, что позволяет периферийным устройствам запускать сложные модели в полном масштабе, сохраняя при этом низкие затраты.

Практическое применение решения

Ускорение искусственного интеллекта на периферии:решающая роль специализированных процессоров и памяти

SoC Hailo‑15 VPU специально разработан для интеллектуальных камер и приложений с интенсивным использованием машинного зрения. Он объединяет механизм вывода Hailo с передовыми конвейерами компьютерного зрения, обеспечивая высочайшее качество изображения и сложную видеоаналитику в одном энергоэффективном пакете.

Ускорение искусственного интеллекта на периферии:решающая роль специализированных процессоров и памяти

LPDDR4X от Micron, тщательно протестированный в автомобильной, промышленной и корпоративной среде, безупречно сочетается с графическим процессором Hailo‑15. Результатом является решение, обеспечивающее высокую пропускную способность, низкую задержку и бескомпромиссную энергоэффективность даже в экстремальных температурных диапазонах.

Выигрышная комбинация

По мере развития экосистемы разработчикам приходится переосмысливать миллионы — даже миллиарды — устройств как полностью автономные периферийные платформы искусственного интеллекта. Успех зависит от процессоров, созданных с нуля для ускорения нейронных задач, а также от маломощной и высокопроизводительной памяти, обеспечивающей бесперебойную передачу данных.

Когда процессоры и память оптимизированы вместе, периферийный искусственный интеллект может масштабироваться для новых приложений — от автономного сельскохозяйственного оборудования до видеонаблюдения в реальном времени и робототехники.

СПОНСОРНАЯ СТАТЬЯ

Прокомментируйте эту статью через X:@IoTNow_ и посетите нашу домашнюю страницу IoT Now

По данным SNS Telecom &IT, рынок частного 5G ускоряется после LTE и к 2028 году, по прогнозам, превысит 5 миллиардов доллар… Интеллектуальные системы биопроизводства:объединение проектирования, моделирования и управления в Индустр…

Интернет вещей