Важность проверки надежности в процессорах AI / ML
С внедрением искусственного интеллекта и машинного обучения в самых разных приложениях проверка надежности процессоров AI / ML становится критически важной, поскольку сбои могут иметь серьезные последствия. за достоверность и легитимность технологии AI / ML.
В последние несколько лет число компаний, использующих искусственный интеллект (AI) и машинное обучение (ML) в широком спектре приложений, быстро увеличилось. Фактически, исследования показывают, что 2019 год стал рекордным для предприятий, внедривших ИИ и машинное обучение, и что эти компании считают эти две функции наиболее необходимыми для достижения своих бизнес-стратегий и целей. Это растущее распространение связано в первую очередь с улучшением алгоритмов, достижениями в дизайне оборудования и увеличением объема данных, создаваемых оцифровкой информации.
Однако, чтобы поддерживать и поддерживать рост AI / ML, компании должны продолжать доказывать рынку, что результатам, полученным с помощью технологий AI / ML, можно доверять. Это доверие начинается с проектирования и проверки интегральных схем (ИС), которые лежат в основе функций AI / ML.
Классификация AI и ML
Обработку ИИ можно в целом разделить на центры обработки данных / облачные или встроенные, в зависимости от того, выполняется ли она на сайте облака / центра обработки данных или на стороне конечного пользователя (путем встраивания выделенного чипа ИИ или механизма сопроцессора ИИ с система на кристалле (SOC) внутри устройств или на периферии). Edge в этом контексте относится к локальному серверу или машине, которая находится ближе к устройству, чем центр обработки данных или облако.
С точки зрения целевого приложения граничное устройство можно разделить на обучение (ML) или логический вывод. Исторически часть обучения выполнялась на облачном сайте, а часть вывода обрабатывалась либо в облаке, либо на граничном устройстве. С разработкой новых высокопроизводительных решений для периферийных вычислений мы наблюдаем смену парадигмы, поскольку все больше тренировок переносится на периферию.
Дизайн микросхем AI / ML
Микросхемы AI / ML в решениях для периферийных вычислений или встроенные в локальные устройства предназначены для использования в определенных средах, таких как предприятия, автомобилестроение, промышленность, здравоохранение, Интернет вещей (IoT) и т. Д. Некоторые из этих приложений являются критически важными, то есть любой сбой может привести к катастрофическим последствиям в реальном мире. Например, рассмотрим усовершенствованные системы помощи водителю (ADAS), используемые в автомобилях. Если процессор ADAS испытывает задержку, превышающую заданную, при чтении данных с датчика и составлении вывода, это может вызвать коллизию.
Микросхемы, используемые в приложениях AI / ML, характеризуются большими вычислительными блоками параллельной обработки, высокой рассеиваемой мощностью и сложной схемой, которая может обеспечить максимальную производительность в рамках строгого бюджета мощности. В то время как некоторые компании используют традиционные центральные процессоры (ЦП) для задач, связанных с ИИ, некоторые отраслевые эксперты утверждают, что использование ЦП не очень эффективно из-за распределенной природы современных алгоритмов ИИ. Эти алгоритмы действительно хорошо отображаются в решениях для параллельных вычислений, например, в графических процессорах (GPU). Из-за своей реконфигурируемой природы программируемые вентильные матрицы (ПЛИС) также вызвали интерес для использования в качестве ускорителей для микросхем ИИ.
ASIC в приложениях AI / ML
В целом, растет консенсус в отношении того, что сложные проблемы ИИ и машинного обучения не поддаются универсальному дизайнерскому решению. Чтобы решить эту проблему, многие компании разрабатывают свои собственные ИС для конкретных приложений (ASIC), которые они оптимизируют вместе с программным стеком, чтобы обеспечить максимальную отдачу для данного приложения AI / ML (рисунок 1).
Рисунок 1. Блок-схема дизайна микросхемы ASIC AI.
Эти компании заявляют о различных преимуществах использования этих ASIC, таких как лучшая производительность, большее количество операций за цикл, более простой и более детерминированный дизайн по сравнению с CPU или GPU, экономия площади (за счет исключения сложных конструкций и механизмов, используемых в ЦП), более низкое энергопотребление и более быстрое время разработки.
Гетерогенные вычисления
Также увеличилось использование гетерогенных вычислений - систем, которые используют комбинацию различных типов вычислительных ядер в попытке объединить лучшее из различных возможностей. Например, в системе, в которой используется комбинация ЦП и ГП, гетерогенные вычисления могут быть полезны за счет передачи параллельных задач ГП, в то время как ЦП обрабатывает такие задачи, как управление процессами, которое по своей природе является последовательным.
Один общий аспект между различными классами процессоров AI заключается в том, что они оптимизированы для обеспечения высокой производительности и малой задержки, часто предлагая множители тераопераций в секунду (TOPS). Чтобы получить преимущество на этом высококонкурентном рынке, энергоэффективность (измеряемая производительностью на ватт) стала столь же важной, как и исходная пропускная способность. Энергоэффективность часто достигается за счет использования комбинации одного или нескольких методов проектирования, таких как стробирование мощности и тактовой частоты, динамическое масштабирование напряжения и частоты, схемы с несколькими Vt и т. Д.
Обеспечение надежной конструкции и проверки этих сложных ИС имеет решающее значение, поскольку сбои в схемах в этих микросхемах могут иметь серьезные последствия для достоверности технологии и легитимности результатов, которые они предоставляют.
Проверка надежности ИС AI / ML
Проверка надежности микросхем AI / ML представляет собой серьезную проблему из-за размера и сложности этих конструкций, а количество транзисторов составляет порядка миллионов, а иногда и миллиардов. Например, графический процессор NVIDIA TESLA P100 может похвастаться ошеломляющим числом транзисторов - 15,3 миллиарда, в то время как Intel Loihi IC содержит 128 нейроморфных ядер и 3 ядра X-86 с 2,07 миллиардами транзисторов. А поскольку требования к надежности для каждой среды использования различны, разработчики должны понимать применимый набор требований и обеспечивать их выполнение путем тестирования своих проектов на соответствие четко определенным спецификациям требований к надежности.
Методы проверки надежности конструкции
Традиционно дизайнеры использовали различные методы для обеспечения надежности конструкции, в том числе методы ручного контроля и моделирования, полагаясь в основном на знания и опыт своей проектной группы. Однако ручная проверка не является возможным подходом для этих больших и сложных микросхем AI / ML, поскольку она требует времени и подвержена человеческим ошибкам, а также практически невозможно обеспечить достаточный охват. Традиционные подходы к моделированию, подобные SPICE, также неприменимы для этих микросхем из-за их недостаточной масштабируемости для больших проектов.
Чтобы преодолеть проблемы с емкостью и временем выполнения, многие группы разработчиков вручную разделяют проект и независимо проверяют различные блоки интеллектуальной собственности (IP) с помощью моделирования или традиционных инструментов. Однако существует множество взаимодействий между различными IP-блоками в проекте (например, между различными вычислительными ядрами и шиной, каналом связи или памятью с высокой пропускной способностью), и взаимодействия между интерфейсами часто не учитываются в процессе ручного разделения. Традиционные инструменты проверки IC борются с чрезмерно длительным временем работы для проверки этих сложных проектов, часто требующим дней для проверки крупных проектов и потенциально задерживающим время выхода на рынок.
Недостатки каждого из этих процессов подчеркивают необходимость комплексного решения для автоматизации электронного проектирования (EDA), которое может одновременно использовать вычислительную мощность нескольких процессоров и устройств. Благодаря автоматизированной, квалифицированной проверке надежности группы проектирования и проверки продуктов могут быстрее объединиться для проверки надежности и исправлений, сокращая общее время обработки (TAT) с дней до часов.
Платформа надежности Calibre PERC
За последние несколько лет появился новый класс инструментов проверки надежности ИС, которые решают эти проблемы процесса. Такие инструменты, как платформа обеспечения надежности Caliber ™ PERC ™, используют богатый набор функций и функций, чтобы обеспечить быструю, квалифицированную литейную проверку надежности. Например, платформа надежности Caliber PERC использует преимущества многопоточного (MT) и многопоточного гибкого (MTflex) масштабирования платформы Caliber, которое распределяет задачи между несколькими процессорами и / или удаленными машинами для обеспечения быстрого и эффективного выполнения процессов проверки. на больших и сложных микросхемах, таких как AI / ML IC (рис. 2).
Рисунок 2. Многопоточное гибкое масштабирование распределяет задачи по нескольким пультам для ускорения общего выполнения.
Помимо этих основных, но важных механизмов, платформа обеспечения надежности Caliber PERC обеспечивает инновационную обработку, которая объединяет информацию о списках соединений и компоновке из проекта для быстрой и точной оценки широкого спектра потенциальных проблем с надежностью. Этот подход к расширенной проверке надежности, позволяющий разработчикам эффективно и уверенно снижать подверженность проекта сбоям в работе и эксплуатации, помогает поддерживать постоянный рост и внедрение надежных технологий искусственного интеллекта / машинного обучения.
Надежность на уровне транзисторов
Большинство проектов ML / AI используют несколько доменов питания для различных целей, таких как обеспечение чистого, бесшумного источника питания для аналогового IP, позволяя блокировать или отключать питание в определенной области микросхемы, масштабирование Независимое повышение или понижение напряжения для выбранных IP-адресов или удовлетворение высоких требований по току с помощью нескольких регуляторов напряжения. Например, процессор Intel Skylake содержит девять основных доменов питания.
Реализация проекта с несколькими областями мощности требует использования специальных элементов схемы, таких как регуляторы напряжения, переключатели верхнего и нижнего колонтитула, переключатели уровня, изолирующие ячейки и ячейки сохранения состояния. Эти элементы представляют собой уникальный набор проблем для проверки надежности. Например, разработчики должны убедиться, что на каждом интерфейсе домена используются соответствующие переключатели уровня или ячейки изоляции и что они правильно подключены (рисунок 3).
Рисунок 3. Использование специальных элементов (таких как переключатели уровня, изолирующие ячейки и переключатели стробирования мощности) внутри маломощной конструкции требует специальных методов проверки.
Они также должны убедиться, что они используют соответствующие типы устройств в различных областях мощности, такие как устройства из толстого оксида для подачи высокого напряжения. Проверка этих условий требует очень специфических знаний и процессов.
Техника единого формата мощности
Унифицированный формат мощности (UPF) - широко используемый метод, который позволяет разработчикам использовать согласованное описание намерения мощности на протяжении всего процесса проектирования. Однако традиционные потоки проверки на основе UPF используются для проверки IP-адресов на уровне логики или затвора, но у них отсутствует возможность проверки окончательных реализаций на уровне транзисторов, в частности, соединений колодцев и массивов.
Платформа обеспечения надежности Caliber PERC может считывать файл UPF для проектирования и использовать информацию UPF для выполнения различных анализов на уровне транзисторов, таких как определение отсутствующих или неправильно подключенных переключателей уровня, условий электрического перенапряжения (EOS), плавающих скважин и многого другого. . Используя платформу надежности Caliber PERC в сочетании с данными UPF, разработчики могут программно оценивать взаимодействие устройств, чтобы обеспечить повторяемую и детерминированную проверку надежности.
Надежность микросхем AI / ML на протяжении всего срока службы
Безопасность эксплуатации является критическим аспектом для большинства микросхем AI / ML, которые, как ожидается, будут работать в течение всего расчетного срока службы без каких-либо сбоев или сбоев. Некоторые проблемы электрической надежности, такие как нестабильность температуры смещения (BTI) и EOS, могут не проявляться как немедленные отказы, но могут вызвать быстрое ухудшение характеристик и старение с течением времени, если их не исправить перед производством. Проверка надежности может помочь обеспечить надежную работу в течение длительного периода путем проверки различных проблем, таких как сопротивление точка-точка, положительный и отрицательный BTI, плотность тока и электромиграция (EM), все из которых могут привести к снижению производительности или катастрофическому отказу.
Рассмотрим случай, когда устройство с высоковольтной областью управляет устройством из тонкого оксида, которое не рассчитано на работу с высоким напряжением. Во время проектирования дизайнеру не удается вставить переключатель высокого-низкого уровня. Несмотря на то, что сначала это условие не обязательно повлияет на функциональность, оно со временем вызовет нагрузку на тонкооксидное устройство, что в конечном итоге приведет к отказу. Фактическое время отказа зависит от значения напряжения, времени, в течение которого питание включено, а не выключено, и параметров процесса.
ЭМ (миграция атомов в проводнике из-за электрического тока) - еще одна важная проблема, которая влияет на долговременную надежность межсоединений, используемых в ИС AI / ML. Эта миграция вызывает образование пустот и бугорков на проводах. Пустоты вызывают значительное увеличение сопротивления, в то время как бугорки могут создавать короткие замыкания, что приводит к сбоям в цепи. Эффект ЭМ зависит от многих факторов, таких как длина и ширина металлической линии, материал межсоединения, рабочая температура, однонаправленные или двунаправленные токи и т. Д.
Литейные предприятия предоставляют проектным компаниям ограничения по электромагнитному излучению на максимальный ток, с которым могут справиться провода, в зависимости от предполагаемых условий использования продукта. Например, пределы электромагнитного излучения для ИС, используемой в мобильном телефоне, будут значительно ниже, чем для ИС, используемой в промышленной среде. В некоторых компаниях есть специальные группы, которые активно взаимодействуют с литейным производством для определения соответствующих спецификаций, создания тестовых структур и проведения аттестации продукции на устойчивость к электромагнитным помехам. Очевидно, что эти ограничения труднее определить для продукта, который можно использовать в нескольких средах, поэтому разработчики обычно проектируют эти микросхемы для наихудших условий эксплуатации. Во всех случаях крайне важно протестировать конструкцию на соответствие установленным литейным заводом пределам электромагнитного излучения и подтвердить, что конструкция может выдерживать электромагнитные воздействия.
Неспособность выявить и исправить различные проблемы с надежностью на этапе предварительной проверки кремния может привести к широкому спектру воздействий, включая многократное вращение ленты, задержки вывода продукта на рынок, потерю доверия клиентов, значительную негативную реакцию рынка, отзыв продукта и даже катастрофические последствия, такие как телесные повреждения или смерть. Выявление и устранение нарушений надежности до заклейки ленты сводит к минимуму вероятность неисправностей или отказов цепи, которые могут оказаться дорогостоящими.
Анализ и управление надежностью AI / ML имеет решающее значение
Недавний успех и расширение функциональности AI / ML в значительной степени основано на достижениях в полупроводниковой технологии. По мере разработки этих новых проектов сообщество разработчиков оборудования должно осознавать необходимость анализа и управления аспектами надежности проекта, такими как целевая среда, условия эксплуатации, критерии надежности и т. Д. Мощные инструменты проверки надежности EDA, разработанные для решения Специфические проблемы надежности и требования, предъявляемые к этим большим и сложным микросхемам, могут помочь при проектировании домов гарантировать, что их продукты будут работать так, как задумано, в течение всего расчетного срока службы. В свою очередь, это означает уверенность в результатах, достигнутых за счет использования приложений AI / ML на более широких рынках, что поддерживает их дальнейшее использование и расширение.
Отраслевые статьи - это форма контента, позволяющая отраслевым партнерам делиться полезными новостями, сообщениями и технологиями с читателями All About Circuits, что не подходит для редакционного контента. Все отраслевые статьи подлежат строгим редакционным правилам с целью предлагать читателям полезные новости, технические знания или истории. Точки зрения и мнения, выраженные в отраслевых статьях, принадлежат партнеру, а не обязательно All About Circuits или ее авторам.
Интернет вещей
- Важность электробезопасности
- Какова роль инженера по надежности?
- Ключ № 1 к успеху надежности
- Важность основных компетенций
- Нетехническая сторона надежности
- Важность трендов в надежности электродвигателей
- Важность регулярного технического обслуживания оборудования
- Важность быстрой обработки в производстве
- Важность анализа первопричин
- Важность планирования на случай непредвиденных обстоятельств