Текущий фокус на аппаратном обеспечении ИИ неверен, говорит пионер ИИ
«Очень сложно добиться успеха с экзотическим оборудованием», - сказал аудитории главный специалист по искусственному интеллекту в Facebook Янн Ле Кун в своем программном выступлении на NeurIPS. Обращаясь к всемирному собранию экспертов по искусственному интеллекту в Ванкувере, Канада, в декабре, Ле Кун сделал обзор истории специализированных вычислительных чипов для обработки рабочих нагрузок нейронных сетей, дал представление о том, над чем работает Facebook, и сделал некоторые прогнозы на будущее глубокого интеллекта. обучающее оборудование.
Древняя история
Ле Кун - известный провидец в области искусственного интеллекта, он был в авангарде исследований нейронных сетей в 1980-х и 1990-х годах. Как исследователь Bell Labs в конце 1980-х, он работал с первыми типами специализированных нейросетевых процессоров, которые состояли из массивов резисторов и использовались для умножения матриц. Когда в конце 1990-х - начале 2000-х нейронные сети вышли из моды, Ле Кун был одним из немногих ученых, которые продолжали работать в этой области. В своем выступлении он поделился некоторыми вещами, которые он узнал об оборудовании для глубокого обучения за это время.
Главный специалист по искусственному интеллекту в Facebook Янн Ле Кун
Во-первых, инструменты действительно важны. Что убило нейронные сети (временно) в 90-х, так это то, что лишь у нескольких человек, включая Ле Куна, были инструменты для их обучения. Ле Кун и его коллеги потратили много времени на создание того, что теперь будет называться фреймворком глубокого обучения:гибкое программное обеспечение, которое интерпретирует интерфейсные языки, позволяя исследователям обучаться и экспериментировать с нейронными сетями. Работа исследователей выдвинула идею о том, что системы глубокого обучения могут быть собраны из дифференцируемых модулей, а затем автоматически дифференцированы. В то время это было новшеством, но сейчас это обычная практика.
По его словам, правильные инструменты дали команде Ле Куна «суперсилу», а также стали важным фактором в получении воспроизводимых результатов. «Хороших результатов недостаточно… даже если вы добьетесь хороших результатов, люди все равно будут настроены скептически», - сказал он. «Обеспечение воспроизводимости этих результатов почти так же важно, как и собственное получение результатов».
«Наряду с правильными инструментами производительность оборудования имеет решающее значение для исследовательского сообщества, поскольку ограничения оборудования могут влиять на целые направления исследований», - сказал Ле Кун.
«[То, что] аппаратное сообщество строит для исследований или для обучения, на самом деле влияет на то, о чем думают люди», - сказал он. «От целых идей можно отказаться только потому, что оборудование недостаточно мощное, даже если это были хорошие идеи».
По его словам, ответ может заключаться не в новых и новаторских формах вычислений, отметив, что многие экзотические производственные технологии не смогли развиваться, когда они не вписывались в существующую вычислительную среду.
Одно из разочарований Ле Куна современными аппаратными решениями для ускорения ИИ заключается в том, что большинство из них построено для матричного умножения, а не для свертки, которая является ключевой математической операцией, используемой в большинстве нейронных сетей для обработки изображений и распознавания речи сегодня. «[Преобладающий подход] будет становиться все более и более неправильным в том смысле, что у нас будут все большие и большие требования к мощности», - сказал он. «Если мы создадим типичное оборудование, в котором 95% циклов тратится на выполнение сверток, мы не будем делать хорошую работу».
Убийца
В будущем, как описал Ле Кун, сверточные нейронные сети (CNN) будут использоваться во всем:от игрушек до пылесосов и медицинского оборудования. Но убийственное приложение - единственное приложение, которое докажет ценность ИИ для потребительских устройств - это гарнитура дополненной реальности.
Facebook в настоящее время работает над оборудованием для очков AR. Это огромная проблема с оборудованием из-за большого объема обработки, требующейся при малой задержке и питании только от батарей. «Когда вы двигаетесь, наложенные объекты в мире должны двигаться вместе с миром, а не вместе с вами, а для этого требуется довольно много вычислений», - сказал Ле Кун.
Facebook представляет очки AR, которые управляются голосом и взаимодействуют с помощью жестов посредством отслеживания рук в реальном времени. Хотя эти функции возможны сегодня, они выходят за рамки того, что мы можем сделать с точки зрения энергопотребления, производительности и форм-фактора. Ле Кун отметил несколько «хитростей», которые могут помочь.
Например, при запуске одной и той же нейронной сети для каждого кадра видео - возможно, для обнаружения объектов - не имеет значения, неверен ли результат для одного кадра, потому что мы можем посмотреть кадры до и после него и проверить согласованность .
«Итак, вы можете представить себе использование несовершенного оборудования с крайне низким энергопотреблением; Другими словами, вы можете время от времени [терпеть] перевороты битов », - сказал Ле Кун. «Это легко сделать, снизив напряжение источника питания».
Нейросетевые разработки
Быстрая эволюция нейронных сетей - серьезная проблема для проектирования оборудования. Например, динамические сети - с памятью, которую можно обучить изучению последовательных или изменяющихся во времени шаблонов - становятся все более популярными, особенно для обработки естественного языка (НЛП). Однако они ведут себя иначе, чем многие предположения, сделанные текущим оборудованием. Граф вычислений нельзя оптимизировать во время компиляции; это должно быть сделано во время выполнения. Также довольно сложно реализовать пакетную обработку - популярный метод, с помощью которого для повышения производительности одновременно обрабатывается более одного образца.
«Все наиболее распространенное оборудование, имеющееся в нашем распоряжении, предполагает, что вы можете выполнять пакетную обработку, потому что, если у вас есть пакет с более чем одной выборкой, вы можете превратить каждую операцию в умножение матриц, включая свертки и полностью связанные сети», - сказал Ле Кун. «[Это] задача для сообщества разработчиков оборудования - создать архитектуры, которые не теряют в производительности, если размер пакета =1. Это, конечно, относится к обучению; оптимальный размер пакета для обучения - 1. Мы используем больше, потому что наше оборудование заставляет нас это делать ».
Самостоятельное обучение
Еще одна проблема для оборудования заключается в том, что парадигмы обучения, которые мы используем в настоящее время, изменятся, и это произойдет в скором времени, по словам Ле Куна.
«Сейчас [делается] много работы, чтобы заставить машины учиться больше, как люди и животные, а люди и животные не учатся посредством обучения с учителем или даже обучения с подкреплением», - сказал он. «Они учатся с помощью того, что я называю обучением под самоконтролем, то есть в основном путем наблюдения».
Ле Кун описал общий подход к обучению с самоконтролем, при котором часть выборки замаскирована, а система обучена предсказывать содержание замаскированной части на основе доступной части выборки. Обычно это используется с изображениями, при которых часть изображения удаляется, и с текстом, при котором одно или несколько слов не отображаются. К настоящему времени работа показала, что это особенно эффективно для НЛП; Тип используемых сетей, трансформаторы, имеют этап обучения, в котором используется самостоятельное обучение.
Проблема с точки зрения оборудования заключается в том, что трансформаторные сети для NLP могут быть огромными:самые большие из них сегодня имеют 5 миллиардов параметров и быстро растут, - сказал Ле Кун. Сети настолько велики, что они не помещаются в память графического процессора, и их приходится разбивать на части.
«Самостоятельное обучение - это будущее, в этом нет никаких сомнений», - сказал он. «Но это проблема для аппаратного сообщества, потому что требования к памяти абсолютно гигантские. Поскольку эти системы обучаются с использованием немаркированных данных, которых много, мы можем обучать очень большие сети на основе данных. Требования к оборудованию для окончательной системы будут намного больше, чем они есть сейчас. Гонка за оборудованием не остановится в ближайшее время ».
Тенденции в области оборудования
Новые идеи в области аппаратного обеспечения, в которых используются такие методы, как аналоговые вычисления, спинтроника и оптические системы, находятся в поле зрения Ле Куна. Он назвал трудности связи - проблемы с преобразованием сигналов между новым оборудованием и остальной необходимой вычислительной инфраструктурой - как большой недостаток. По его словам, аналоговые реализации полагаются на чрезвычайно редкое количество активаций, чтобы получить преимущества в энергопотреблении, и сомневался, всегда ли это будет возможно.
Ле Кун назвал себя «скептически настроенным» по отношению к новым футуристическим подходам, таким как использование нейронных сетей и нейроморфных вычислений в целом. По его словам, необходимо доказать, что алгоритмы работают, прежде чем создавать для них микросхемы.
«Осуществлять проектирование таких систем с помощью оборудования в надежде, что кто-то предложит алгоритм, который будет использовать это оборудование, вероятно, не лучшая идея», - сказал Ле Кун.
Хронология обработки нейронной сети
Конец 1980-х :Матрицы резисторов используются для умножения матриц. К концу 1980-х годов массивы обзавелись усилителями и преобразователями на их основе, но по сегодняшним меркам они все еще довольно примитивны. Ограничением является скорость передачи данных в чип.
1991 :Создан первый чип, предназначенный для сверточных нейронных сетей (CNN). Чип способен выполнять 320 гигагаопераций в секунду (GOPS) с двоичными данными с цифровыми регистрами сдвига, которые минимизируют объем внешнего трафика, необходимого для выполнения свертки, тем самым ускоряя работу. Чип не находит применения за пределами академических кругов.
1992 :ANNA, аналоговый чип ALU нейронной сети, дебютирует. Разработанная для CNN с 6-битным весом и 3-битной активацией, ANNA содержит 180 000 транзисторов в КМОП-матрице 0,9 мкм. Он используется для оптического распознавания символов рукописного текста.
1996 :DIANA, цифровая версия ANNA, выпущена. Но из-за того, что к середине 1990-х нейронные сети потеряли популярность, DIANA в конечном итоге была перепрофилирована для обработки сигналов в вышках сотовой связи.
2009–2010 :Исследователи демонстрируют аппаратный ускоритель нейронной сети на ПЛИС (Xilinx Virtex 6). Он запускает демонстрацию семантической сегментации для автоматизированного вождения, и он способен выполнять 150 GOPS при мощности около 0,5 Вт. Команда из Университета Пердью пытается создать ASIC на основе этой работы, но проект оказывается безуспешным. (Источник:Ян Ле Кун / Facebook)
Встроенный