AlphaZero:искусственный интеллект Google покоряет шахматы и го за 24 часа

Настольные игры (например, шахматы) — широко изучаемая область в истории искусственного интеллекта. Такие пионеры, как Тьюринг, Бэббидж, фон Нейман и Шеннон, разработали теории, алгоритмы и оборудование для анализа и игры в шахматы. А за последние пару лет мы видели подобные программы, которые превосходят людей в гораздо более сложных играх, таких как го и сёги (японские шахматы).

Deepmind от Google имеет феноменальный послужной список в победах над людьми в настольных играх. В 2015 году их проект AlphaGo стал первой компьютерной программой в Го, которая обыграла человека (профессионального игрока в Го). А теперь они разработали программу AlphaGo, которая может самостоятельно научиться играть в шахматы и победить человеческую или любую другую компьютерную программу (включая Stockfish и Deep Blue) почти за 4 часа.

Обычные программы искусственного интеллекта (настольные игры) высоко оптимизированы для своей области и не могут быть распространены на другие проблемы без вмешательства человека. Программа AlphaZero, с другой стороны, может достичь сверхчеловеческой производительности в нескольких сложных областях. Не имея никаких предварительных знаний, кроме правил игры, и начиная со случайной игры, AlphaZero достигла сверхчеловеческого уровня игры в течение 24 часов в играх в шахматы, сёги и го и в каждом случае победила лучшую в мире программу. Как они это сделали и каковы точные результаты? Давайте выясним.

Методология

В октябре 2017 года Deepmind объявила, что их алгоритм AlphaGo Zero достиг сверхчеловеческой производительности с использованием нейронной сети глубокой свертки и обучен исключительно с помощью обучения с подкреплением. Инженеры использовали тот же подход для создания общего алгоритма под названием AlphaZero, который заменяет специфичные для конкретной предметной области дополнения и полученные вручную знания, используемые в обычных игровых алгоритмах, на глубокие нейронные сети. и алгоритм обучения с подкреплением tabula rasa .

AlphaZero использует MCTS общего назначения. (Поиск по дереву Монте-Карло), а не альфа-бета-поиск. Он изучает оценки стоимости и вероятности хода, играя против самого себя, а затем использует полученную информацию для управления поиском.

Чем он отличается от алгоритма AlphaGo Zero

Алгоритм AlphaGo Zero оценивает и оптимизирует вероятность выигрыша, принимая во внимание двоичные результаты выигрыша или проигрыша. AlphaZero, с другой стороны, оценивает и оптимизирует ожидаемый результат, учитывая ничью или другие потенциальные результаты.

Правила игры Го инвариантны к отражению и вращению. Этот факт очень хорошо используется как в AlphaGo, так и в его расширенной версии AlphaGo Zero двумя способами.

Дополните данные обучения, создав 8 симметрий для каждой позиции.
Преобразование положения посредством случайного выбора отражения или поворота перед вычислением нейронной сетью в алгоритме MCTS, так что вычисление усредняется по различным смещениям.

В случае с шахматами и сёги правила асимметричны, и вообще нельзя предполагать симметрию. В AlphaZero данные обучения не дополняются и положение доски не изменяется во время MCTS.

AlphaGo Zero использует лучшего игрока из предыдущих итераций для создания игры для самостоятельной игры. После завершения каждой итерации результаты нового игрока оцениваются по сравнению с лучшим игроком. Если выигрыш выигран с разницей в 55 процентов, лучший игрок заменяется, а новый игрок генерирует игры для самостоятельной игры. Однако AlphaZero поддерживает единую нейронную сеть (постоянно обновляемую), а не останавливается до завершения итерации.

Оптимизация и обучение AlphaZero

AlphaZero использует гиперпараметры для всех игр без какой-либо оптимизации для конкретной игры. Чтобы обеспечить исследование, интегрирован коэффициент шума, который пропорционально масштабируется количеству законных ходов для этого типа игры.

Как и в AlphaGo Zero, состояние доски кодируется пространственными плоскостями, а действия кодируются либо пространственными плоскостями, либо плоским вектором, в зависимости от основных правил каждой игры.

Разработчики применили AlphaZero к шахматам, сёги и го. Для всех трёх игр использовалась одна и та же сетевая архитектура, гиперпараметры и настройки. Для каждой игры обучается отдельный экземпляр алгоритма. Начиная со случайно инициализированных параметров, обучение проводилось в течение 700 000 шагов с использованием 5 000 тензорных процессоров первого поколения для создания игр для самостоятельной игры и 64 тензорных процессоров второго поколения для обучения нейронных сетей.

Ссылка: arxiv.org

Результаты

Как видно на рисунке, AlphaZero превзошла Stockfish после 300 000 шагов (через 4 часа) в шахматах; он обогнал Элмо на 110 000 шагов (за 2 часа); и он превзошел AlphaGo Lee на 165 000 шагов (после 8 часов).

Полностью обученные экземпляры AlphaZero (обученные в течение 3 дней) были протестированы против AlphaGo Zero, Elmo и Stockfish, сыграв 100 матчей с нормой времени 1 минута на ход. Результаты оказались весьма впечатляющими (упомянуты в таблице ниже).

AlphaGo Zero и AlphaZero использовали одну машину с 4 тензорными процессорами, Elmo и Stockfish показали наилучшие результаты, используя 64 потока и размер хеша 1 ГБ. AlphaZero победила их всех, проиграв 8 игр Элмо и ни одной — Stockfish.

Разработчики Google также исследовали производительность поиска MCTS в AlphaZero. Он ищет 40 000 позиций в секунду в сёги и 80 000 в шахматах, по сравнению с 35 000 000 для Elmo и 70 000 000 для Stockfish. AlphaZero использует свою глубокую нейронную сеть, чтобы более избирательно фокусироваться на наиболее перспективных вариантах или, можно сказать, использовать более человеческий подход.

Читайте:15 лучших шахматных движков на основе их рейтингов

Хотя AlphaZero все еще находится в зачаточном состоянии, он представляет собой важный шаг на пути к своей цели. Если аналогичные подходы можно применить к другим структурным проблемам, таким как сворачивание белков, открытие новых материалов или снижение потребления энергии, результаты могут положительно повлиять на наше будущее.

Представлен рекордный квантовый симулятор с 53 кубитами Япония запускает прототип квантового компьютера в 100 раз быстрее, чем нынешние суперкомпьютеры

Промышленные технологии

Производственный процесс

3D печать

Система управления автоматикой

Промышленные технологии