Microsoft представляет AttnGAN:искусственный интеллект, который превращает текстовые описания в фотореалистичные изображения
- AttnGAN от Microsoft может генерировать высококачественные изображения из обычного текста и подписей.
- В системе используется двухмодельная архитектура:генератор, создающий изображение, и дискриминатор, оценивающий его реалистичность.
- Он добавляет контекстуально значимые детали помимо подсказки, демонстрируя внутренний уровень «воображения».
- Потенциальные будущие приложения включают полностью автоматизированное создание анимации с использованием сценариев.
В то время как предыдущие усилия позволили улучшить синтез текста в изображение, Microsoft AttnGAN продвигается вперед в этой области, генерируя фотореалистичные изображения из кратких текстовых подсказок, используя обширную библиотеку помеченных изображений.
Разработанный в Microsoft Research, AttnGAN анализирует отдельные слова в подсказке, помогая создавать изображения. По словам команды, такой подход обеспечивает примерно в три раза более высокое качество изображения, чем предыдущие современные модели.
Творческий процесс бота
Представьте, что вас просят нарисовать синюю птицу с красными крыльями и коротким клювом. Вы начнете с грубого контура, затем заполните его цветами и деталями. AttnGAN следует той же логике, анализируя каждое слово и создавая детальное и связное изображение.
Бот может визуализировать любой объект — от гаджетов до дикой природы — и часто добавляет контекстуально подходящие фоновые элементы, которые не были упомянуты явно, демонстрируя свою способность к «воображаемым» деталям.
Изображения синтезируются попиксельно с нуля, что позволяет модели создавать сцены, которых может не быть в реальности. Эта генеративная задача по своей сути более сложна, чем просто маркировка существующей фотографии.
Как AttnGAN генерирует изображения
- Генератор: Создает изображения на основе текстового описания.
- Дискриминатор: Оценивает подлинность созданного изображения по описанию. ол>
Обе модели обучаются совместно, что позволяет генератору учиться на обратной связи дискриминатора и достигать все более высокой точности.
Обучение включало тысячи наборов данных парных подписей к фотографиям, обучая AttnGAN сопоставлять определенные слова с визуальными шаблонами. Например, слово «слон» заставляет модель создавать изображение, соответствующее внешнему виду типичного слона.
Система разбивает сложные предложения на отдельные слова, совмещая каждое слово с областью изображения. Во время обучения он также учится «искусственному здравому смыслу», позволяющему заполнять недостающие детали, обеспечивая реалистичность композиции.
В этом примере в подсказке упоминается только птица. AttnGAN разумно поместил птицу на ветку — общий контекст реального мира, полученный на основе обучающих данных. Это демонстрирует способность модели применять контекстуальные знания.
arXiv:1711.10485 – Исследовательский документ Microsoft с подробным описанием AttnGAN.
Когда ее попросили изобразить двухэтажный автобус, плывущий по озеру, модель создала размытую, но узнаваемо смешанную сцену, подчеркивая ее борьбу за примирение конфликтующих элементов в заставке.
Производительность и варианты использования
AttnGAN превосходит предыдущие тесты, достигнув улучшения на 170,25 % по сравнению с исходным показателем набора данных COCO и на 14,14 % по сравнению с набором данных CUB.
Потенциальные приложения включают помощников по созданию эскизов для дизайнеров интерьеров, обработку фотографий с помощью голоса и, при дальнейшем развитии, полностью автоматизированное создание анимации на основе сценариев.
Другие генераторы искусственных изображений
Microsoft не одинока в объединении искусства и искусственного интеллекта. Компания DeepDream от Google создала психоделические изображения, представленные в 2016 году, а ее искусственный интеллект создал синтез музыки и речи, например Tacotron2. Facebook и Nvidia также выпустили генеративные модели автомобилей, кораблей, животных и даже синтетические аватары знаменитостей.
Узнайте об искусственном интеллекте Google с человеческим голосом Tacotron2 .
Промышленные технологии
- Три способа, которыми интернет-магазины могут снизить стоимость доставки для покупателей
- Что такое MIL-STD-130? Узнайте о спецификациях, маркировке и требованиях военного стандарта 130
- Антенна NFC:что это такое и как это работает
- 9 шагов к созданию лучшей программы профилактического обслуживания
- Схема аварийного освещения:подробное руководство
- Обеспечение качества и изготовление металлоконструкций
- Как подключить термостат одновременного нагрева воды 120 В?
- Спросите эксперта:профессор Технологического института Джорджии о будущем машинной обработки
- Возможности гибкого и жесткого изгиба при проектировании печатных плат
- Электротехнические проекты E3.series 2021 - Автоматическая регулировка щита