Промышленное производство
Промышленный Интернет вещей | Промышленные материалы | Техническое обслуживание и ремонт оборудования | Промышленное программирование |
home  MfgRobots >> Промышленное производство >  >> Manufacturing Technology >> Промышленные технологии

Microsoft представляет AttnGAN:искусственный интеллект, который превращает текстовые описания в фотореалистичные изображения

В то время как предыдущие усилия позволили улучшить синтез текста в изображение, Microsoft AttnGAN продвигается вперед в этой области, генерируя фотореалистичные изображения из кратких текстовых подсказок, используя обширную библиотеку помеченных изображений.

Разработанный в Microsoft Research, AttnGAN анализирует отдельные слова в подсказке, помогая создавать изображения. По словам команды, такой подход обеспечивает примерно в три раза более высокое качество изображения, чем предыдущие современные модели.

Творческий процесс бота

Представьте, что вас просят нарисовать синюю птицу с красными крыльями и коротким клювом. Вы начнете с грубого контура, затем заполните его цветами и деталями. AttnGAN следует той же логике, анализируя каждое слово и создавая детальное и связное изображение.

Бот может визуализировать любой объект — от гаджетов до дикой природы — и часто добавляет контекстуально подходящие фоновые элементы, которые не были упомянуты явно, демонстрируя свою способность к «воображаемым» деталям.

Изображения синтезируются попиксельно с нуля, что позволяет модели создавать сцены, которых может не быть в реальности. Эта генеративная задача по своей сути более сложна, чем просто маркировка существующей фотографии.

Как AttnGAN генерирует изображения

  1. Генератор: Создает изображения на основе текстового описания.
  2. Дискриминатор: Оценивает подлинность созданного изображения по описанию.
  3. Обе модели обучаются совместно, что позволяет генератору учиться на обратной связи дискриминатора и достигать все более высокой точности.

    Обучение включало тысячи наборов данных парных подписей к фотографиям, обучая AttnGAN сопоставлять определенные слова с визуальными шаблонами. Например, слово «слон» заставляет модель создавать изображение, соответствующее внешнему виду типичного слона.

    Система разбивает сложные предложения на отдельные слова, совмещая каждое слово с областью изображения. Во время обучения он также учится «искусственному здравому смыслу», позволяющему заполнять недостающие детали, обеспечивая реалистичность композиции.

    Microsoft представляет AttnGAN:искусственный интеллект, который превращает текстовые описания в фотореалистичные изображения

    В этом примере в подсказке упоминается только птица. AttnGAN разумно поместил птицу на ветку — общий контекст реального мира, полученный на основе обучающих данных. Это демонстрирует способность модели применять контекстуальные знания.

    arXiv:1711.10485 – Исследовательский документ Microsoft с подробным описанием AttnGAN.

    Microsoft представляет AttnGAN:искусственный интеллект, который превращает текстовые описания в фотореалистичные изображения

    Когда ее попросили изобразить двухэтажный автобус, плывущий по озеру, модель создала размытую, но узнаваемо смешанную сцену, подчеркивая ее борьбу за примирение конфликтующих элементов в заставке.

    Производительность и варианты использования

    AttnGAN превосходит предыдущие тесты, достигнув улучшения на 170,25 % по сравнению с исходным показателем набора данных COCO и на 14,14 % по сравнению с набором данных CUB.

    Потенциальные приложения включают помощников по созданию эскизов для дизайнеров интерьеров, обработку фотографий с помощью голоса и, при дальнейшем развитии, полностью автоматизированное создание анимации на основе сценариев.

    Другие генераторы искусственных изображений

    Microsoft не одинока в объединении искусства и искусственного интеллекта. Компания DeepDream от Google создала психоделические изображения, представленные в 2016 году, а ее искусственный интеллект создал синтез музыки и речи, например Tacotron2. Facebook и Nvidia также выпустили генеративные модели автомобилей, кораблей, животных и даже синтетические аватары знаменитостей.

    Узнайте об искусственном интеллекте Google с человеческим голосом Tacotron2 .


Промышленные технологии

  1. Три способа, которыми интернет-магазины могут снизить стоимость доставки для покупателей
  2. Что такое MIL-STD-130? Узнайте о спецификациях, маркировке и требованиях военного стандарта 130
  3. Антенна NFC:что это такое и как это работает
  4. 9 шагов к созданию лучшей программы профилактического обслуживания
  5. Схема аварийного освещения:подробное руководство
  6. Обеспечение качества и изготовление металлоконструкций
  7. Как подключить термостат одновременного нагрева воды 120 В?
  8. Спросите эксперта:профессор Технологического института Джорджии о будущем машинной обработки
  9. Возможности гибкого и жесткого изгиба при проектировании печатных плат
  10. Электротехнические проекты E3.series 2021 - Автоматическая регулировка щита