Промышленное производство
Промышленный Интернет вещей | Промышленные материалы | Техническое обслуживание и ремонт оборудования | Промышленное программирование |
home  MfgRobots >> Промышленное производство >  >> Manufacturing Technology >> Промышленные технологии

ИИ генерирует изображения готовой еды из простого текстового рецепта

Создание изображений из краткого визуального описания - сложная задача, которая находит множество применений в компьютерном зрении. Недавние исследования доказали, что генерирующие состязательные сети (GAN) могут эффективно синтезировать высококачественные, реалистичные изображения с низким разрешением и малой изменчивостью.

Недавний вклад, сделанный исследовательской группой из Тель-Авивского университета, Израиль, может помочь ускорить исследования в этой области. Они построили модель на основе глубокого обучения, которая может автоматически создавать изображения из текстового описания.

В частности, они продемонстрировали свою систему, генерирующую изображения готовой еды по простому письменному рецепту. Для этого в системе используется комбинация современного Stacked GAN и обучающихся кросс-модальных встраиваний для рецептов приготовления и изображений блюд.

Условно порождающие состязательные сети

По сути, GAN состоят из двух моделей (генератора и дискриминатора), которые обучены соревноваться друг с другом. Генератор предназначен для синтеза изображений, аналогичных исходному распределению данных, а задача дискриминатора - различать исходные и синтетические изображения.

В этой работе исследователи использовали условные GAN, в которых и генератор, и дискриминатор вынуждены учитывать конкретное условие. Они предложили два вида техник внедрения:семантическую и несемантическую регуляризацию. Эти методы состоят из трех этапов:

  1. Первоначальное размещение ингредиентов и инструкции по приготовлению.
  2. Комбинированное нейронное внедрение всего рецепта.
  3. Интеграция потери семантической регуляризации с использованием цели классификации высокого уровня.

Условный GAN обучен на 52 000 текстовых рецептов и соответствующих им изображений. Он обучен с использованием графических процессоров NVIDIA TITAN X с библиотекой CUDA Deep Neural Network. После обучения система строила изображения того, как рецепт может выглядеть на основе длинного описания (которое не содержало никакой визуальной информации).

Ссылка:arXiv:1901.02404 | Тель-Авивский университет

Оценка человека

Сеть принимает рецепт в качестве входных данных и создает изображение (с нуля), которое лучше всего отражает текстовое описание еды. Что действительно впечатляет, так это то, что система не имеет доступа к названию рецепта - иначе работа стала бы слишком простой - а текст рецепта довольно длинный. Это затрудняет задачу даже для людей.

Предоставлено исследователями

Чтобы лучше оценить синтезированные изображения, команда попросила 30 человек оценить наиболее привлекательные изображения по шкале от 1 до 5. Они представили 10 соответствующих пар результирующих изображений (выбранных случайным образом), сгенерированных каждой техникой встраивания.

Результаты показали, что метод несемантической регуляризации превосходит семантическую регуляризацию, создавая более яркие изображения с фотореалистичными деталями. На самом деле, некоторым людям было очень трудно отличить настоящие изображения от синтетических.

Читайте:AI может генерировать миллионы художественных комбинаций для фотореалистичных результатов

Более того, оба метода встраивания позволили создать изображения еды, похожие на кашу (например, салат, супы и рис), но не смогли создать картинки еды, которые имеют отличительную форму (например, курицу, гамбургер и напитки).


Промышленные технологии

  1. Очень простая схема
  2. Очень простой компьютер
  3. Простой операционный усилитель
  4. Простой кодовый замок
  5. Резонанс простой серии
  6. Первые трехмерные изображения микроскопических трещин в сплавах
  7. Новая машина вырабатывает электричество из снежного кома
  8. Приобретение простого программного обеспечения CMMS
  9. Простое руководство по сравнительному анализу технического обслуживания
  10. Простая библиотека на основе REST для использования переменных в PLCnext AXC F 2152 PLC от Python