ИИ генерирует изображения готовой еды из простого текстового рецепта
- Новая система на основе глубокого обучения может автоматически генерировать изображения из длинного текстового описания.
- Исследователи продемонстрировали сеть, которая принимает рецепт в качестве входных данных и создает изображение с нуля.
Создание изображений из краткого визуального описания - сложная задача, которая находит множество применений в компьютерном зрении. Недавние исследования доказали, что генерирующие состязательные сети (GAN) могут эффективно синтезировать высококачественные, реалистичные изображения с низким разрешением и малой изменчивостью.
Недавний вклад, сделанный исследовательской группой из Тель-Авивского университета, Израиль, может помочь ускорить исследования в этой области. Они построили модель на основе глубокого обучения, которая может автоматически создавать изображения из текстового описания.
В частности, они продемонстрировали свою систему, генерирующую изображения готовой еды по простому письменному рецепту. Для этого в системе используется комбинация современного Stacked GAN и обучающихся кросс-модальных встраиваний для рецептов приготовления и изображений блюд.
Условно порождающие состязательные сети
По сути, GAN состоят из двух моделей (генератора и дискриминатора), которые обучены соревноваться друг с другом. Генератор предназначен для синтеза изображений, аналогичных исходному распределению данных, а задача дискриминатора - различать исходные и синтетические изображения.
В этой работе исследователи использовали условные GAN, в которых и генератор, и дискриминатор вынуждены учитывать конкретное условие. Они предложили два вида техник внедрения:семантическую и несемантическую регуляризацию. Эти методы состоят из трех этапов:
- Первоначальное размещение ингредиентов и инструкции по приготовлению.
- Комбинированное нейронное внедрение всего рецепта.
- Интеграция потери семантической регуляризации с использованием цели классификации высокого уровня.
Условный GAN обучен на 52 000 текстовых рецептов и соответствующих им изображений. Он обучен с использованием графических процессоров NVIDIA TITAN X с библиотекой CUDA Deep Neural Network. После обучения система строила изображения того, как рецепт может выглядеть на основе длинного описания (которое не содержало никакой визуальной информации).
Ссылка:arXiv:1901.02404 | Тель-Авивский университет
Оценка человека
Сеть принимает рецепт в качестве входных данных и создает изображение (с нуля), которое лучше всего отражает текстовое описание еды. Что действительно впечатляет, так это то, что система не имеет доступа к названию рецепта - иначе работа стала бы слишком простой - а текст рецепта довольно длинный. Это затрудняет задачу даже для людей.
Предоставлено исследователями
Чтобы лучше оценить синтезированные изображения, команда попросила 30 человек оценить наиболее привлекательные изображения по шкале от 1 до 5. Они представили 10 соответствующих пар результирующих изображений (выбранных случайным образом), сгенерированных каждой техникой встраивания.
Результаты показали, что метод несемантической регуляризации превосходит семантическую регуляризацию, создавая более яркие изображения с фотореалистичными деталями. На самом деле, некоторым людям было очень трудно отличить настоящие изображения от синтетических.
Читайте:AI может генерировать миллионы художественных комбинаций для фотореалистичных результатов
Более того, оба метода встраивания позволили создать изображения еды, похожие на кашу (например, салат, супы и рис), но не смогли создать картинки еды, которые имеют отличительную форму (например, курицу, гамбургер и напитки).
Промышленные технологии
- Очень простая схема
- Очень простой компьютер
- Простой операционный усилитель
- Простой кодовый замок
- Резонанс простой серии
- Первые трехмерные изображения микроскопических трещин в сплавах
- Новая машина вырабатывает электричество из снежного кома
- Приобретение простого программного обеспечения CMMS
- Простое руководство по сравнительному анализу технического обслуживания
- Простая библиотека на основе REST для использования переменных в PLCnext AXC F 2152 PLC от Python