Manufactura industrial
Internet industrial de las cosas | Materiales industriales | Mantenimiento y reparación de equipos | Programación industrial |
home  MfgRobots >> Manufactura industrial >  >> Manufacturing Technology >> Tecnología Industrial

AI genera imágenes de una comida terminada a partir de una receta simple basada en texto

Generar imágenes a partir de una breve descripción visual es una tarea desafiante y tiene numerosas aplicaciones en la visión por computadora. Estudios recientes han demostrado que las Redes Generativas Adversarias (GAN) pueden sintetizar de manera efectiva imágenes realistas de alta calidad con baja resolución y baja variabilidad.

Una contribución reciente realizada por un equipo de investigación de la Universidad de Tel Aviv, Israel, puede ayudar a acelerar la investigación en este campo. Han construido un modelo basado en el aprendizaje profundo que puede crear imágenes automáticamente a partir de una descripción basada en texto.

En particular, han demostrado su sistema generando imágenes de una comida terminada a partir de una simple receta escrita. Para hacer esto, el sistema utiliza una combinación de GAN apilado de última generación y aprendizaje de incrustaciones intermodales para recetas de cocina e imágenes de alimentos.

Redes antagónicas generativas condicionales

Básicamente, las GAN se componen de dos modelos (generador y discriminador) que están entrenados para competir entre sí. El generador está diseñado para sintetizar imágenes similares a la distribución de datos original, mientras que el trabajo del discriminador es diferenciar entre las imágenes originales y sintéticas.

En este trabajo, los investigadores utilizaron GAN condicionales en las que tanto el generador como el discriminador están obligados a considerar una condición específica. Propusieron dos tipos de técnicas de incrustación:regularización semántica y no semántica. Estas técnicas se componen de tres pasos:

  1. Incorporación inicial de los ingredientes e instrucciones de cocción.
  2. Integración neuronal combinada de toda la receta.
  3. Integración de una pérdida de regularización semántica utilizando un objetivo de clasificación de alto nivel.

El GAN ​​condicional se entrena en 52,000 recetas basadas en texto y sus imágenes correspondientes. Está entrenado con las GPU NVIDIA TITAN X con la biblioteca CUDA Deep Neural Network. Una vez entrenado, el sistema construyó imágenes de cómo se vería la receta a partir de una descripción larga (que no contenía ninguna información visual).

Referencia:arXiv:1901.02404 | Universidad de Tel-Aviv

Evaluación humana

La red toma una receta como entrada y crea una imagen (desde cero) que refleja mejor la descripción de comida basada en texto. Lo que es realmente impresionante aquí es que el sistema no tiene acceso al título de la receta; de lo contrario, el trabajo sería demasiado fácil y el texto de la receta es bastante largo. Esto dificulta la tarea incluso para los humanos.

Cortesía de investigadores

Para evaluar mejor las imágenes sintetizadas, el equipo pidió a 30 personas que juzgaran las imágenes más atractivas en una escala del 1 al 5. Presentaron 10 pares correspondientes de imágenes resultantes (elegidas al azar) generadas por cada técnica de incrustación.

Los resultados mostraron que el método de regularización no semántica supera a la regularización semántica al producir imágenes más vívidas con detalles fotorrealistas. De hecho, a algunas personas les resultó muy difícil diferenciar entre imágenes reales y sintéticas.

Leer:La IA puede generar millones de combinaciones artísticas para obtener resultados fotorrealistas

Además, ambas técnicas de integración lograron producir imágenes de alimentos 'parecidas a papillas' (como ensalada, sopas y arroz), pero tienen dificultades para crear imágenes de alimentos que tengan una forma distintiva (como pollo, hamburguesa y bebidas).


Tecnología Industrial

  1. Un circuito muy simple
  2. Una computadora muy simple
  3. Amplificador operacional simple
  4. Candado de combinación simple
  5. Conversión de numeración decimal
  6. Resonancia en serie simple
  7. Primeras imágenes 3D de grietas microscópicas en aleaciones
  8. Nueva máquina genera electricidad a partir de Snowball
  9. Adquisición de un software CMMS simple
  10. Una guía sencilla para la evaluación comparativa de mantenimiento
  11. Una biblioteca simple basada en REST para usar variables en PLCnext AXC F 2152 PLC de Python