Manufactura industrial
Internet industrial de las cosas | Materiales industriales | Mantenimiento y reparación de equipos | Programación industrial |
home  MfgRobots >> Manufactura industrial >  >> Manufacturing Technology >> Tecnología Industrial

Microsoft presenta AttnGAN:IA que convierte descripciones de texto en imágenes fotorrealistas

Si bien esfuerzos anteriores han mejorado la síntesis de texto a imagen, AttnGAN de Microsoft avanza en el campo generando imágenes fotorrealistas a partir de indicaciones textuales concisas, aprovechando una extensa biblioteca de imágenes etiquetadas.

Desarrollado en Microsoft Research, AttnGAN analiza palabras individuales en un mensaje para guiar la construcción de imágenes. Según el equipo, este enfoque ofrece una calidad de imagen aproximadamente tres veces mayor que los modelos anteriores de última generación.

El proceso creativo del bot

Imagínese que le piden que dibuje un pájaro azul con alas rojas y pico corto. Comenzarías con un esquema aproximado y luego completarías colores y detalles. AttnGAN sigue la misma lógica, analizando cada palabra para construir una imagen detallada y coherente.

El robot puede representar cualquier tema (desde dispositivos hasta vida salvaje) y, a menudo, agrega elementos de fondo contextualmente apropiados que no se mencionaron explícitamente, mostrando su capacidad para obtener detalles "imaginados".

Las imágenes se sintetizan píxel a píxel desde cero, lo que permite al modelo crear escenas que pueden no existir en la realidad. Esta tarea generativa es inherentemente más compleja que simplemente etiquetar una foto existente.

Cómo AttnGAN genera imágenes

  1. Generador: Crea imágenes basadas en la descripción textual.
  2. Discriminador: Evalúa la autenticidad de la imagen generada frente a la descripción.

Ambos modelos se entrenan de forma conjunta, lo que permite al generador aprender de la retroalimentación del discriminador y lograr una fidelidad progresivamente mayor.

La capacitación involucró miles de conjuntos de datos de pies de foto emparejados, lo que le enseñó a AttnGAN a asignar palabras específicas a patrones visuales. Por ejemplo, la palabra "elefante" hace que el modelo produzca una imagen que coincide con la apariencia típica de un elefante.

El sistema divide oraciones complejas en palabras individuales, alineando cada palabra con una región de la imagen. Durante el entrenamiento, también aprende “sentido común artificial” para completar los detalles que faltan, asegurando una composición realista.

Microsoft presenta AttnGAN:IA que convierte descripciones de texto en imágenes fotorrealistas

En este ejemplo, el mensaje solo mencionaba un pájaro. AttnGAN colocó inteligentemente al pájaro en una rama, un contexto común del mundo real aprendido de sus datos de entrenamiento. Esto demuestra la capacidad del modelo para aplicar el conocimiento contextual.

arXiv:1711.10485 – Trabajo de investigación de Microsoft que detalla AttnGAN.

Microsoft presenta AttnGAN:IA que convierte descripciones de texto en imágenes fotorrealistas

Cuando se le pidió que representara un autobús de dos pisos flotando en un lago, la modelo produjo una escena borrosa pero reconociblemente mezclada, destacando su lucha por reconciliar elementos conflictivos en la propuesta.

Casos de uso y rendimiento

AttnGAN supera los puntos de referencia anteriores, logrando una mejora del 170,25 % en la puntuación inicial del conjunto de datos COCO y una ganancia del 14,14 % en el conjunto de datos CUB.

Las aplicaciones potenciales incluyen asistentes de bocetos para diseñadores de interiores, refinamiento de fotografías activado por voz y, con un mayor desarrollo, producción de animación totalmente automatizada a partir de guiones.

Otros generadores de arte con IA

Microsoft no es el único que fusiona arte e inteligencia artificial. DeepDream de Google creó imágenes psicodélicas exhibidas en 2016, mientras que su IA produjo música y síntesis de voz como Tacotron2. Facebook y Nvidia también lanzaron modelos generativos para automóviles, barcos, animales e incluso avatares sintéticos de celebridades.

Lea sobre la IA de voz similar a la humana de Google Tacotron2 .


Tecnología Industrial

  1. ¿Qué es Lean Digital y cómo integrarlo?
  2. Tablero PYNQ:una guía completa para usar el dispositivo
  3. Diferencia entre caldera de tubo de agua y caldera de tubo de fuego
  4. Cómo el gemelo digital está alterando la fabricación de automóviles
  5. ¿Qué es la soldadura fuerte de cobre y cómo hacerla?
  6. Prácticas de diseño para ahorrar costos y consejos para gabinetes y piezas de chapa personalizadas
  7. Gestión de instalaciones en la construcción:conceptos clave, mejores prácticas y tendencias futuras
  8. Proceso de extrusión de aluminio:un desglose detallado
  9. Iniciar sesión en Java:Sugerencias clave a tener en cuenta
  10. Cómo 5G cambiará IIoT
  11. Circuito de oscilador de cristal:cómo construir uno