Samsung AI puede crear metraje hablado a partir de una sola foto

Un nuevo modelo de IA puede fabricar avatares parlantes a partir de una sola imagen.
Los desarrolladores aplicaron este modelo a pinturas populares, como Leonardo Da Vinci y Mona Lisa.
Los resultados tienen algunos fallos visuales, pero son mucho más impresionantes que las técnicas anteriores.

El software para generar deepfakes (una técnica basada en inteligencia artificial para la síntesis de imágenes humanas) requiere grandes conjuntos de imágenes para construir una falsificación realista. Los avances recientes en las redes neuronales han demostrado cómo se pueden obtener imágenes humanas altamente realistas entrenando la red en una amplia gama de conjuntos de datos.

Sin embargo, los desarrolladores del centro de investigación de Samsung en Moscú han desarrollado un nuevo modelo de inteligencia artificial (IA) que puede crear avatares parlantes a partir de una sola imagen. Aunque es posible fabricar un videoclip a partir de una imagen, entrenarlo a través de varias imágenes da como resultado una mejor conservación de la identificación y un mayor realismo.

Los parlantes generados por este modelo pueden manejar varias poses, incluidas las que van más allá de las capacidades de los sistemas basados en warping. Puede encontrar algunos fallos visuales, pero los resultados son bastante impresionantes en comparación con las técnicas anteriores. El modelo conduce a la creación de multimedia que, en última instancia, será difícil de distinguir del video real.

Desafíos involucrados

Fabricar secuencias de avatar que hablan realistas es difícil principalmente por dos razones:

Las cabezas humanas tienen una alta complejidad cinemática, geométrica y fotométrica. Es necesario modelar con precisión el cabello, los ojos, la cavidad bucal y muchos otros elementos.
La agudeza del sistema visual hacia pequeños errores en la apariencia del modelado de cabezas humanas.

Para abordar estos problemas, el nuevo modelo de IA crea tres redes neuronales durante el proceso de aprendizaje. Construye una red integrada que conecta los marcos de los puntos de referencia con los vectores. Luego, construye una red generadora para mapear puntos de referencia en los clips sintetizados. En el paso final, la red discriminadora evalúa la pose y el realismo de los fotogramas.

Referencia:arXiv:1905.08233 | YouTube

Para comprender mejor los puntos de referencia y los movimientos faciales, los investigadores entrenaron las redes en miles de videos de YouTube de humanos hablando. Luego, los resultados (cabezas parlantes) se compararon con redes neuronales alternativas mediante mediciones cuantitativas.

Resultados

El equipo aplicó este modelo en imágenes de muchas figuras populares, como Mona Lisa, Leonardo Da Vinci y Albert Einstein. La IA pudo fabricar videos hablados a partir de una sola imagen, dando vida a los retratos clásicos. Solo necesita una foto para crear videos. Sin embargo, un modelo entrenado en 32 imágenes puede lograr una mejor puntuación de personalización y un realismo perfecto.

Este tipo de IA puede tener varias aplicaciones prácticas en la telepresencia, incluidos los juegos para varios jugadores, las videoconferencias y las industrias de efectos especiales.

Leer:IBM desarrolla una IA que detecta escenas en un video

En el lado negativo, el rápido desarrollo de tales técnicas podría generar riesgos de desinformación, suplantación de identidad, fraude y alteración electoral.

Bosque:Nuevo lenguaje de programación de Microsoft sin bucles ¿Qué es MEMS (sistema microelectromecánico)? Tipos y aplicación

Tecnología Industrial

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial