La nueva IA de Google puede crear un video con solo los marcos inicial y final

La nueva red neuronal convolucional 3D puede completar las secuencias entre el cuadro inicial y final.
Utiliza un generador de representación latente para producir una variedad de secuencias de video.

Los avances recientes en las arquitecturas de redes neuronales artificiales y las redes adversas generativas han impulsado el desarrollo de métodos de síntesis de imágenes y videos. La mayoría de las investigaciones existentes se centran en dos operaciones:generación de video incondicional y predicción de video. Ambos implican generar / predecir nuevos videos plausibles utilizando un número limitado de fotogramas anteriores.

Recientemente, un equipo de investigación de Google se centró en el problema de crear secuencias de vídeo diversas y plausibles, cuando solo hay dos fotogramas (un fotograma inicial y otro final) disponibles. El proceso, llamado entremedio, generalmente se realiza entrenando / ejecutando redes neuronales recurrentes, utilizando unidades recurrentes cerradas o memoria a largo y corto plazo.

Sin embargo, en este estudio, los investigadores han demostrado que este problema (entremedio) se puede abordar a través de una red neuronal convolucional 3D. Una de las principales ventajas de este método es la simplicidad. Dado que no utiliza ningún elemento recurrente, las rutas de gradiente más cortas pueden permitir redes más profundas y un entrenamiento más estable.

Modelo totalmente convolucional

En una red convolucional, es bastante fácil hacer cumplir la coherencia temporal con los fotogramas inicial y final (que se proporcionan como entradas). El modelo tiene 3 componentes clave:

Un codificador de imagen convolucional 2D para mapear fotogramas clave de entrada a un espacio latente.
Un generador de representación latente convolucional 3D para incorporar los datos de los fotogramas de entrada con una resolución temporal que aumenta progresivamente.
Un generador de video para decodificar la representación latente en cuadros de video.

Referencia:arXiv:1905.10240 | NVIDIA

El equipo intentó crear el video directamente a partir de las representaciones codificadas de los fotogramas inicial y final, pero los resultados no estuvieron a la altura. Es por eso que diseñaron el generador de representaciones latentes, que fusiona estocásticamente las representaciones de fotogramas clave y aumenta constantemente la resolución temporal del video final.

Prueba

El equipo probó su modelo en varios conjuntos de datos disponibles públicamente, incluidos UCF101 Action Recognition, BAIR y KTH Action Database.

Ejemplos de marcos creados por el nuevo modelo | Cortesía de investigadores

Los resultados finales:cada muestra en el conjunto de datos contenía un total de 16 fotogramas, de los cuales 14 fueron generados por redes neuronales convolucionales. El modelo se ejecutó más de cien veces para cada par de fotogramas clave, y todo el proceso se repitió 10 veces para cada variante del modelo.

Leer:La nueva IA convierte videos en blanco y negro a color en tiempo real

En todos los casos, el modelo pudo crear secuencias de video realistas, dado que los fotogramas clave están separados aproximadamente 1/2 segundo entre sí. Además, los investigadores demostraron que es posible crear una variedad de secuencias, simplemente alterando el vector de ruido de entrada que impulsa el proceso generativo. Este nuevo método puede proporcionar una perspectiva alternativa valiosa para futuros estudios sobre creación de videos.

Microsoft logra un nuevo avance en el campo de la IA conversacional Más fuerte que el acero, la última madera de alta tecnología podría enfriar edificios

Tecnología Industrial

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial