La nueva IA de Google puede crear un video con solo los marcos inicial y final
- La nueva red neuronal convolucional 3D puede completar las secuencias entre el cuadro inicial y final.
- Utiliza un generador de representación latente para producir una variedad de secuencias de video.
Los avances recientes en las arquitecturas de redes neuronales artificiales y las redes adversas generativas han impulsado el desarrollo de métodos de síntesis de imágenes y videos. La mayoría de las investigaciones existentes se centran en dos operaciones:generación de video incondicional y predicción de video. Ambos implican generar / predecir nuevos videos plausibles utilizando un número limitado de fotogramas anteriores.
Recientemente, un equipo de investigación de Google se centró en el problema de crear secuencias de vídeo diversas y plausibles, cuando solo hay dos fotogramas (un fotograma inicial y otro final) disponibles. El proceso, llamado entremedio, generalmente se realiza entrenando / ejecutando redes neuronales recurrentes, utilizando unidades recurrentes cerradas o memoria a largo y corto plazo.
Sin embargo, en este estudio, los investigadores han demostrado que este problema (entremedio) se puede abordar a través de una red neuronal convolucional 3D. Una de las principales ventajas de este método es la simplicidad. Dado que no utiliza ningún elemento recurrente, las rutas de gradiente más cortas pueden permitir redes más profundas y un entrenamiento más estable.
Modelo totalmente convolucional
En una red convolucional, es bastante fácil hacer cumplir la coherencia temporal con los fotogramas inicial y final (que se proporcionan como entradas). El modelo tiene 3 componentes clave:
- Un codificador de imagen convolucional 2D para mapear fotogramas clave de entrada a un espacio latente.
- Un generador de representación latente convolucional 3D para incorporar los datos de los fotogramas de entrada con una resolución temporal que aumenta progresivamente.
- Un generador de video para decodificar la representación latente en cuadros de video.
Referencia:arXiv:1905.10240 | NVIDIA
El equipo intentó crear el video directamente a partir de las representaciones codificadas de los fotogramas inicial y final, pero los resultados no estuvieron a la altura. Es por eso que diseñaron el generador de representaciones latentes, que fusiona estocásticamente las representaciones de fotogramas clave y aumenta constantemente la resolución temporal del video final.
Prueba
El equipo probó su modelo en varios conjuntos de datos disponibles públicamente, incluidos UCF101 Action Recognition, BAIR y KTH Action Database.
Ejemplos de marcos creados por el nuevo modelo | Cortesía de investigadores
Los resultados finales:cada muestra en el conjunto de datos contenía un total de 16 fotogramas, de los cuales 14 fueron generados por redes neuronales convolucionales. El modelo se ejecutó más de cien veces para cada par de fotogramas clave, y todo el proceso se repitió 10 veces para cada variante del modelo.
Leer:La nueva IA convierte videos en blanco y negro a color en tiempo real
En todos los casos, el modelo pudo crear secuencias de video realistas, dado que los fotogramas clave están separados aproximadamente 1/2 segundo entre sí. Además, los investigadores demostraron que es posible crear una variedad de secuencias, simplemente alterando el vector de ruido de entrada que impulsa el proceso generativo. Este nuevo método puede proporcionar una perspectiva alternativa valiosa para futuros estudios sobre creación de videos.
Tecnología Industrial
- Inicio fácil en el mundo de IoT con MQTT
- Creación rápida de prototipos de SLA con la nueva resina de borrador
- La nueva IA de Google puede crear un video con solo los marcos inicial y final
- ¿Cómo podemos facilitar la educación con Internet de las cosas?
- Empiece con el (Ciberseguridad) final en mente
- Cómo la automatización de órdenes de venta puede crear estabilidad durante la pandemia
- El fin de las cadenas de suministro de fuente única
- ¿Está replanteándose su cadena de suministro? Comience con el almacén
- Cómo pueden los minoristas mitigar el impacto de los nuevos recargos por envío
- El fin de una era, el comienzo de un nuevo capítulo en DVIRC
- Industria 5.0:la nueva revolución