La IA de Google logra el seguimiento de objetos mediante la coloración de vídeos:un enfoque autosupervisado

La nueva red convolucional aprende a copiar colores de un marco de referencia a fotogramas posteriores.
Mientras lo hace, puede seguir diferentes objetos y rastrear oclusiones.
También puede rastrear poses humanas.

Enseñar a las máquinas a rastrear objetos en un video es una de las tareas más difíciles en visión por computadora, principalmente porque requiere un enorme conjunto de datos de entrenamiento etiquetados para el seguimiento. Por supuesto, registrar y etiquetar todo lo que sucede en la Tierra no sería práctico.

Por eso es necesario crear un sistema que aprenda a realizar un seguimiento sin supervisión humana, en lugar de utilizar una enorme cantidad de clips sin editar y sin etiquetar. ¿Por qué importa tanto?, preguntaste. Bueno, el seguimiento de objetos en vídeos podría resultar útil para numerosas aplicaciones, como interacción de objetos, reconocimiento de actividades, estilización de vídeos y mucho más.

Ahora, investigadores de Google han desarrollado una red convolucional que aprende a copiar colores desde un único marco de referencia. En lugar de intentar estimar los colores directamente desde un fotograma en escala de grises, el modelo se limita a utilizar colores del primer fotograma de referencia del vídeo.

Para copiar los colores correctos, la red necesita aprender a apuntar internamente a la región correcta. Este nuevo modelo puede seguir diferentes objetos y rastrear oclusiones sin tener que entrenarse en grandes conjuntos de datos etiquetados.

Vídeos de recolorización

Para desarrollar este sistema de inteligencia artificial, los investigadores han aprovechado la coherencia temporal del color, que ofrece una enorme cantidad de datos de entrenamiento para enseñar a la red convolucional a rastrear partes específicas del video. Hay algunos casos excepcionales en los que el color no es temporalmente coherente, por ejemplo, cuando se encienden las luces instantáneamente. Sin embargo, en general los colores se mantienen estables en el tiempo.

Colores previstos a partir de una referencia de fotograma único coloreada | Crédito:Google

En primer lugar, se decolora el vídeo y luego la red realiza pasos de coloración porque una escena puede contener diferentes objetos del mismo color. Al hacer esto, la máquina puede aprender cómo rastrear regiones u objetos particulares.

Formación

Los investigadores utilizaron el conjunto de datos de Kinetics (que contiene medio millón de videoclips que representan actividades diarias) para entrenar su modelo. Convertieron todos los fotogramas de vídeo, excepto el primero, a escala de grises y entrenaron a la red para estimar los colores correctos en los siguientes fotogramas.

Para copiar los colores originales de un solo cuadro, la red convolucional aprendió a apuntar internamente a los colores correctos. Esto obligó a la red a seguir un mecanismo explícito, que puede usarse para el seguimiento de objetos.

La red rastrea el objeto sin supervisión | Crédito:Google

A pesar de que el modelo no está entrenado en identidades sólidas, aprende a rastrear cualquier objeto o porción visual en el video usando solo un (primer) fotograma. Puede rastrear un solo punto o una entidad delineada en el video.

Referencia: arXiv:1806.09594 | Blog de IA de Google

Para rastrear objetos al colorear el video, los investigadores hicieron solo un cambio:propagar etiquetas que representan regiones objetivo, en lugar de propagar colores a lo largo del clip.

Seguimiento de pose

Seguimiento de los movimientos del esqueleto humano | Crédito:Google

La red también es capaz de rastrear poses humanas:requiere un cuadro inicial etiquetado con puntos clave y hace el resto del trabajo. Sin embargo, predecir los puntos clave en los siguientes cuadros no es tan fácil como parece, porque es necesario tener una localización detallada de cada punto clave cuando las personas en el video sufren deformaciones.

Los investigadores demostraron la función de seguimiento de poses de la red en el conjunto de datos JHMDB (un conjunto de datos completamente anotado para poses y acciones humanas) donde rastrearon un esqueleto de articulación humana.

La red obtiene un rendimiento similar al del flujo óptico, lo que indica que podría estar aprendiendo algunas características de movimiento. Aprende a rastrear poses humanas y segmentos de vídeo lo suficientemente bien como para superar ligeramente las últimas técnicas basadas en flujo óptico.

Leer:La IA de Google puede crear videoclips cortos a partir de dos imágenes fijas

El modelo aún no es perfecto. En algunos experimentos, no pudo colorear videos ni rastrear segmentos. Por lo tanto, los investigadores planean mejorar aún más el proceso de coloración del vídeo, lo que en última instancia podría traducirse en un seguimiento autosupervisado mejorado.

La IA detecta enfermedades, incluido el cáncer, a partir del aliento humano La IA impulsa la renderización de cabello en 3D en tiempo real con 30.000 mechones

Tecnología Industrial

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial