La IA de Google logra el seguimiento de objetos mediante la coloración de vídeos:un enfoque autosupervisado
- La nueva red convolucional aprende a copiar colores de un marco de referencia a fotogramas posteriores.
- Mientras lo hace, puede seguir diferentes objetos y rastrear oclusiones.
- También puede rastrear poses humanas.
Enseñar a las máquinas a rastrear objetos en un video es una de las tareas más difíciles en visión por computadora, principalmente porque requiere un enorme conjunto de datos de entrenamiento etiquetados para el seguimiento. Por supuesto, registrar y etiquetar todo lo que sucede en la Tierra no sería práctico.
Por eso es necesario crear un sistema que aprenda a realizar un seguimiento sin supervisión humana, en lugar de utilizar una enorme cantidad de clips sin editar y sin etiquetar. ¿Por qué importa tanto?, preguntaste. Bueno, el seguimiento de objetos en vídeos podría resultar útil para numerosas aplicaciones, como interacción de objetos, reconocimiento de actividades, estilización de vídeos y mucho más.
Ahora, investigadores de Google han desarrollado una red convolucional que aprende a copiar colores desde un único marco de referencia. En lugar de intentar estimar los colores directamente desde un fotograma en escala de grises, el modelo se limita a utilizar colores del primer fotograma de referencia del vídeo.
Para copiar los colores correctos, la red necesita aprender a apuntar internamente a la región correcta. Este nuevo modelo puede seguir diferentes objetos y rastrear oclusiones sin tener que entrenarse en grandes conjuntos de datos etiquetados.
Vídeos de recolorización
Para desarrollar este sistema de inteligencia artificial, los investigadores han aprovechado la coherencia temporal del color, que ofrece una enorme cantidad de datos de entrenamiento para enseñar a la red convolucional a rastrear partes específicas del video. Hay algunos casos excepcionales en los que el color no es temporalmente coherente, por ejemplo, cuando se encienden las luces instantáneamente. Sin embargo, en general los colores se mantienen estables en el tiempo.
Colores previstos a partir de una referencia de fotograma único coloreada | Crédito:Google
En primer lugar, se decolora el vídeo y luego la red realiza pasos de coloración porque una escena puede contener diferentes objetos del mismo color. Al hacer esto, la máquina puede aprender cómo rastrear regiones u objetos particulares.
Formación
Los investigadores utilizaron el conjunto de datos de Kinetics (que contiene medio millón de videoclips que representan actividades diarias) para entrenar su modelo. Convertieron todos los fotogramas de vídeo, excepto el primero, a escala de grises y entrenaron a la red para estimar los colores correctos en los siguientes fotogramas.
Para copiar los colores originales de un solo cuadro, la red convolucional aprendió a apuntar internamente a los colores correctos. Esto obligó a la red a seguir un mecanismo explícito, que puede usarse para el seguimiento de objetos.
La red rastrea el objeto sin supervisión | Crédito:Google
A pesar de que el modelo no está entrenado en identidades sólidas, aprende a rastrear cualquier objeto o porción visual en el video usando solo un (primer) fotograma. Puede rastrear un solo punto o una entidad delineada en el video.
Referencia: arXiv:1806.09594 | Blog de IA de Google
Para rastrear objetos al colorear el video, los investigadores hicieron solo un cambio:propagar etiquetas que representan regiones objetivo, en lugar de propagar colores a lo largo del clip.
Seguimiento de pose
Seguimiento de los movimientos del esqueleto humano | Crédito:Google
La red también es capaz de rastrear poses humanas:requiere un cuadro inicial etiquetado con puntos clave y hace el resto del trabajo. Sin embargo, predecir los puntos clave en los siguientes cuadros no es tan fácil como parece, porque es necesario tener una localización detallada de cada punto clave cuando las personas en el video sufren deformaciones.
Los investigadores demostraron la función de seguimiento de poses de la red en el conjunto de datos JHMDB (un conjunto de datos completamente anotado para poses y acciones humanas) donde rastrearon un esqueleto de articulación humana.
La red obtiene un rendimiento similar al del flujo óptico, lo que indica que podría estar aprendiendo algunas características de movimiento. Aprende a rastrear poses humanas y segmentos de vídeo lo suficientemente bien como para superar ligeramente las últimas técnicas basadas en flujo óptico.
Leer:La IA de Google puede crear videoclips cortos a partir de dos imágenes fijas
El modelo aún no es perfecto. En algunos experimentos, no pudo colorear videos ni rastrear segmentos. Por lo tanto, los investigadores planean mejorar aún más el proceso de coloración del vídeo, lo que en última instancia podría traducirse en un seguimiento autosupervisado mejorado.
Tecnología Industrial
- Cómo el sistema EZ-Bar de Kyocera puede mejorar los resultados de los proveedores de vehículos eléctricos
- Insight Paper:Asegurar la Internet industrial de las cosas | Información práctica para fabricantes conectados
- ¿Cuáles son los diferentes tipos de ajustes utilizados en metrología?
- Creación de una cultura de seguridad
- Opciones de ventilación para su gabinete de chapa metálica
- Investigación sobre el diseño de PCB de alta velocidad en el sistema de aplicaciones integradas
- Forja:tipos, métodos, operaciones, ventajas y más
- Oportunidades para fabricantes de equipos de energía solar
- Mecanizado ultrasónico (USM):partes principales, principio de funcionamiento, ventajas y desventajas con la aplicación
- 9 Sugerencias para el Ensamblaje de Circuitos Impresos y Diseño de Costos
- Marco estructural para transportador de material grande