La IA ahora puede navegar por entornos desconocidos sin un mapa

Los investigadores de Facebook AI desarrollan un nuevo algoritmo de aprendizaje por refuerzo llamado DD-PPO.
Puede navegar a través de entornos complejos utilizando solo datos de brújula, cámara RGB-D y GPS.

Desarrollar máquinas inteligentes que interactúen de forma inteligente con el mundo físico ha sido un objetivo a largo plazo de la comunidad de IA. El mayor desafío es enseñar a estas máquinas para que puedan navegar de manera eficiente a través de entornos complejos y desconocidos sin usar ningún mapa.

Por lo general, los mapas del mundo real se vuelven obsoletos en unos meses, a medida que los edificios y las estructuras cambian y los objetos se mueven. Por eso es muy necesario crear IA para el mundo físico que pueda navegar sin un mapa.

Teniendo esto en cuenta, los investigadores de Facebook AI han desarrollado un nuevo algoritmo de aprendizaje por refuerzo (RL) que resuelve eficazmente la tarea de navegación punto-objetivo utilizando solo datos de brújula, cámara RGB-D y GPS. Este algoritmo a gran escala se denomina DD-PPO (optimización de política proximal distribuida descentralizada).

Nueva arquitectura distribuida de RL escala bien

Hoy en día, los sistemas basados en el aprendizaje automático son capaces de superar a los expertos humanos en varios juegos complejos. Pero dado que estos sistemas se basan en un volumen masivo de muestras de entrenamiento, es bastante imposible construirlos sin paralelización distribuida a gran escala.

La arquitectura de aprendizaje por refuerzo distribuido actual, que incluye miles de trabajadores (CPU) y un servidor de parámetros únicos, no se escala bien. Es por eso que los investigadores propusieron una técnica de aprendizaje por refuerzo distribuido y sincrónico.

DD-PPO se ejecuta en varias máquinas y no tiene servidor de parámetros. Cada trabajador (CPU) alterna entre acumular experiencia en un entorno simulado de uso intensivo de recursos y acelerado por GPU y la optimización del modelo. En un estado de comunicación explícito, todos los trabajadores sincronizan sus actualizaciones con el modelo. En otras palabras, la distribución es sincrónica.

Todos los trabajadores simulan un agente que realiza la navegación de puntos y objetivos, y luego optimizan el modelo y sincronizan sus actualizaciones | Así es como se comparten los datos durante el entrenamiento con DD-PPO

Con este enfoque, DD-PPO exhibió una escala casi lineal:pudo lograr una aceleración de 107 veces en 128 GPU en una implementación en serie.

Referencia:arXiv:1911.00357 | IA de Facebook

Navegación casi perfecta entre puntos y objetivos

En la navegación punto-objetivo, un agente se establece en una posición / orientación inicial aleatoria en un entorno desconocido y se le asigna la tarea de navegar a las coordenadas del objetivo sin usar ningún mapa. Solo puede usar una brújula, GPS y una cámara RGB o RGB-D.

Los investigadores aprovecharon la función de escalado de DD-PPO para entrenar al agente en 2.500 millones de pasos, lo que equivale a 80 años de experiencia humana. En lugar de meses, la capacitación se completó en menos de tres días con 64 GPU.

Los resultados mostraron que el 90% del rendimiento máximo se obtuvo en los primeros 100 millones de pasos con menos recursos informáticos (8 GPU). Con miles de millones de pasos de experiencia, el agente obtiene una tasa de éxito del 99,9%. En contraste, los sistemas anteriores lograron una tasa de éxito del 92%.

El agente retrocede después de elegir la ruta incorrecta para llegar a su posición objetivo | Cortesía de investigadores

Aplicaciones

Estos agentes de IA pueden ayudar a las personas en el mundo físico. Por ejemplo, podrían mostrar información relevante a los usuarios que usan anteojos de realidad aumentada, los robots pueden recuperar elementos de un escritorio en el piso de arriba y los sistemas impulsados por inteligencia artificial pueden ayudar a las personas con discapacidades visuales.

Los modelos construidos en este estudio pueden funcionar en entornos habituales, como el interior de laboratorios y edificios de oficinas, donde los puntos de datos adicionales (mapas y datos de GPS) no están disponibles.

Leer:Facebook desarrolla inteligencia artificial capaz de copiar la voz de cualquier persona con una precisión sin precedentes

Aunque el modelo supera a las redes neuronales convolucionales previamente entrenadas por ImageNet y puede servir como un recurso universal, todavía queda mucho por hacer para desarrollar sistemas que aprendan a navegar a través de entornos complejos. Actualmente, los investigadores están explorando nuevos enfoques para implementar la navegación de puntos y objetivos solo RGB.

El nuevo algoritmo combina a la perfección dos señales de audio cualquiera El objeto giratorio más rápido del mundo gira a 300 mil millones de RPM

Tecnología Industrial

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial