Los métodos de entrenamiento de perros enseñan a los robots a aprender nuevos trucos

Con una técnica de entrenamiento comúnmente utilizada para enseñar a los perros a sentarse y quedarse quietos, los científicos informáticos mostraron a un robot cómo aprender varios trucos nuevos, incluido el apilamiento de bloques. Con el método, el robot (llamado Spot) pudo aprender en días lo que normalmente toma un mes. Mediante el uso de refuerzo positivo, un enfoque familiar para cualquiera que haya usado golosinas para cambiar el comportamiento de un perro, el equipo mejoró drásticamente las habilidades del robot y lo hizo lo suficientemente rápido como para hacer que entrenar a los robots para el trabajo en el mundo real sea una empresa más factible.

A diferencia de los humanos y los animales que nacen con cerebros altamente intuitivos, las computadoras son pizarras en blanco y deben aprender todo desde cero. Pero el verdadero aprendizaje a menudo se logra con prueba y error, y los especialistas en robótica todavía están descubriendo cómo los robots pueden aprender de manera eficiente de sus errores. El equipo logró eso al idear un sistema de recompensas que funciona para un robot de la misma manera que las golosinas funcionan para un perro. Donde un perro podría recibir una galleta por un trabajo bien hecho, el robot ganó puntos numéricos.

Para apilar bloques, Spot necesitaba que el robot aprendiera a concentrarse en acciones constructivas. A medida que el robot exploraba los bloques, aprendió rápidamente que los comportamientos correctos para apilar ganaban puntos altos, pero los incorrectos no ganaban nada. Spot ganó más al colocar el último bloque encima de una pila de cuatro bloques.

La táctica de entrenamiento no solo funcionó, sino que también tomó solo días enseñarle al robot lo que solía tomar semanas. El equipo pudo reducir el tiempo de práctica entrenando primero un robot simulado, que se parece mucho a un videojuego, y luego realizando pruebas con Spot. El robot aprende rápidamente el comportamiento correcto para obtener la mejor recompensa. De hecho, lo que solía tomar un mes de práctica para que el robot lograra una precisión del 100 por ciento se hizo en dos días.

El refuerzo positivo no solo funcionó para ayudar al robot a aprender a apilar bloques, sino que también con el sistema de puntos, el robot aprendió rápidamente varias otras tareas, incluso cómo jugar un juego de navegación simulado. La capacidad de aprender de los errores en todo tipo de situaciones es fundamental para diseñar un robot que pueda adaptarse a nuevos entornos.

El equipo imagina que estos hallazgos podrían ayudar a entrenar a los robots domésticos para lavar la ropa y lavar los platos, tareas que podrían ayudar a las personas mayores a vivir de forma independiente. También podría ayudar a diseñar vehículos autónomos mejorados o realizar ensamblajes de productos.

Para obtener más información, póngase en contacto con Jill Rosen en Esta dirección de correo electrónico está protegida contra spambots. Necesita habilitar JavaScript para verlo.; 443-547-8805.

Fabricación aditiva de alto rendimiento completamente automatizada Láseres de alto rendimiento de próxima generación

Sistema de control de automatización

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial