SonicSense:permitir que los robots escuchen como humanos para una interacción más inteligente

Una nueva investigación de la Universidad de Duke detalla un sistema denominado SonicSense que permite a los robots interactuar con su entorno de formas que antes estaban limitadas a los humanos.

"Hoy en día, los robots dependen principalmente de la visión para interpretar el mundo", explicó el autor principal Jiaxun Liu, doctorado de primer año. Estudiante en el laboratorio de Boyuan Chen, profesor de Ingeniería Mecánica y Ciencia de Materiales en Duke. "Queríamos crear una solución que pudiera funcionar con objetos complejos y diversos que se encuentran a diario, dando a los robots una capacidad mucho más rica para 'sentir' y comprender el mundo".

SonicSense presenta una mano robótica con cuatro dedos, cada uno equipado con un micrófono de contacto integrado en la punta del dedo. Estos sensores detectan y registran las vibraciones generadas cuando el robot golpea, agarra o sacude un objeto. Y como los micrófonos están en contacto con el objeto, le permite al robot desconectarse de los ruidos ambientales.

Basándose en las interacciones y las señales detectadas, SonicSense extrae características de frecuencia y utiliza su conocimiento previo, junto con avances recientes en inteligencia artificial, para determinar de qué material está hecho el objeto y su forma 3D. Si se trata de un objeto que el sistema nunca ha visto antes, podrían ser necesarias 20 interacciones diferentes para que el sistema llegue a una conclusión. Pero si ya es un objeto en su base de datos, puede identificarlo correctamente en tan solo cuatro años.

Aquí hay un Tech Briefs exclusivo entrevista, editada para mayor extensión y claridad, con Chen.

Resúmenes técnicos :¿Cuál fue el mayor desafío técnico al que se enfrentó mientras desarrollaba SonicSense?

Chen :Creo que la primera es que realmente no se han realizado estudios exhaustivos sobre el uso de vibraciones acústicas para la percepción de los robots. La mayor parte del trabajo anterior ha sido con un solo dedo o ha sido muy preliminar. Pero poner esto en manos de un robot real y poder interactuar con una variedad de objetos posibles no es una tarea fácil.

Resúmenes técnicos :¿Cómo surgió este proyecto? ¿Cuál fue el catalizador de su trabajo?

Chen :Esta es una historia muy interesante. La primera parte de mi trabajo se llamó boombox, esto fue durante COVID. Estaba pensando que quiero trabajar sobre robots y visión. Por eso, hace unos años ya estaba interesado en incorporar las vibraciones acústicas a la percepción, porque utilizamos mucho las vibraciones del sonido acústico.

En neurociencia, la piel humana tiene neuronas vibratorias. Entonces leí sobre estas cosas y pensé en cómo podemos llevar esto a los robots. Pero durante la COVID no tuve acceso a los robots. Hice mi doctorado. en Columbia, así que vivía en un pequeño dormitorio en la ciudad de Nueva York, pero realmente quería hacer esta investigación. Un día se me ocurrió una idea aleatoria:"¿Qué puedo hacer sin robots para demostrar que esto es útil?"

Tenía un contenedor de juguetes en mi habitación. Al arrojar objetos allí al azar, me di cuenta:"Oye, tengo que ir a recuperar este objeto, pero no sé dónde está". ¿Qué objeto arrojé? Esa fue una pregunta de investigación perfecta.

Comencé con tres cajas de madera diferentes con diferentes formas y las tiré a la basura. Entrené un sistema de inteligencia artificial que predijo la forma del objeto que arrojé y dónde terminó después de que lo arrojé porque no podía verlo. Así que este era el proyecto.

La idea era básicamente tener cuatro micrófonos de contacto. Los fijas alrededor de la pared del contenedor. Sólo grabas vibraciones acústicas de los cuatro canales de micrófonos. Utilicé micrófonos que se utilizan para captar el sonido de una guitarra. Los metí en el contenedor y entrené un sistema que iba del sonido a la predicción de esta operación 3D. Y ese fue el comienzo de ese proyecto.

Entonces, por supuesto, quise hacer esto para los robots. Ese fue prácticamente el lugar de nacimiento de SonicSense.

Resúmenes técnicos :¿Puedes explicar en términos sencillos cómo funciona?

Chen :Es un sistema integrado de hardware y software. La parte de hardware tiene una pinza robótica con cuatro dedos, y cada una de las yemas de los dedos tiene un micrófono de contacto integrado. Este micrófono de contacto no detecta lo que decimos, pero sí las vibraciones del contacto físico.

El lado del software básicamente permite al robot exportar entornos de forma autónoma mediante un simple toque o agarrar un objeto con un contenedor y agitarlo. El software recopilará las señales de los cuatro micrófonos de contacto y las señales del motor juntas.

Entrenamos una red de inteligencia artificial para predecir cosas como "¿Cuántos dados tienes en un contenedor?" ¿Cuántas aristas tiene este troquel? ¿Cuánto líquido tienes en esta botella de agua? ¿Cuánto estás echando en otro recipiente?’

Resúmenes técnicos :¿Cuáles son tus próximos pasos?

Chen :Estamos investigando un par de ideas nuevas en términos de, en primer lugar, qué otras modalidades de detección son necesarias para que podamos alcanzar una destreza de manipulación a nivel humano. Pero aún más para contenidos más amplios de robótica, no sólo de manipulación. Pero también para la locomoción, la navegación y todo. ¿Existen otras modalidades de detección que necesitemos? Por lo tanto, explorar modalidades novedosas que puedan permitir que los robots o empoderarlos para que tengan capacidades que ni siquiera los humanos o los animales tienen, es una dirección.

Otra dirección que estamos mirando son otras modalidades que ya tenemos en los robots. Por ejemplo, la visión, ¿y cómo fusionamos todas las modalidades para tener una comprensión coherente del mundo en lugar de una sola perspectiva? Entonces, hacer que muchas modalidades de detección se unan y aprendan una comprensión unificada.

Una tercera dirección que estamos considerando es llevar esto a los verdaderos vectores humanos de capacidad de manipulación; el diseño actual es en gran medida un prototipo. Queremos hacer esto escalando tanto la morfología como la capacidad sensorial de la mano a una escala mucho mayor. Esto significa poner muchos sensores en una mano mucho más humana y mostrar realmente una capacidad de manipulación diestra. En este momento, solo estamos haciendo percepción de objetos, pero queremos poder manipular objetos con capacidades mucho más avanzadas.

Transcripción

00:00:00 presentamos Sonic sense, un marco integrado de hardware y software para permitir la detección de vibraciones acústicas para la percepción rica de objetos de robots. Un trabajo reciente ha aprovechado la detección de vibraciones acústicas para el material de los objetos y la predicción de la posición de la clasificación de categorías, estimando la cantidad y el flujo de material granular y realizando colectivamente el razonamiento espacial de los objetos para

00:00:23 reconstrucción visual, sin embargo, el trabajo anterior se centró en una pequeña cantidad de objetos primitivos con una composición de material homogénea, ajustes restringidos para la recopilación de datos y pruebas con un solo dedo, por lo que no está claro si la detección de vibración acústica puede ser útil para la percepción de objetos en condiciones ruidosas y menos controladas.

00:00:44 presente Sonic sense, un diseño holístico en hardware y avances en algoritmos para la percepción de objetos a través de una mejor detección de vibración acústica. Nuestra mano robótica tiene cuatro dedos. Un micrófono de contacto eléctrico está integrado dentro de cada punta de los dedos y alrededor del contrapeso está montado en la superficie exterior de la carcasa para aumentar el impulso del movimiento de los dedos. Nuestro diseño mecánico intuitivo.

00:01:07 permite una gama de movimientos interactivos Primitivos para la percepción de objetos, incluidos movimientos de golpeteo, agarre y sacudida. El micrófono de contacto integrado puede recopilar vibraciones acústicas de alta frecuencia creadas por el contacto entre objetos o interacciones entre objetos y manos. Nuestro robot puede inferir la geometría y el estado de inventario de varios objetos dentro de un contenedor a partir de

00:01:31 sus firmas de vibración acústica únicas durante las interacciones, derivamos 12 características interpretables basadas en métodos tradicionales de procesamiento de señales acústicas para ayudar a distinguir estas diferentes firmas de vibración acústica. Realizamos una reducción de dimensionalidad no lineal sin supervisión con tne en este vector de características de 12 dimensiones agitando el contenedor que nuestro robot puede

00:01:54 distinguimos con éxito diferentes números de dados o dados con diferentes formas dentro del recipiente al verter agua dentro de la botella sostenida por nuestro robot. Podemos detectar diferencias sutiles en las firmas acústicas basadas en diferentes cantidades de agua existentes dentro de la botella. Nuestro robot también puede detectar diferentes cantidades de agua dentro de la botella cuando la agitamos más.

00:02:15 tareas desafiantes de percepción de objetos desarrollamos un conjunto de datos con 83 objetos diversos del mundo real, nuestros objetos cubren nueve categorías de materiales y una variedad de geometrías, desde primitivas simples hasta formas complejas, a diferencia de trabajos anteriores que utilizan humanos para sostener manualmente la mano del robot para interactuar con objetos o diseñar posturas de interacción fijas y fuerzas para la reproducción, derivamos una solución simple pero efectiva

00:02:40 política de interacción basada en heurística para recopilar de forma autónoma la respuesta a la vibración acústica de los objetos. Nuestra política funciona bien para todos nuestros objetos del mundo real que cubren tamaños y geometrías variables. Entrenamos un modelo de clasificación de materiales que toma el espectrograma Mel de nuestra señal de vibración acústica recopilada del sonido del impacto y aprende a predecir el

00:03:02 etiqueta de material la red toma la forma de tres capas de red neuronal convolucional seguidas de dos capas MLP. El resultado inicial de nuestro método conduce a una puntuación F1 de 0,523. Sin embargo, observamos que los materiales de los objetos son relativamente uniformes y fluidos alrededor de las regiones locales. Según esta suposición, podemos refinar de forma iterativa nuestra predicción, nuestro promedio final F1.

00:03:25 la puntuación alcanza 0,763. Nuestro modelo de construcción de reconocimiento de formas toma los puntos de contacto escasos y ruidosos para generar una forma 3D densa y completa del objeto. Apilamos dos capas puntiagudas para codificar la entrada y luego alimentamos la característica global Vector en una red decodificadora con capas completamente conectadas para producir la nube de puntos final. Nuestros resultados obtuvieron un promedio de z. Z

00:03:50 Z 876 M campeón de puntuación de distancia, la predicción sobre objetos con formas primitivas generalmente tiene un rendimiento casi perfecto, además, nuestro método exhibe la capacidad de reconstruir objetos con formas complejas solo a través de largueros y contacto ruidoso. Estimaciones puntuales cuando el robot ha interactuado con un objeto con sus respuestas de vibración acústica que pretendemos

00:04:13 hacemos que nuestro robot vuelva a identificar el objeto a través de un conjunto de 15 nuevas interacciones de golpeteo. Ingresamos 15 tanto de la colección de espectrogramas Mel como de sus puntos de contacto asociados a la red para predecir la etiqueta de este objeto entre 82 objetos en nuestro conjunto de datos. Nuestro robot puede volver a identificar el mismo objeto con más del 92 % de precisión. Nuestro robot tiene una fuerte resistencia al ambiente.

00:04:37 ruidos y solo se enfoca en señales de vibración a través del contacto físico, esto garantiza datos de detección confiables y de alta calidad en condiciones ambientales desafiantes. Toda nuestra mano robótica cuesta $215 con componentes disponibles comercialmente e impresión 3D. Nuestros resultados experimentales demuestran la versatilidad y eficacia de nuestro diseño en variedades de percepción de objetos.

00:05:01 tareas que incluyen estimación del estado del inventario de objetos sólidos y líquidos dentro de contenedores clasificación de materiales reconstrucción de formas 3D y reidentificación de objetos en general nuestro método presenta contribuciones únicas a la percepción táctil con vibraciones acústicas y abre nuevas oportunidades para futuros diseños de robots para construir un robot completo más robusto

00:05:23 modelo perceptivo del mundo versátil y holístico

Un robot de mesa compacto revoluciona la prestación de fisioterapia Los propulsores eléctricos desarrollados por la NASA permiten que los satélites comerciales mantengan la órbita y extiendan la vida útil de la misión

Sensor

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas