Los dispositivos de bajo consumo podrían escuchar con una cóclea de silicio

A medida que avanzamos hacia una informática y detección más omnipresentes y siempre activas, la potencia se vuelve cada vez más importante. Quizás no haya mejor ejemplo de dónde esto es importante que los dispositivos activados por voz en nuestros escritorios, en nuestros bolsillos y distribuidos por nuestros hogares. Como vimos el año pasado, la detección de palabras clave en particular es actualmente un objetivo para todo tipo de tecnologías neuromórficas.

La cóclea de silicio

El ganador 2020 del Premio Misha Mahowald de Ingeniería Neuromórfica es el Prof.Shih-Chii Liu y su equipo, que han estado trabajando en sensores de baja latencia y baja potencia para detectar el habla. Los sensores de audio dinámico que Shih-Chii Liu y su equipo en el Instituto de Neuroinformática (INI) han estado desarrollando podrían eventualmente abordar este mercado. En su núcleo hay una cóclea de silicio diseñada para imitar la biología. Primero, el sonido entrante se filtra en canales de frecuencia utilizando un conjunto de filtros de paso de banda analógicos, cuya salida se rectifica en media onda. Juntos, esto emula la función de las células ciliadas del oído.

En un sistema de audio convencional, el sonido se convierte primero usando un convertidor de analógico a digital y luego las características se extraen usando la transformada digital rápida de Fourier (FFT) y el filtrado de paso de banda (BPF). Estos son procesados por un procesador de señal digital (DSP) que ejecuta la detección de actividad de voz (VAD) o algoritmos de reconocimiento automático de voz. B. En el sensor de audio dinámico INI-Zurich, la señal se recibe como bandas de audio analógicas de las características con y los cambios se codifican, en paralelo, en trenes de picos (eventos) asincrónicos, que luego se procesan.

Como sucede en biología, los diferentes canales se preparan para su procesamiento en el cerebro. En el oído, las células ganglionares codifican las señales como una ráfaga de iones químicos:en la cóclea de silicio, se convierten en picos eléctricos. Esto se puede hacer usando una función clásica de integración y disparo, o un modulador delta asíncrono (ADM) que compara la señal con dos umbrales y envía los eventos apropiados a medida que se pasan, actuando como un extractor de características. Debido a que se ignoran las señales que no cambian, se reduce la cantidad de información redundante que se pasa a la siguiente etapa.

Desde el punto de vista energético, si no sucede nada, la cóclea de silicio apenas gasta energía, pero a medida que aumenta la actividad, también lo hace el número de picos. Dependiendo de la aplicación, eso puede ser una gran ventaja (si hay mucha escucha pero muy poca acción) o ninguna ventaja (cuando hay cosas relevantes para decodificar todo el tiempo).

Sin embargo, como sensor de audio que funciona en régimen de bajo µW, el chip podría ofrecer a los diseñadores de sistemas una opción valiosa para aumentar la eficiencia energética. También permite un rango dinámico muy alto, ya que hay un margen casi infinito para que los picos estén muy separados o cerca porque operan en tiempo continuo.

Reconocimiento de voz

Una parte fundamental de este trabajo ha sido demostrar la utilidad . Específicamente, los flujos de eventos producidos por la cóclea de silicio se pueden usar en aplicaciones reales como la detección de actividad de voz, la primera etapa del reconocimiento de palabras clave. Liu y su equipo han logrado hacer esto mediante el uso de la salida del evento para crear cuadros de datos en 2D:histogramas de los picos que llegan, por frecuencia, dispuestos en los 5 ms del cuadro. Llamados cocleagramas, estos pueden leerse en una red neuronal y su significado descodificado desde allí.

Según Liu, "El uso de redes profundas en un sensor es de gran interés para la comunidad IEEE ISSCC y muy oportuno dado el enorme interés actual en la informática de borde de audio". Ha habido muchos artículos sobre ASIC de bajo consumo para la detección de palabras clave, dice, pero estos utilizan características convencionales similares a los de un espectrograma. Uno de sus objetivos, "es mostrar que las soluciones híbridas (diseños mixtos de señales analógicas) podrían conducir a soluciones de diseños de menor potencia con respuestas de menor latencia".

El año pasado, INI lanzó un video que muestra el sistema reconociendo dígitos (puede ver a Liu desde aproximadamente las 2:06). Está lejos de ser infalible, pero también es relativamente temprano en el desarrollo del sistema. El equipo, que ha incluido a Minhao Yang, Chang Gao, Enea Ceolini, Adrian Huber, Jithendar Anumula, Ilya Kiselev y Daniel Neil a lo largo de los años, también ha experimentado con la fusión de sensores:Liu y sus colegas combinaron información de audio y visual para hacer una clasificación. más confiable [1]. Han estado publicando reglas de diseño iniciales para elegir cuándo los sensores analógicos son ventajosos y cuándo es mejor ceñirse a los digitales [2].

Misha Mahowald, uno de los inventores de la representación de dirección-evento, y por quien se nombra el Premio de Ingeniería Neuromórfica.

Otro esfuerzo constante ha consistido en mejorar la eficiencia energética y el rendimiento del DAS. Parte de esto ha implicado observar la implementación de las funciones individuales, desde los filtros de paso de banda basados en seguidores de fuente hasta el diseño de los extractores de características analógicas.

La reducción del efecto de la variabilidad en la electrónica analógica ha sido otra área importante de investigación. Para ayudar con esto, construyeron un emulador de hardware que podrían usar para probar estos problemas mucho más rápidamente, dicen, de lo que sería posible usando software comercial como Cadence Virtuoso. Al entrenar la red neuronal binaria que utilizan para la clasificación del software en lugar del hardware, pudieron predecir con precisión el rendimiento de la clasificación en una variedad de chips de prueba reales [3]. Ahora están buscando agregar ruido al sistema como un indicador de variabilidad para hacer que el proceso de diseño sea aún más robusto.

Premio Mahowald

Liu fue uno de los primeros investigadores en ingeniería neuromórfica; con ella no solo trabajó en el laboratorio de Carver Mead en Caltech (donde había trabajado Mahowald), sino que fue miembro fundador del Instituto de Neuroinformática cuando muchos miembros del grupo se fueron de California a Zurich.

Al ganar el premio, Liu dijo:“Es un gran honor para nosotros recibir este premio, especialmente con tantos buenos investigadores en ingeniería neuromórfica. El trabajo se basó en décadas de diseño temprano de cócleas de silicio que se extendió desde Dick Lyon, Carver Mead, Lloyd Watts, Rahul Sarpeshkar, Eric Vittoz y Andre van Schaik ”.

Sobre la importancia de la ingeniería neuromórfica, dice:“Incluso al final de la ley de Moore, la computación digital se retrasará con respecto a la eficiencia energética de la biología en al menos un factor de mil. Por lo tanto, la eficiencia potencial de los sistemas electrónicos analógicos híbridos como DAS se está volviendo más importante que nunca ”.

Referencias

[1] D. Neil y S. C. Liu, "Fusión eficaz de sensores con sensores basados en eventos y arquitecturas de redes profundas", en Proceedings - IEEE International Symposium on Circuits and Systems , Julio de 2016, vol. 2016-julio, págs. 2282–2285, doi:10.1109 / ISCAS.2016.7539039.

[2] S. C. Liu, B. Rueckauer, E. Ceolini, A. Huber y T. Delbruck, “Detección dirigida por eventos para una percepción eficiente:algoritmos de visión y audición”, Proceso de señal IEEE. Mag. , vol. 36, no. 6, págs. 29–37, noviembre de 2019, doi:10.1109 / MSP.2019.2928127.

[3] M. Yang, S.-C. Liu, M. Seok y C. Enz, "Detección acústica inteligente de potencia ultrabaja mediante extracción de características inspirada en la cóclea y clasificación DNN".

[4] M. Yang, CH Chien, T. Delbruck y SC Liu, "Una cóclea de silicio binaural de 0,5 V 55 μW 64 × 2 canales para detección de audio estéreo impulsada por eventos", IEEE J. Estado sólido Circuitos , vol. 51, no. 11, págs. 2554-2569, noviembre de 2016, doi:10.1109 / JSSC.2016.2604285.

>> Este artículo se publicó originalmente el nuestro sitio hermano, EE Times.

Los proveedores de la nube citan el rol a medida que la inferencia de IA se mueve al borde Cómo las especificaciones de MIPI Alliance habilitan el IIoT

Tecnología de Internet de las cosas

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas