Uso de DSP para IA de audio en el borde
Una vez confinado a servidores en la nube con recursos prácticamente infinitos, el aprendizaje automático se está moviendo hacia los dispositivos periféricos por varias razones, que incluyen una latencia más baja, un costo reducido, una eficiencia energética y una mayor privacidad. El tiempo necesario para enviar datos a la nube para su interpretación podría ser prohibitivo, como el reconocimiento de peatones en un automóvil autónomo. El ancho de banda necesario para enviar datos a la nube puede ser costoso, sin mencionar el costo del servicio en la nube en sí, como el reconocimiento de voz para los comandos de voz.
La energía es una compensación entre el envío de datos de ida y vuelta al servidor frente al procesamiento localizado. Los cálculos de aprendizaje automático son complejos y podrían agotar fácilmente la batería de un dispositivo periférico si no se ejecutan de manera eficiente. Las decisiones de Edge también mantienen los datos en el dispositivo, lo cual es importante para la privacidad del usuario, como los correos electrónicos confidenciales dictados por la voz en un teléfono inteligente. Audio AI es un rico ejemplo de inferencia en el borde; y un nuevo tipo de procesador de señal digital (DSP) especializado para casos de uso de aprendizaje automático de audio puede permitir un mejor rendimiento y nuevas funciones en el borde de la red.
La activación por voz siempre activa es uno de los primeros ejemplos de aprendizaje automático en el borde:escuchar una palabra clave como "Hey Siri" o "OK Google" antes de activar el resto del sistema para determinar la siguiente acción. Si esta detección de palabras clave se ejecutó en un procesador de aplicaciones genérico, podría necesitar más de 100 mW. A lo largo del día, esto agotaría la batería del teléfono inteligente. Por lo tanto, los primeros teléfonos que implementaron esta función tenían algoritmos transferidos a un pequeño DSP que podía funcionar a menos de 5 mW. Hoy en día, estos mismos algoritmos pueden ejecutarse en un DSP de aprendizaje automático y audio especializado en un micrófono inteligente a menos de 0,5 mW.
Una vez que un dispositivo de borde está habilitado para el aprendizaje automático de audio siempre activo, puede hacer más cosas que el reconocimiento de voz a baja potencia:conciencia contextual, como si el dispositivo está en un restaurante lleno de gente o en una calle concurrida, reconocimiento de música ambiental, reconocimiento ultrasónico de habitaciones, e incluso reconocer si alguien cercano está gritando o riendo. Estos tipos de funciones permitirán nuevos casos de uso sofisticados que podrían mejorar el dispositivo de borde y beneficiar al usuario.
El mejor rendimiento y eficiencia energética para la inferencia de aprendizaje automático en el borde requiere una amplia personalización del hardware; algunas de las técnicas más impactantes se recopilan en la Tabla 1. La implementación de estas características mejorará la eficiencia de la inferencia del aprendizaje automático en el borde.
La mayoría de las operaciones aritméticas necesarias para la inferencia de redes neuronales son multiplicaciones de matriz-vector. Esto se debe a que los modelos de aprendizaje automático generalmente se representan como matrices, que se aplican a nuevos estimulantes representados como vectores. La técnica más común para mejorar la inferencia del aprendizaje automático en el borde es hacer que la multiplicación matriz-vector sea muy eficiente. Una multiplicación fusionada seguida de una acumulación (MAC) es una forma común de abordar esto.
Aunque la fase de entrenamiento es sensible a la precisión numérica, la fase de inferencia puede lograr resultados casi equivalentes con baja precisión (por ejemplo, 8 bits). Limitar la precisión puede reducir en gran medida la complejidad del cálculo de los bordes. Por esta razón, empresas de procesadores como Intel y Texas Instruments han agregado MAC de precisión limitada. El TMS320C6745 de Texas Instruments puede ejecutar 8 MAC de 8 bits cada uno por ciclo. Además, el DSP de audio de Knowles admite 16 MACS de 8 bits cada uno por ciclo.
Tanto la fase de entrenamiento como la de inferencia ejercen presión sobre el subsistema de la memoria. El soporte del procesador para anchos de palabra amplios a menudo se mejora para adaptarse a esto. Los procesadores de alto rendimiento más recientes de Intel tienen AVX-512 que admite la transferencia de 512 bits por ciclo a una matriz de 64 multiplicadores. Texas Instruments 6745 utiliza un bus de 64 bits para aumentar el ancho de banda de la memoria. Los procesadores de audio avanzados de Knowles utilizan un bus de 128 bits que logra un buen equilibrio entre un área de chip grande y un ancho de banda elevado. Además, las arquitecturas de aprendizaje automático de audio (como RNN o LSTM) a menudo requieren comentarios. Esto impone requisitos adicionales a la arquitectura del chip, ya que la dependencia de los datos puede paralizar arquitecturas con muchas canalizaciones.
Aunque el aprendizaje automático tradicional puede funcionar con datos sin procesar, los algoritmos de aprendizaje automático de audio suelen realizar análisis espectrales y extracción de características para alimentar las redes neuronales. La aceleración de las funciones tradicionales de procesamiento de señales, como las FFT, los filtros de audio, las funciones trigonométricas y los logaritmos, son necesarias para la eficiencia energética. Las operaciones posteriores a menudo utilizan una variedad de operaciones vectoriales no lineales, como un sigmoide, implementado como una tangente hiperbólica o una unidad lineal rectificada (función de valor absoluto con todos los números negativos cambiados a cero). Estas sofisticadas operaciones no lineales requieren muchos ciclos en los procesadores tradicionales. Las instrucciones de ciclo único para estas funciones también mejoran la eficiencia energética de los DSP de audio de aprendizaje automático.
En resumen, los procesadores avanzados especializados tanto para el aprendizaje automático como para el procesamiento de audio permiten la inferencia de borde siempre activa en tiempo real a bajo costo y, al mismo tiempo, mantienen la privacidad. El consumo de energía se mantiene bajo a través de decisiones arquitectónicas sobre el soporte del conjunto de instrucciones para permitir múltiples operaciones por ciclo y buses de memoria más amplios para mantener un alto rendimiento con baja potencia. A medida que las empresas continúen innovando en computación especializada en el borde, los casos de uso para el aprendizaje automático que lo utilizan solo aumentarán.
Jim Steele es vicepresidente de estrategia tecnológica en Knowles Corp.
>> Este artículo se publicó originalmente el nuestro sitio hermano, EE Times:"Machine Learning on DSPs:Enable Audio AI at the Edge".
Tecnología de Internet de las cosas
- La cadena de suministro y el aprendizaje automático
- Es hora de cambiar:una nueva era en el límite
- NXP duplica el aprendizaje automático en el borde
- Las tendencias continúan impulsando el procesamiento al límite para la IA
- Inteligencia artificial frente a aprendizaje automático frente a aprendizaje profundo | La diferencia
- Consejos para elegir la máquina CNC adecuada
- Directrices para el manejo de DSP utilizando
- Aprendizaje automático en el campo
- Intel recluta a Udacity para otorgar un título en IA en el perímetro
- La necesidad del código abierto en el perímetro (eBook)
- Al borde de la gloria:posibilitando una nueva era de máquinas de Internet