Cómo los procesadores de borde de audio permiten la integración de voz en dispositivos IoT

Procesadores de borde de audio dedicados con un enfoque en la fidelidad de audio y con núcleos optimizados de aprendizaje automático son la clave para proporcionar a los dispositivos IoT interfaces de usuario de voz sin la necesidad de una conexión a Internet de gran ancho de banda.
Las capacidades de procesamiento de voz están emergiendo rápidamente en productos de consumo como iOttie Aivo Connect. (Fuente:Knowles)

Desde la automatización del hogar y el comercio electrónico hasta la atención médica y la automotriz, más industrias ahora combinan las capacidades de IoT con la integración de voz para satisfacer las demandas cambiantes y desbloquear las ventajas comerciales. Sin embargo, la voz aún se encuentra en las primeras fases de adopción y apenas comienza a expandirse más allá de los dispositivos móviles y los altavoces. La voz se convertirá en el método estándar de interacción entre los usuarios y sus dispositivos de IoT. Este cambio a la voz primero está respaldado por algo más que la idea de que aumenta los niveles de comodidad del consumidor con la tecnología. La movilidad global de los dispositivos habilitados por voz para la búsqueda por voz sobre la marcha, el progreso en el procesamiento del lenguaje natural (NLP) y los avances en inteligencia artificial y aprendizaje automático permitirán que las nuevas aplicaciones evolucionen rápidamente.

La interacción de voz agradable y atractiva está limitada por una calidad de sonido constante en presencia de ruido y otros distractores. La capacidad de su dispositivo para administrar el sonido de manera inteligente es lo que hace o rompe su capacidad para comunicarse. Se espera que la interfaz de usuario de voz siempre activa (VUI) se convierta en un lugar común en más productos de consumo, incluidos dispositivos de audio y video, electrodomésticos y también en una amplia gama de dispositivos que funcionan con baterías, como controles remotos, dispositivos portátiles, Bluetooth. altavoces, seguridad y cámaras para actividades al aire libre. Si bien existen desafíos de diseño que superar, existe una gran oportunidad para que los proveedores de componentes y los fabricantes de equipos originales ofrezcan productos que satisfagan estas necesidades de aplicación.

Para aprovechar al máximo las oportunidades de integración de voz a medida que maduran, más tecnologías de procesamiento se están moviendo hacia el borde, lejos de la nube. Los resultados son interfaces de usuario mejoradas con menor latencia y menor costo, tanto en dólares como en ancho de banda. Los fabricantes que diseñen soluciones de CE habilitadas para IoT para el mañana deben considerar la integración de voz como un requisito previo de las características del producto. Los OEM que pueden implementar procesamiento de voz dedicado en el borde podrán escalar estas aplicaciones y expandir sus carteras.

Este artículo analiza los desafíos más comunes al implementar VUI para dispositivos IoT siempre activos / siempre escuchando. El artículo revisa los requisitos asociados y las capacidades de diseño necesarias para abordar esos requisitos de manera efectiva, incluida la integración con interfaces de control, pilas de software, desarrollo de algoritmos y desarrollo de aplicaciones de espacio de usuario.

Integración de procesadores de borde de audio en dispositivos IoT

Los procesadores de borde de audio dedicados con un enfoque en la fidelidad del audio y con núcleos optimizados de aprendizaje automático son la clave para admitir dispositivos de comunicación de audio de alta calidad. Estos procesadores pueden entregar suficiente potencia de cómputo para procesar audio usando algoritmos tradicionales y ML mientras usan un pequeño porcentaje de la energía de un procesador genérico. Y dado que el procesamiento ocurre en el dispositivo, es significativamente más rápido que enviar esa información a la nube y viceversa.

Los dispositivos de IoT integran procesadores de audio para agregar capacidades ricas como la activación por voz. Si bien la nube puede ofrecer grandes beneficios, el procesamiento de borde permite a los usuarios aprovechar toda la capacidad de su dispositivo en cualquier momento sin la necesidad de una conexión a Internet de gran ancho de banda. Por ejemplo, los procesadores de audio de borde permiten una experiencia de usuario superior en la comunicación virtual a través del procesamiento de audio de baja latencia con datos contextuales, mientras que también mantienen los datos contextuales locales y seguros.

Desafíos con la integración de voz

Las oportunidades de aplicaciones para llamadas de voz, control e interacción continúan aumentando. Sin embargo, con más dispositivos, se introduce más fragmentación, lo que dificulta la integración de la voz. La forma en que integre el control por voz en cada aplicación, ya sean altavoces Bluetooth, electrodomésticos, auriculares, dispositivos portátiles o ascensores, será diferente. Agregar un disparador de activación por voz podría ser simple, pero diseñar un parlante y un auricular Bluetooth de nivel empresarial es mucho más complejo. Si ese altavoz incluye verdadera integración estéreo inalámbrico (TWS), la complejidad aumenta una vez más.

Además, varias aplicaciones requieren integraciones de voz con diferentes ecosistemas. Por ejemplo, necesita trabajar en un ecosistema Linux para implementar la voz en la mayoría de los televisores inteligentes, pero para obtener voz en un electrodoméstico será necesario trabajar en un ecosistema de microcontroladores (MCU). Para todas estas integraciones hay una forma común y recomendada de hacerlo, pero siempre hay variaciones, lo que aumenta la complejidad.

Las soluciones de desarrollo de alta calidad para el mercado masivo son fundamentales para superar estos desafíos y llevar nueva tecnología al mercado rápidamente para respaldar la forma en rápida evolución en la que trabajamos, vivimos y nos comunicamos. Para enfrentar estos desafíos, las soluciones adecuadas deben abordar múltiples requisitos de diseño.

Abordar los requisitos clave de diseño

Consumo de energía

Para que un dispositivo VUI reciba comandos, debe estar siempre encendido / siempre escuchando los comandos. Ya sea que estos dispositivos estén enchufados, y especialmente si funcionan con baterías, la restricción del consumo de energía puede ser un gran desafío de diseño.

En un sistema de comando de voz, al menos un micrófono debe estar siempre activo, y el procesador encargado de reconocer la palabra de activación también debe estar activo. Los procesadores de borde de audio diseñados con arquitecturas patentadas, aceleradores de hardware y conjuntos de instrucciones especiales pueden ejecutar de manera óptima algoritmos de audio y aprendizaje automático. Estas optimizaciones ayudan a reducir el consumo de energía.

Latencia

No hay tolerancia para la latencia con dispositivos activados por voz. Incluso si hay un retraso percibido de más de 200 milisegundos, los humanos comienzan a hablar entre sí en las llamadas de voz o repiten sus comandos al asistente de voz. Para desarrollar dispositivos integrados de voz que obtengan la aceptación necesaria del consumidor, los ingenieros y diseñadores de productos deben proporcionar cadenas de audio optimizadas en todo el sistema para cumplir con las especificaciones de la industria y las mejores experiencias de usuario. El procesamiento de baja latencia en procesadores de borde es, por lo tanto, un requisito fundamental para garantizar una comunicación de voz de alta calidad.

Integración

Debido a que hay muchas opciones en lo que respecta a la elección de hardware y software para diferentes implementaciones de VUI, existen requisitos que pueden convertirse en un desafío en varios puntos de la etapa de integración. Algunas consideraciones de diseño clave a considerar en el camino incluyen las que se analizan a continuación.

Integración de hardware

Existen varias arquitecturas de hardware para implementar un sistema VUI según el uso del dispositivo, la aplicación y el ecosistema. Cada dispositivo VUI incluirá micrófonos, ya sea un solo micrófono o un conjunto de micrófonos, conectados a un procesador de audio para capturar y procesar audio. En este reciente artículo integrado de Knowles, mi colega revisa las consideraciones de la arquitectura de hardware para implementar un sistema VUI y los beneficios y desventajas de cada uno.

Integración de software de host

Como se mencionó anteriormente, existen varios sistemas operativos y controladores para elegir. Idealmente, el procesador de audio vendrá con firmware y un conjunto de controladores que se configuran para conectarse con el procesador host. El sistema operativo, como Android o Linux, generalmente se ejecuta en el procesador host.

Los componentes del software del controlador que se ejecutan en el espacio del kernel interactúan con el firmware a través de la interfaz de control y los datos de audio del procesador de borde de audio se pueden leer en el espacio de usuario a través de la interfaz estándar de Arquitectura de sonido avanzada de Linux (ALSA).

Para integrar el software con el resto del sistema host, puede convertirse en un trabajo complejo conectar el controlador del procesador de audio proporcionado en el paquete de lanzamiento del software a la imagen del kernel. Esto implica copiar el código fuente del controlador en el árbol de fuentes del kernel, actualizar algunos archivos de configuración del kernel y agregar entradas al árbol de dispositivos de acuerdo con la configuración de hardware relevante.

Una solución a esto sería utilizar diseños de referencia estándar preintegrados con configuraciones exactas o similares.

En una situación ideal, el procesador de borde de audio proporcionaría pilas de software optimizadas para la integración y vendría con algoritmos preintegrados y verificados como una solución a nivel de sistema para simplificar aún más el proceso.

Integración de algoritmos

Ya que estamos en el tema de la integración de algoritmos. Por lo general, hay varios algoritmos en cascada para cambiar entre diferentes casos de uso en un momento dado. Incluso para la activación por voz, un diseño necesita formadores de haz de varios micrófonos, un motor de activación por voz de borde y verificación basada en la nube. Esto significa que al menos tres algoritmos trabajan juntos para optimizar el rendimiento. Para cualquier dispositivo que se integre con las palabras clave de Alexa o Google Home, debe haber múltiples algoritmos, que a menudo provienen de diferentes proveedores, que deben optimizarse juntos en un solo dispositivo.

Una solución es elegir un procesador de borde de audio que venga preintegrado con algoritmos verificados, desarrollado y probado independientemente del sistema host.

Integración de factor de forma

Hay muchos factores de forma que pueden adoptar los dispositivos hoy en día. Cada uno tiene su propia configuración de varios micrófonos instalados. La distancia y la ubicación de los micrófonos y los altavoces juegan un papel importante en el rendimiento. El ajuste y la optimización del rendimiento deben cambiar según el factor de forma final y los casos de uso de destino. También hay variaciones de fabricación que afectan el rendimiento, como el sellado del micrófono, los tratamientos acústicos en el dispositivo, la amortiguación de vibraciones y más.

Privacidad

Muchos procesadores de audio detectan la palabra de activación y luego envían inmediatamente la información a la nube donde se interpreta y se actúa sobre ella. Un gran problema es que una vez que los datos de audio están en la nube, el usuario no tiene control sobre los datos y, por lo tanto, está expuesto a un alto riesgo de privacidad. La solución a este desafío es elegir un procesador de inteligencia artificial de borde que pueda realizar la interpretación de comandos y la lógica de respuesta en el dispositivo, localmente, "en el borde".

Esto permite que los datos de audio personales confidenciales permanezcan locales, sin que se envíen a la nube, donde se pueden utilizar en contra de nuestros deseos. La implementación de VUI ahora no solo es mucho más privada, sino que puede responder más rápido, lo que hace que las interacciones de los usuarios sean mucho más naturales. Este es un gran ejemplo de cómo los procesadores de inteligencia artificial pueden promover los casos de uso existentes para maximizar la utilidad de los dispositivos que usamos y en los que confiamos todos los días.

La interfaz de hardware y software

Los requisitos de diseño para las implementaciones de VUI pueden ser complejos y pueden dificultar la comercialización rápida de dispositivos con integración de voz. Los fabricantes de equipos originales y los integradores de sistemas pueden reducir drásticamente el riesgo al trabajar con kits de desarrollo de soluciones estándar, como el kit de soluciones estándar de Knowles AISonic Bluetooth. Dichos kits ofrecen puntos de partida preconfigurados para prototipos que permiten a los diseñadores desarrollar sus propias innovaciones sin tener que preocuparse por los desafíos de diseño que discutimos anteriormente. Los diseñadores deben buscar kits de desarrollo que tengan algoritmos preintegrados y verificados, micrófonos preconfigurados y controladores que sean compatibles con el procesador host y los sistemas operativos.

Los procesadores de borde de audio que abren sus arquitecturas y entornos de desarrollo aceleran la innovación al proporcionar a los desarrolladores de aplicaciones de audio las herramientas y el soporte para crear nuevos dispositivos y aplicaciones. Los dispositivos de audio futuros serán un esfuerzo de colaboración.

Cómo las pruebas fuzz fortalecen la seguridad de los dispositivos de IoT Evaluación de IoT y el impacto de 5G

Tecnología de Internet de las cosas

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas