Manufactura industrial
Internet industrial de las cosas | Materiales industriales | Mantenimiento y reparación de equipos | Programación industrial |
home  MfgRobots >> Manufactura industrial >  >> Industrial Internet of Things >> Sensor

Consideraciones de diseño para sistemas de comando de voz de bajo consumo y siempre activos

Los asistentes de voz y la integración se están implementando en la mayoría de los productos, dispositivos y tecnología introducidos en el mercado. Dicho esto, no es ningún secreto que estos útiles asistentes de voz siempre están listos para escuchar las palabras de activación / activación (como "Ok Google" o "Alexa"), que a menudo utilizan una gran cantidad de energía. En un mundo donde la tecnología avanza rápidamente, es imperativo considerar el impacto que esto tiene en el consumo de energía.

Este artículo proporciona consideraciones de diseño para sistemas de comando de voz de bajo consumo y siempre activos que utilizan detección de actividad de voz (VAD). Explora las compensaciones y consideraciones a la hora de elegir los componentes necesarios para crear una interfaz de usuario de voz (VUI) de uso eficiente de la energía y fácil de usar.

La función VAD detecta la voz humana en el entorno antes de escuchar una palabra de activación, lo que significa que cuando no hay nadie en casa, su asistente de voz no desperdiciará energía innecesaria. Se estima que hay 4.200 millones de asistentes de voz digitales que se utilizan en todo el mundo, y se espera que este número se duplique para 2024. La implementación de esta tecnología en el software de asistente de voz y otros productos que dependen de la integración de voz reduciría drásticamente el consumo de energía de esos que utilizan asistentes de voz.

Hay varias arquitecturas de hardware para implementar un sistema VUI. En general, una implementación típica de interfaz de usuario de voz consta de micrófonos, ya sea un solo micrófono o una matriz de micrófonos conectados a un procesador de audio para capturar y procesar la voz.

El flujo de audio entrante se puede procesar en un procesador de borde de audio de borde, un micrófono inteligente con procesador de borde de audio integrado o en un procesador de aplicaciones estándar (AP). Los procesadores de audio Edge están optimizados para el procesamiento de señales de audio de baja potencia y baja latencia. Además de proporcionar un procesamiento especializado del audio de entrada, también se puede utilizar un procesador de audio de borde para el posprocesamiento de las señales de salida de audio. Si el sistema VUI está conectado a la nube, el procesador de borde de audio también puede comunicarse con la interfaz VUI en la nube a través del sistema principal en un chip (SoC) con conectividad inalámbrica. En este documento se presentan dos implementaciones diferentes para sistemas VUI junto con sus respectivas compensaciones.

VAD (detección de actividad de voz) de consumo ultrabajo

La arquitectura que se muestra en la figura 1 admite VUI de potencia ultrabaja mediante una ruta de señal analógica, que incluye un micrófono analógico y un comparador analógico para proporcionar un activador de activación. Cuando se detecta una actividad acústica, la cadena de señal analógica genera una interrupción para activar el procesador de audio para la captura de voz. El dispositivo también podría incluir una función de "pulsar para hablar", mediante la cual el usuario presiona un botón para activar el procesador de audio.

El micrófono de despertador analógico debe estar siempre atento al entorno y, por lo tanto, este micrófono, junto con el comparador, deben consumir muy poca energía. Un ejemplo de un procesador de audio eficiente con un consumo de energía de menos de 1 mW en su modo de activación de activación más simple y 1 MB de memoria para procesamiento de audio avanzado es el Knowles IA8201. Si bien el enfoque ilustrado en la figura 1 proporciona un enfoque simple de AAD (detección de actividad acústica) de bajo consumo para VUI siempre activo en dispositivos como controles remotos y dispositivos portátiles, tiene limitaciones. Esta implementación despierta el procesador de audio para cualquier señal acústica y puede conducir a un alto consumo de energía general del sistema en situaciones ruidosas. Además, los sistemas de interfaz de usuario de voz que están conectados a la nube requieren que se capturen datos de audio durante un período justo antes de la palabra de activación para una mayor precisión en la detección de la palabra de activación. Esto se conoce comúnmente como pre-roll y es un requisito imprescindible para los dispositivos habilitados para Alexa y otros dispositivos de altavoces inteligentes.

La Figura 2 muestra una arquitectura que admite el almacenamiento en búfer de pre-roll para dispositivos como altavoces inteligentes. Estos dispositivos suelen tener baterías más grandes y / o pueden no tener el requisito de varios meses de duración de la batería con una sola carga. El sistema VUI está siempre encendido, escuchando el entorno y grabando el pre-roll en un búfer circular. La duración del pre-roll suele ser del orden de 500 ms de datos de audio y se utiliza para calibrar el nivel de ruido ambiental.

Hay algunos enfoques diferentes para diseñar la arquitectura front-end siempre activa. La elección del procesador de audio depende de la cantidad de micrófonos utilizados y de si son analógicos o digitales.

La arquitectura que se muestra arriba utiliza un Knowles IA611 para detección de actividad de voz, micrófonos digitales SPH0655LM4H-1 Cornell II para formación de haz y Knowles IA8201 para procesamiento de audio. El Knowles IA611 es un micrófono inteligente que ofrece beneficios a un diseñador de sistemas, como se explica en la siguiente sección.

Selección de micrófono

Para la arquitectura que se muestra en la figura 1, se utiliza un solo micrófono analógico y un comparador como entrada de activación para activar el procesador de audio cuando se detecta una actividad acústica. El micrófono de activación debe ser un micrófono analógico de baja potencia con una relación señal / ruido (SNR) preferiblemente superior a 62 dB. El portafolio de micrófonos Knowles SiSonic MEMS ofrece varias opciones para el micrófono de despertador. Por ejemplo, el micrófono analógico SPV1840LR5H-B Kaskade es una buena opción que consume solo 45 µA cuando está encendido. La ruta analógica siempre activa, que incluye un micrófono, un amplificador y el comparador, consume menos de 67 µA. Hay micrófonos piezoeléctricos disponibles en el mercado con una potencia muy baja y siempre activa (10 µA), pero normalmente tienen una SNR baja, lo que puede afectar el rendimiento del sistema.

Para la arquitectura con capacidad de almacenamiento en búfer de pre-roll que se muestra en la figura 2, los micrófonos con un procesador de audio integrado y memoria suficiente para capturar continuamente datos de voz en un búfer circular de 2 segundos, como el Knowles IA611, son opciones viables para la actividad de voz siempre activa detección. También viene con un ecosistema de comandos y disparadores de voz portados, como Alexa de Amazon. Cuando se detecta una palabra clave, tanto el búfer de pre-roll como el audio de voz pronunciado se envían al motor de reconocimiento automático de voz (ASR) en la nube. La potencia de activación por voz siempre activa del IA611 es de 0,39 mA a una batería de 1,8 V y una eficiencia del 90 por ciento, lo que lo convierte en una buena opción para la interfaz de usuario de voz en dispositivos que funcionan con batería, como los altavoces Bluetooth. El dispositivo también acepta la entrada PDM de un micrófono digital y se puede utilizar para admitir la formación de haces en el procesador BT-SoC anfitrión pasando el audio una vez que el sistema se activa.

Si bien esta energía siempre encendida es aceptable para aplicaciones de pre-roll, también vale la pena considerarla para una arquitectura sin pre-roll como se ilustra en la figura 1. Como se describió anteriormente, un micrófono de activación analógico se activará para cualquier sonido entrante y enciende el procesador de audio. Esto puede ser problemático en un entorno ruidoso, como cuando el televisor está ENCENDIDO, donde habrá muchas estelas espúreas que provocarán un desperdicio significativo de energía. Si se usa la detección de actividad de voz en lugar del micrófono de activación analógico de baja potencia, el sistema se encenderá solo cuando se detecte una palabra clave. Es lógico ver por qué el uso de un micrófono de detección de actividad de voz podría ser más eficiente que un simple micrófono de activación analógico en un entorno ruidoso.

La Figura 3 muestra datos de simulación que comparan la cantidad de días de duración de la batería para un control remoto de TV típico que usa VAD en IA611 versus un micrófono AAD piezoeléctrico de baja potencia de la competencia y un procesador de audio para una duración variable del tiempo de activación de la actividad acústica. La actividad acústica puede estar presente cuando el televisor u otros electrodomésticos están ENCENDIDOS, o en otras situaciones cuando hay balbuceo, etc. Como se ve en la figura 3, hay un punto de cruce alrededor de las 3 horas, por lo que la ventaja de poder de usar el AAD analógico en el micrófono de un competidor frente a la detección de actividad de voz en IA611 desaparece.

Con cinco horas de actividad acústica activada, la solución de detección de actividad de voz ofrece ocho días adicionales de duración de la batería en comparación con la solución basada en AAD de la competencia. Para poner esta ventaja en contexto, los adultos estadounidenses veían casi ocho horas de televisión por día, según un estudio de Nielsen publicado en 2017. Con la creciente demanda de dispositivos conectados a Internet, como televisores inteligentes, consolas de juegos y otros dispositivos multimedia, la Es probable que también sigan aumentando las horas de actividad acústica en un hogar típico de EE. UU. El uso de un despertador inteligente basado en VAD ayudará a los diseñadores de sistemas a desarrollar sistemas VUI más eficientes en el consumo de energía.

Conclusión

Desde el hogar inteligente, la hospitalidad, los lugares de trabajo digitales, los pagos por voz, la gestión inteligente de la energía, la voz en el borde y la atención médica, hasta las aplicaciones industriales de IoT que cambian el piso de la planta, la voz agrega flexibilidad, eficiencia, sostenibilidad y aceptación de adopción a las nuevas tecnologías.

Las diversas arquitecturas de hardware para el diseño de una interfaz de usuario de voz, junto con la sección de micrófono, cada una satisface una necesidad ligeramente diferente según las aplicaciones del dispositivo final y las preferencias del diseñador; Por ejemplo, los dispositivos habilitados para Alexa y los altavoces inteligentes requieren una arquitectura con capacidad de almacenamiento en búfer previo al video.

Es importante que los ingenieros y diseñadores de electrónica evalúen cuidadosamente cómo el dispositivo final aprovechará la voz, las capacidades a las que desean acceder y, a partir de ahí, determinar la arquitectura correcta y los componentes del micrófono en consecuencia.


Raj Senguttuvan tiene más de 15 años de experiencia en el desarrollo de nuevas tecnologías para aplicaciones industriales y de consumo, desarrollo empresarial en etapa inicial y gestión de proyectos para empresas como Analog Devices y Texas Instruments. En su función de director de marketing estratégico de Knowles, dirige el desarrollo a nivel de sistema, impulsa las inversiones de riesgo y las asociaciones, y la estrategia de marketing para IoT y tecnologías de consumo, incluidos procesadores de audio, algoritmos, micrófonos, sensores y receptores. Raj tiene un MBA de la Universidad de Cornell y un doctorado en ingeniería eléctrica del Instituto de Tecnología de Georgia.


Contenidos relacionados :

Para obtener más información sobre Embedded, suscríbase al boletín informativo semanal por correo electrónico de Embedded.

Sensor

  1. 6 Consideraciones de diseño importantes para la impresión 3D en metal
  2. Ventajas de las tecnologías integradas para el diseño modular
  3. Consideraciones de diseño de PCB
  4. Diseño para la fabricación de PCB
  5. Consideraciones de diseño de iluminación para sistemas de visión de cirugía robótica
  6. Por qué la trazabilidad es una base esencial para los sistemas de fabricación habilitados para IIoT
  7. Un diseño inspirado en una araña allana el camino para mejores fotodetectores
  8. Consideraciones importantes para el ensamblaje de PCB
  9. Consideraciones de diseño de impedancia para PCB rígido flexible
  10. Consideraciones de diseño de antenas en el diseño de IoT
  11. Consideraciones de diseño térmico de PCB