Los kits de desarrollo aceleran la integración de Alexa

Los ingenieros de diseño pueden emplear módulos de hardware y servicios de software para integrar Alexa Voice Service (AVS) en dispositivos portátiles, automotrices y domésticos inteligentes; que lleva las experiencias de Alexa basadas en la nube a productos que van desde parlantes portátiles hasta electrodomésticos inteligentes e información y entretenimiento en el vehículo. Los desarrolladores pueden integrar Alexa en productos basados en voz y escribir una aplicación complementaria para convertir un producto en uno conectado.

Desde que Amazon lanzó al mercado el dispositivo Alexa original en 2014, Amazon Web Services (AWS) y varios fabricantes de chips han presentado diseños de referencia que ayudan a los ingenieros a integrar la tecnología de reconocimiento de voz de Amazon y la interfaz AVS al proporcionar diseños prediseñados y probados.

Por lo tanto, si su empresa no tiene muchos ingenieros para trabajar en el desarrollo de hardware y software, los diseños de referencia facilitan el desarrollo de una interfaz de voz y comprensión del lenguaje natural simple y rentable para los diseños basados en Alexa. De lo contrario, la integración del procesamiento de audio de alta calidad hace que el desarrollo de dispositivos habilitados para voz sea largo y complicado.

Figura 1. Los diseños de referencia para aplicaciones de voz basadas en AVS están diseñados para integrar sin problemas la tecnología de reconocimiento de voz de Amazon en dispositivos controlados por voz. Fuente:STMicroelectronics

Detección de palabras de activación

Todo comienza con un robusto motor de palabras de activación (WWE) que escucha la palabra clave "Alexa" antes de que el sistema realice alguna acción. Existe una verificación de palabra de activación basada en la nube que valida el contexto y se asegura de que el usuario realmente quiera a Alexa. Aquí, la parte de captura de voz del diseño de referencia mejora la detección de palabras de activación de "Alexa" al realizar la captura de audio en condiciones del mundo real. Para que los diseñadores puedan interrumpir entornos ruidosos incluso desde distancias moderadas.

Tomemos el ejemplo del kit de desarrollo de captura de voz de Cirrus Logic para aplicaciones de Amazon AVS; proporciona afinación acústica con componentes de hardware y software probados. El kit mejora la detección de palabras de activación de "Alexa" tanto en entornos silenciosos como ruidosos, incluso con el usuario a varios metros del dispositivo. Lo hace suprimiendo el ruido y otras interferencias del mundo real para lograr interacciones de voz más precisas y fiables.

Figura 2. El diseño de referencia AVS de campo lejano está dirigido a altavoces inteligentes y otros dispositivos domésticos inteligentes controlados por voz. Fuente:Cirrus Logic

Como se muestra arriba, el kit incluye una placa de captura de voz con la matriz de dos micrófonos, Raspberry Pi 3 (RPi3), altavoz y una tarjeta microSD precargada con el firmware requerido para una productividad instantánea. Una consola de control simplifica el funcionamiento de las diversas aplicaciones RPi3 y proporciona una interfaz fácil de usar para realizar funciones de diagnóstico y ajuste acústico.

La placa de captura de voz cuenta con el códec inteligente CS47L24 de Cirrus Logic, micrófonos MEMS digitales CS7250B y algoritmos SoundClear para control de voz, supresión de ruido y cancelación de eco. Aquí, el códec inteligente integra DAC de alta fidelidad, un amplificador de auriculares estéreo y un amplificador de altavoz mono para reducir el espacio en la placa y la lista de materiales (BOM).

A continuación, los micrófonos MEMS con piso de ruido ultra bajo y un amplio rango dinámico de 103 dB garantizan una captura de voz precisa en condiciones de ruido desafiantes. Por último, los algoritmos de SoundClear bloquean el ruido que, de otro modo, interferiría con la palabra de activación de Alexa.

Eso permite que el kit realice de manera eficiente la detección de palabras de activación de "Alexa" y la captura de audio en condiciones del mundo real, incluso desde distancias moderadas en entornos ruidosos, lo que permite a los usuarios interrumpir de manera confiable la reproducción de música alta o la respuesta de Alexa.

Interfaz de audio

El hardware básico en un diseño basado en AVS comprende varios micrófonos y una interfaz de audio (AFE) que asegura la detección de palabras de activación "Alexa" tanto en entornos silenciosos como ruidosos. Eso hace que la interfaz de audio sea un componente fundamental de cualquier diseño de referencia AVS.

La interfaz de audio capta la voz del usuario, la amplifica, reduce el ruido de fondo y la envía a la nube. Es difícil de hacer y, por lo tanto, usar un kit de desarrollo es una excelente manera de crear una interfaz de audio.

Tomemos el caso de TalkTo, el front-end de audio de DSP Concepts con procesamiento de voz integrado calificado AVS; se lanzó para el diseño de referencia AWS IoT Core de STMicroelectronics, basado en las MCU STM32 del fabricante de chips. El front-end de audio TalkTo presenta reducción de ruido, cancelación de eco y procesamiento de señal basado en formación de haz avanzada para detección de audio de campo lejano. Se entrega a través de Audio Weaver, una herramienta gratuita que ayuda a los desarrolladores a ajustar los diseños de AVS.

Figura 3. Una solución de un solo chip que comprende procesamiento de entrada de audio, detección local de palabras de activación, interfaces de comunicación y contenido de memoria que incluye RAM y flash reduce los costos de BOM y simplifica el diseño. Fuente:STMicroelectronic

La placa de 36 × 65 mm de ST combina un módulo Wi-Fi con una MCU STM32H743 que integra procesamiento de audio, detección local de palabras de activación, interfaces de comunicación y memoria en un solo chip. El hardware de diseño de referencia también incluye una placa secundaria de audio como módulo separado para simplificar aún más el desarrollo y la creación de prototipos.

La placa hija comprende el códec de audio FDA903D, los LED y los botones del usuario, y dos micrófonos MEMS MP23DB01HP espaciados a 36 mm para diseños con limitaciones de tamaño. Eso también permite a los desarrolladores incorporar un modo de privacidad que apaga los micrófonos, por lo que un LED rojo puede informar a los usuarios que Alexa no puede escuchar los comandos de voz.

Reconocimiento de voz de campo lejano

Otros fabricantes de chips también han contribuido con diseños de referencia que integran la tecnología de reconocimiento de voz de campo lejano de Amazon. NXP, por ejemplo, ha presentado una plataforma de referencia que afirma reconocer la solicitud de un usuario desde el otro lado de la habitación incluso cuando se reproduce música a todo volumen.

La plataforma de referencia de NXP para Amazon Alexa comprende un diseño de matriz de 7 micrófonos, algoritmos de procesamiento de audio y tecnología de formación de haces. Integra la tecnología de reconocimiento de voz de campo lejano de Amazon con los procesadores de aplicaciones i.MX de NXP al tiempo que apunta a simplificar la creación de dispositivos controlados por voz.

Los diseños habilitados por voz como Alexa transforman la forma en que los usuarios interactúan con cosas inteligentes que van desde tostadoras a cocinas y termostatos a persianas. Aquí, las placas de referencia y los kits de captura de voz brindan la ruta más rápida al mercado para varios productos habilitados para Alexa, al tiempo que garantizan la activación de palabras de activación y la interpretación de comandos de alta precisión incluso en entornos ruidosos.

Estamos en el comienzo de la revolución de los dispositivos habilitados por voz, y la diversidad de estas aplicaciones significa que los kits y los paneles de referencia prediseñados y probados probablemente jugarán un papel importante. Su papel será crucial para llevar los productos habilitados por voz al mercado más rápido y evitar la complejidad de su diseño.

>> Este artículo se publicó originalmente el nuestro sitio hermano, EDN.

Donde Edge y Endpoint AI se encuentran con la nube Facilitar el aprovisionamiento de IoT a escala

Tecnología de Internet de las cosas

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas