Algoritmos y aumento de potencia del hardware del control por voz

El control de voz y las interfaces de voz han comenzado su inexorable infiltración en casi todas las categorías de dispositivos de borde de consumo. Los avances tanto en los algoritmos de reconocimiento de voz como en el hardware del acelerador de inteligencia artificial significan que la tecnología es accesible incluso para aplicaciones con limitaciones de energía y costos, como dispositivos domésticos inteligentes (e incluso algunos tontos).

Los impulsores detrás del control por voz en los dispositivos domésticos inteligentes desde el lado del usuario son claros.

Alireza Kenarsari-Anhari (Fuente:PicoVoice)

“La facilidad de uso y la conveniencia son los principales impulsores en este momento”, dijo a EE Times Alireza Kenarsari-Anhari, directora ejecutiva de PicoVoice. Es fácil imaginarse gritando a una cafetera en la oficina de su casa desde su escritorio cuando quiere un café, o dictando órdenes a una secadora mientras sostiene una canasta de ropa mojada.

Suponemos que los dispositivos inteligentes como estos, que no son portátiles, tienen acceso permanente a la conexión WiFi de la casa, entonces, ¿por qué no hacer este procesamiento de voz en la nube?

La tendencia hacia la IA de borde en esta situación está impulsada principalmente por la privacidad, que según Kenarsari-Anhari es una preocupación para los consumidores, pero imprescindible para algunas empresas. La confiabilidad es otro factor:"¿Tiene sentido que su lavadora deje de funcionar si su WiFi no funciona?" dijo.

La latencia también es importante en determinadas situaciones; algunas aplicaciones necesitan garantías en tiempo real para el procesamiento de la carga de trabajo de voz, como los juegos.

El costo es otro factor importante para el procesamiento de voz en el borde, ya que cuesta dinero procesar estos datos de voz en la nube. El modelo comercial de pagar cada vez que usa una API en la nube no funciona para casos de uso como electrodomésticos y productos electrónicos de consumo, que tienen un bajo costo y pueden usarse muchas veces al día.

PicoVoice, cuyo motor de inferencia de voz a texto de IA está diseñado para ejecutarse independientemente de la nube en microcontroladores de menos de $ 1, tiene como objetivo habilitar el control de voz en aplicaciones donde de otra manera no sería factible. Esto podría incluir dispositivos portátiles y audibles para el consumidor, que se encuentran en el punto de intersección de necesitar la eficiencia energética y la rentabilidad que podría permitir una solución de voz basada en microcontroladores. Una solución optimizada en cuanto a energía y costos también podría desbloquear oportunidades en aplicaciones industriales, de seguridad y médicas, dice Kenarsari-Anhari.

La compañía lanzó recientemente Shepherd, una plataforma sin código para construir aplicaciones de voz en microcontroladores, que funciona con el software de creación de modelos de la compañía, PicoVoice Console. Shepherd admite los populares microcontroladores Arm Cortex-M de ST y NXP con soporte para otros dispositivos en camino.

“Pienso en la voz como una interfaz:si puedes construir tu GUI o sitio web sin codificar, tal vez usando WordPress, construir interfaces de voz de manera similar es el siguiente paso lógico”, dijo Kenarsari-Anhari. “Shepherd está capacitando a los gerentes de productos y diseñadores de UX para que construyan prototipos e iteren rápidamente, pero nuestro objetivo es ampliar su base de usuarios objetivo. ¿Y si todos pudieran construir su propio asistente? Nómbrelo como ellos quieran, ¡no Alexa! - y darle la personalidad que quieren ”.

Si bien es perfectamente posible desarrollar modelos de procesamiento del lenguaje natural e implementarlos sin un software especializado, esta ruta no es para todos.

“Ciertamente se puede:Apple, Amazon, Google y Microsoft lo hicieron”, dijo. “Realmente se trata de si una empresa tiene los recursos, está comprometida a construir una organización a su alrededor y puede permitirse esperar unos años”.

Tendencias futuras

La voz se está convirtiendo en la interfaz preferida para la próxima generación de usuarios de tecnología, dijo Kurt Busch, CEO de Syntiant a EE Times en una entrevista el verano pasado.

Kurt Busch (Fuente:Syntiant)

Busch describió cómo su hijo menor, que sabía leer pero aún era demasiado pequeño para escribir y deletrear, podía enviar mensajes de texto a sus amigos mediante la interfaz de voz de un teléfono inteligente.

“Sus hermanos mayores envían mensajes de texto, pero su generación obtuvo teléfonos unos años antes que ellos”, dijo Busch. “Con el paso del tiempo, para su generación y los más jóvenes, su interfaz predeterminada es hablar con él”.

La opinión de Busch es que la voz se convertirá en "la pantalla táctil del futuro", y el procesamiento en el dispositivo proporcionará interfaces rápidas y receptivas al principio en dispositivos que tienen un teclado o mouse, y luego en electrodomésticos.

Los chips de Syntiant son aceleradores de inteligencia artificial especializados diseñados para manejar cargas de trabajo de inteligencia artificial de voz en dispositivos electrónicos de consumo con presupuestos de energía bajos a extremadamente bajos. La startup ha enviado más de 10 millones de sus chips a nivel mundial hasta la fecha, la mayoría de los cuales se han destinado a teléfonos móviles para permitir la detección de palabras clave siempre activa. El último chip Syntiant, NDP120, puede reconocer palabras clave como "OK Google" para activar el asistente de Google en menos de 280 µW.

En el futuro, Busch también prevé que el control por voz permitirá la conectividad y el acceso a la tecnología para todos.

“Vemos a la voz como el gran democratizador de la tecnología”, dijo Busch. “Hay 3 mil millones de personas en el mundo que viven con 2 dólares al día. Mi suposición es que esas personas no tienen acceso a Internet y es posible que no hayan pasado por el sistema educativo. La interfaz natural aquí es [habla]. Así es como se lleva la tecnología al tercio del mundo que no interactúa con la tecnología actual. Hemos visto mucho interés en los países en desarrollo sobre las aplicaciones de voz primero, para obtener aquellos segmentos de la sociedad que tal vez no tenían acceso antes, no solo desde el punto de vista de los gastos sino también desde el punto de vista de la comodidad ”.

Fragmentación del mercado

El peligro de un mercado que está creciendo tan rápidamente como la voz es que puede volverse extremadamente fragmentado rápidamente, dijo a EE Times Vikram Shirastava, director senior de IoT en Knowles, y no solo a lo largo de las líneas de hardware.

Vikram Shrivastava (Fuente:Knowles)

"El mercado se fragmenta según, digamos, ¿qué motor de reconocimiento de voz se está utilizando?" Dijo Shirastava. “El mercado se fragmenta dependiendo de si se está integrando con un SoC de TV o si se trata de una simple MCU en el interior, digamos, un microondas. Obtiene fragmentación basada en los sistemas operativos, o basada en el entorno acústico, ¿es solo el hogar? ¿Es un timbre afuera? No puede haber una solución única para todos. Tienes que encontrar cuáles son los denominadores comunes en cada una de estas verticales y tratar de abordar la integración de la voz en consecuencia ".

Knowles tiene una solución de control de voz basada en DSP de la que pretende introducir versiones para diferentes verticales. Su enfoque consiste en agrupar fragmentos del mercado en aquellos con un denominador común (los controles domésticos, las barras de sonido de TV y los controles remotos pueden pertenecer al mismo grupo, por ejemplo) y luego desarrollar una solución optimizada para ese grupo de aplicaciones. Shirastava llama a este enfoque "un nivel por debajo de llave en mano", que ofrece escalabilidad llave en mano pero con cierta flexibilidad adicional.

"Tenemos que tener algunos lanzamientos diferentes que aborden cierto aspecto de esa fragmentación para permitirnos cubrir las verticales que queremos perseguir", dijo.

El lanzamiento reciente de Knowles, la Solución estándar Bluetooth AISonic, es un kit de desarrollo para el reconocimiento de voz en dispositivos conectados por Bluetooth, como parlantes inteligentes, dispositivos domésticos inteligentes, dispositivos portátiles y asistentes de voz en el vehículo. El kit se basa en el silicio DSP de doble núcleo IA8201 de Knowles, que está diseñado específicamente para el procesamiento de redes neuronales a una potencia mucho menor que la de un procesador de aplicaciones. Por ejemplo, el chip puede manejar modelos de IA separados para localización de palabras clave, clasificación de fuentes, formación de haces, cancelación de eco acústico (AEC) y estimación de la dirección de la fuente al mismo tiempo, en menos de 50 mW. Esto se habilita mediante una extensión del conjunto de instrucciones de casi 400 instrucciones personalizadas para el procesamiento de audio y AI en los núcleos DSP de Tensilica, lo que a su vez permite reducir la frecuencia del reloj para ahorrar energía.

El soporte para teléfono inteligente para vehículos iOttie Aivo Connect de Sugr utiliza el IA8201 de Knowles para las capacidades de voz en el automóvil. Tiene la capacidad de asistente de voz de Alexa incorporada. (Fuente:Knowles)

¿Eventualmente la voz se convertirá en la interfaz de usuario predeterminada para la mayoría de las clases de productos electrónicos de consumo? Sin duda se ve de esa manera. Ha surgido una combinación de algoritmos de control de voz de IA avanzados y eficientes, entornos de desarrollo que permiten a los desarrolladores integrar fácilmente la voz y un ecosistema en crecimiento de soluciones de hardware rentables y energéticamente eficientes que lo hacen posible.

>> Este artículo se publicó originalmente en nuestro sitio hermano, EE. Tiempos.

Características del diseño de referencia de la insignia inteligente Bluetooth SoC Minimizar la energía en espera del dispositivo

Tecnología de Internet de las cosas

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas