La democratización de la interfaz de voz

Los libros de historia bien pueden ver el control por voz como el avance más importante realizado en la interfaz hombre-máquina. No más escribir, no más apuntar, simplemente decimos lo que queremos. El progreso inicial en esta área avanzó cojeando hasta la llegada de los altavoces inteligentes, cuando comenzamos a darnos cuenta de lo que podría ser posible. Ahora la carrera ha comenzado con mejoras en el reconocimiento, las funciones y las aplicaciones en teléfonos, auriculares, dispositivos de audio y el hogar inteligente. Las soluciones más conocidas en la actualidad dependen de plataformas y servicios controlados por un pequeño número de proveedores, pero eso está cambiando. La activación por voz se puede integrar en cualquier lugar, con personalización, inmunidad al ruido mejorada, menor potencia, mayor alcance y, sin embargo, ser tan eficaz como las grandes plataformas de reconocimiento de voz.

(Fuente:CEVA / Shutterstock)

El mercado de audio de consumo, donde esta capacidad juega un papel importante, tiene una historia interesante. FutureSource muestra que de 2008 a 2012, el volumen en dólares disminuyó a medida que las experiencias de audio se consolidaron principalmente en los teléfonos inteligentes. De 2012 a 2014, el mercado permaneció prácticamente plano. Luego, desde 2015 hasta 2018, volvió a crecer a una tasa compuesta anual del 15%, impulsada principalmente por la activación por voz. De cara al futuro, Yole Développement anticipa un CAGR mínimo del 30% hasta 2023, impulsado principalmente por el reconocimiento de voz . La mayor parte de este crecimiento seguirá estando en los teléfonos inteligentes, seguidos de los auriculares y dispositivos para escuchar, los asistentes personales y las funciones del hogar inteligente (televisores, electrodomésticos, etc.). El mismo informe concluye que ahora estamos entrando en una segunda fase en audio inteligente, donde el control por voz se volverá mucho más generalizado, a medida que los consumidores se sientan más cómodos con este método de control.

Dondequiera que se implementen, el objetivo es mejorar la diferenciación. En un teléfono inteligente o en cualquier otro dispositivo que funcione con baterías, una ventaja obvia es la compatibilidad con la escucha siempre activa; no es necesario presionar un botón antes de dar un comando. Esto requiere detección de palabras de activación de potencia ultrabaja, lo que, como sabemos, significa hardware con software muy similar para minimizar la energía en espera. Naturalmente, desea personalizar las palabras o frases desencadenantes de su marca, y en varios idiomas, para lograr una fuerte penetración en su región y quizás también en el mercado internacional. Aún puede pasar comandos posteriores a uno de los principales proveedores de reconocimiento de voz para descomprimir la solicitud. O quizás no. Si su dispositivo solo necesita soporte para un vocabulario limitado, es posible que no necesite la ayuda de un tercero, si su motor de reconocimiento de voz puede ajustarse a ese objetivo.

Otra necesidad crítica es el reconocimiento y quizás la autenticación, en un entorno ruidoso. El reconocimiento de voz presenta desafíos diferentes a los que existen en el reconocimiento de objetos. En una sala de estar o un automóvil, por ejemplo, puede haber múltiples fuentes de sonido:personas hablando, TV y fuentes independientes de música / radio, ruido interior y exterior y ecos de todos estos desde las superficies de una habitación o el interior de un automóvil. Aislar la fuente de un comando, cancelar los ecos y reducir el ruido de fondo requiere una tecnología sofisticada que depende de varios micrófonos, formación de haces y cancelación de eco, junto con la supresión de ruido.

Esas son las necesidades y, naturalmente, las soluciones disponibles, como las de CEVA, están listas para abordar esas necesidades. Soluciones como el producto de reconocimiento de frases CEVA WhisPro ™ presentado recientemente utilizan software basado en red neuronal que se ejecuta en plataformas CEVA DSP. WhisPro ya es compatible con "Alexa" y "OK Google" como activadores de voz y se puede personalizar en la formación para admitir cualquier activador solicitado por el cliente. Es compatible con varios idiomas y puede manejar varios activadores de voz. La capacitación se realiza con múltiples antecedentes de ruido, por lo que el reconocimiento tiene inmunidad al ruido incorporada, brinda un reconocimiento> 95% y una falsa aceptación de menos de 1 por hora, sin la necesidad de verificación en la nube.

Al agregar una solución especializada de captación de voz, CEVA ClearVox ™, los desarrolladores pueden lograr compatibilidad con varios micrófonos y formación de haces para mejorar la captación de voz en campo lejano, junto con la cancelación de eco y una mayor reducción de ruido. El emparejamiento de WhisPro con ClearVox ofrece un reconocimiento de disparo competitivo a una mejor distancia (hasta 7 metros), especialmente en entornos ruidosos.

Youval Nachum se desempeña como gerente senior de marketing de productos de CEVA para la línea de productos de audio y voz. Youval aporta más de 20 años de experiencia multidisciplinaria, que abarca marketing, arquitectura de sistemas, ASIC y dominios de software en empresas de tecnología líderes. Le apasiona anticipar las tendencias a largo plazo y llevar los programas técnicos a su finalización con éxito. Altamente competente en la combinación de requisitos del mercado, definiciones de productos, estándares de la industria e innovaciones de diseño en productos revolucionarios. Youval tiene un B.Sc. y M.Sc. en Ingeniería Eléctrica del Technion - Instituto de Tecnología de Israel.

Tecnología de servidor web eficiente para microcontroladores con recursos limitados Mantener el crecimiento de IoT

Tecnología de Internet de las cosas

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas