La nueva IA de Google identifica voces individuales en entornos concurridos

Google desarrolla una nueva IA que puede centrarse en una voz concreta en un área concurrida.
Utiliza una combinación de señales visuales y auditivas para separar las voces.
La tecnología también tiene potencial para proporcionar un mejor sistema de subtítulos de vídeo para oradores superpuestos, mediante el preprocesamiento del reconocimiento de voz.

Los humanos son excepcionalmente buenos para captar una voz particular en un área concurrida, silenciando todos los demás sonidos. Sin embargo, esto sigue siendo un difícil desafío para las máquinas. Todavía no son buenos para separar el habla individual cuando dos o más personas hablan o en presencia de ruido de fondo.

Ahora Google ha desarrollado un modelo audiovisual basado en aprendizaje profundo que puede centrarse en una única señal de audio a partir de una mezcla de voces y ruido de fondo. La IA puede analizar el vídeo y mejorar las voces de determinadas personas mientras suprime todos los demás sonidos.

No requiere ningún formato especial de audio o vídeo; Funciona en todos los formatos de vídeo comunes con una pista de audio. El usuario puede seleccionar una cara en particular en un video que desea escuchar o dejar que el algoritmo lo haga según el contexto.

La tecnología utiliza una combinación de señales visuales y auditivas de un video para separar las voces. Los algoritmos pueden identificar qué persona está hablando actualmente en función de los movimientos de su boca. Estas señales visuales mejoran significativamente la calidad de la separación del habla en el habla mixta y asocian pistas de sonido con hablantes visibles.

¿Cómo se hace?

Los ingenieros recopilaron una gran cantidad de videos de calidad de YouTube sobre programas de entrevistas y conferencias para producir muestras de capacitación. Luego filtraron 2.000 horas de clips de estos vídeos. El vídeo filtrado tenía una voz limpia:sin ruido de la audiencia, música mezclada ni interferencias de fondo.

Luego usaron este contenido para crear una combinación de videos de rostros con su voz asociada y ruido de fondo de diferentes fuentes. Entrenaron una red neuronal convolucional de múltiples flujos para separar las voces de oradores individuales del vídeo de voz mixta.

Tanto la representación espectrográfica de la banda sonora como las miniaturas faciales de los oradores en cada cuadro (extraídas del video) se insertan en la red neuronal. La red aprende gradualmente (período de capacitación) cómo codificar señales auditivas y visuales y fusionarlas para crear un único contenido audiovisual.

Mientras tanto, la red también aprende a proporcionar máscaras de tiempo y frecuencia para hablantes individuales. Luego multiplica los espectrogramas de entrada ruidosos en máscaras, para producir un discurso limpio, mientras elimina las interferencias y el ruido.

Detalles de implementación

La red se implementa en TensorFlow (marco de aprendizaje automático de código abierto) y sus operaciones se utilizan para realizar formas de onda y transformadas de Fourier de corto tiempo. Todas las capas de red, excepto la capa de máscara, van seguidas de activaciones de unidades lineales rectificadas.

La normalización por lotes se realiza para todas las capas convolucionales. Para ello, utilizaron un tamaño de lote de 6 muestras y se entrenaron para 5 millones de lotes (pasos). Los audios se vuelven a muestrear a 16 KHz y el audio estéreo se convierte en mono para calcular la transformada de Fourier de corta duración.

Referencia: arXiv:1804.03619 | Investigación de Google

Todas las incrustaciones de rostros se vuelven a muestrear a 25 cuadros por segundo antes del entrenamiento, lo que resultó en un flujo visual de entrada de 75 incrustaciones de rostros. Utilizaron vectores cero cuando se encontraron fotogramas faltantes en una muestra específica.

Aplicaciones

La tecnología podría tener innumerables aplicaciones, desde reconocimiento de audio en videos hasta mejora del habla, especialmente cuando varias personas hablan. Ampliaría los tipos de micrófonos que se pueden utilizar en diversos entornos de audio. Pero por ahora, YouTube y Hangouts parecen dos lugares fáciles para comenzar. En última instancia, podría aplicarse a auriculares amplificadores de voz y Google Glasses.

Leer:Google desarrolla inteligencia artificial de voz que es indistinguible de la humana | Tacotrón 2

Además, la técnica tiene potencial para proporcionar un mejor sistema de subtítulos de vídeo para hablantes superpuestos, mediante el preprocesamiento del reconocimiento de voz. Esta función facilitaría que las personas sordas participen en teleconferencias y disfruten de vídeos de películas.

Los números aleatorios generados cuánticamente establecen un nuevo estándar de precisión La técnica PRISM rompe los límites de difracción de la luz para obtener imágenes de células vivas en el espacio y el tiempo

Tecnología Industrial

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial