Manufactura industrial
Internet industrial de las cosas | Materiales industriales | Mantenimiento y reparación de equipos | Programación industrial |
home  MfgRobots >> Manufactura industrial >  >> Manufacturing Technology >> Tecnología Industrial

La nueva IA de Google identifica voces individuales en entornos concurridos

Los humanos son excepcionalmente buenos para captar una voz particular en un área concurrida, silenciando todos los demás sonidos. Sin embargo, esto sigue siendo un difícil desafío para las máquinas. Todavía no son buenos para separar el habla individual cuando dos o más personas hablan o en presencia de ruido de fondo.

Ahora Google ha desarrollado un modelo audiovisual basado en aprendizaje profundo que puede centrarse en una única señal de audio a partir de una mezcla de voces y ruido de fondo. La IA puede analizar el vídeo y mejorar las voces de determinadas personas mientras suprime todos los demás sonidos.

No requiere ningún formato especial de audio o vídeo; Funciona en todos los formatos de vídeo comunes con una pista de audio. El usuario puede seleccionar una cara en particular en un video que desea escuchar o dejar que el algoritmo lo haga según el contexto.

La tecnología utiliza una combinación de señales visuales y auditivas de un video para separar las voces. Los algoritmos pueden identificar qué persona está hablando actualmente en función de los movimientos de su boca. Estas señales visuales mejoran significativamente la calidad de la separación del habla en el habla mixta y asocian pistas de sonido con hablantes visibles.

¿Cómo se hace?

Los ingenieros recopilaron una gran cantidad de videos de calidad de YouTube sobre programas de entrevistas y conferencias para producir muestras de capacitación. Luego filtraron 2.000 horas de clips de estos vídeos. El vídeo filtrado tenía una voz limpia:sin ruido de la audiencia, música mezclada ni interferencias de fondo.

Luego usaron este contenido para crear una combinación de videos de rostros con su voz asociada y ruido de fondo de diferentes fuentes. Entrenaron una red neuronal convolucional de múltiples flujos para separar las voces de oradores individuales del vídeo de voz mixta.

Tanto la representación espectrográfica de la banda sonora como las miniaturas faciales de los oradores en cada cuadro (extraídas del video) se insertan en la red neuronal. La red aprende gradualmente (período de capacitación) cómo codificar señales auditivas y visuales y fusionarlas para crear un único contenido audiovisual.

Mientras tanto, la red también aprende a proporcionar máscaras de tiempo y frecuencia para hablantes individuales. Luego multiplica los espectrogramas de entrada ruidosos en máscaras, para producir un discurso limpio, mientras elimina las interferencias y el ruido.

Detalles de implementación

La red se implementa en TensorFlow (marco de aprendizaje automático de código abierto) y sus operaciones se utilizan para realizar formas de onda y transformadas de Fourier de corto tiempo. Todas las capas de red, excepto la capa de máscara, van seguidas de activaciones de unidades lineales rectificadas.

La normalización por lotes se realiza para todas las capas convolucionales. Para ello, utilizaron un tamaño de lote de 6 muestras y se entrenaron para 5 millones de lotes (pasos). Los audios se vuelven a muestrear a 16 KHz y el audio estéreo se convierte en mono para calcular la transformada de Fourier de corta duración.

Referencia: arXiv:1804.03619 | Investigación de Google

Todas las incrustaciones de rostros se vuelven a muestrear a 25 cuadros por segundo antes del entrenamiento, lo que resultó en un flujo visual de entrada de 75 incrustaciones de rostros. Utilizaron vectores cero cuando se encontraron fotogramas faltantes en una muestra específica.

Aplicaciones

La tecnología podría tener innumerables aplicaciones, desde reconocimiento de audio en videos hasta mejora del habla, especialmente cuando varias personas hablan. Ampliaría los tipos de micrófonos que se pueden utilizar en diversos entornos de audio. Pero por ahora, YouTube y Hangouts parecen dos lugares fáciles para comenzar. En última instancia, podría aplicarse a auriculares amplificadores de voz y Google Glasses.

Leer:Google desarrolla inteligencia artificial de voz que es indistinguible de la humana | Tacotrón 2

Además, la técnica tiene potencial para proporcionar un mejor sistema de subtítulos de vídeo para hablantes superpuestos, mediante el preprocesamiento del reconocimiento de voz. Esta función facilitaría que las personas sordas participen en teleconferencias y disfruten de vídeos de películas.


Tecnología Industrial

  1. Desarrollo de software Lean en 2022:una guía paso a paso para los CTO de Raleigh
  2. Cómo superar los desafíos comunes de recursos humanos en la fabricación
  3. ¿Por qué confiar en un taller mecánico para el mantenimiento de maquinaria industrial?
  4. Perla de ferrita:cilindro diminuto en cables y cables de alimentación. ¿Por qué?
  5. 7 consejos para mejorar las piezas mecanizadas por CNC
  6. Proyecto destacado:pluma de repuesto
  7. ¿Cómo dimensionar un generador? Portátil, de respaldo y en espera para aplicaciones domésticas y comerciales
  8. Cuándo elegir acero inoxidable para su proyecto de fabricación
  9. PCB de una cara, de doble cara y de varias capas
  10. ¿Qué es el mecanizado de precisión?
  11. La importancia de las ferias y eventos comerciales virtuales de fabricación