Facebook desarrolla una inteligencia artificial capaz de copiar la voz de cualquier persona con una precisión sin precedentes
El nuevo modelo de aprendizaje profundo llamado MelNet puede producir entonación humana con una precisión asombrosa.
Una vez entrenado, puede regenerar la voz de cualquier persona en unos pocos segundos.
Los investigadores demuestran con qué precisión puede clonar la voz de Bill Gates.
Ha habido grandes avances en las técnicas de aprendizaje automático en los últimos años. Estas técnicas han funcionado muy bien para reconocer objetos, rostros y generar imágenes realistas.
Sin embargo, cuando se trata de audio, la inteligencia artificial es algo decepcionante. Incluso los mejores sistemas de conversión de texto a voz carecen de las características básicas, como cambios en la entonación. ¿Ha escuchado la voz generada por la máquina de Stephen Hawking? A veces, es muy difícil entender sus oraciones.
Ahora, los científicos de Facebook AI Research han desarrollado un método para superar las limitaciones de los sistemas de texto a voz existentes. Han construido un modelo generativo, llamado MelNet, que puede producir entonación humana con una precisión asombrosa. De hecho, puede hablar con fluidez con la voz de cualquier persona.
¿En qué se diferencia MelNet del lenguaje de máquina existente?
La mayoría de los algoritmos de aprendizaje profundo se entrenan en grandes bases de datos de audio para regenerar patrones de habla reales. El principal problema de esta metodología es el tipo de datos. Por lo general, estos algoritmos se entrenan en grabaciones de formas de onda de audio, que tienen estructuras complejas en escalas de tiempo que varían drásticamente.
Estas grabaciones representan cómo la amplitud del sonido varía con el tiempo:un segundo de audio contiene decenas de miles de pasos de tiempo. Estas formas de onda reflejan patrones particulares en varias escalas diferentes.
Los modelos generativos de formas de onda existentes (como SampleRNN y WaveNet) solo pueden retropropagarse en una fracción de segundo. Por lo tanto, no pueden capturar la estructura de alto nivel que emerge en la escala de varios segundos.
MelNet, por otro lado, usa espectrogramas (en lugar de formas de onda de audio) para entrenar redes de aprendizaje profundo. Los espectrogramas son representaciones de frecuencia de tiempo en 2D que muestran el espectro completo de frecuencias de audio y cómo varían con el tiempo.
Espectrograma y patrones de forma de onda del mismo contenido de audio de 4 segundos
Mientras que las formas de onda 1D en el dominio del tiempo capturan el cambio en el tiempo de una variable (amplitud), los espectrogramas capturan el cambio en diferentes frecuencias. Por lo tanto, la información de audio se empaqueta de manera más densa en espectrogramas.
Esto permite a MelNet producir muestras incondicionales de voz y música con consistencia durante varios segundos. También es capaz de generar voz condicional y síntesis de texto a voz, completamente de un extremo a otro.
Referencia:arXiv:1906.01083 | GitHub
Para reducir la pérdida de información y limitar el suavizado excesivo, modelaron espectrogramas de alta resolución y utilizaron un modelo autorregresivo altamente expresivo, respectivamente.
Los resultados son impresionantes
Los investigadores entrenaron a MelNet en numerosas charlas de Ted, y luego pudo regenerar la voz del hablante diciendo frases aleatorias durante unos segundos. A continuación se muestran dos ejemplos de MelNet usando la voz de Bill Gates para decir frases al azar.
"Fruncimos el ceño cuando los eventos toman un mal giro".
Hay más ejemplos disponibles en GitHub.
Aunque MelNet crea clips de audio notablemente realistas, no puede generar oraciones o párrafos más largos. Sin embargo, el sistema podría mejorar la interacción computadora-humano.
Muchas conversaciones de atención al cliente implican frases cortas. MelNet se puede utilizar para automatizar dichas interacciones o reemplazar el sistema de voz automatizado actual para mejorar la experiencia de la persona que llama.
Leer:Facebook AI convierte la música de un estilo a otro
En una nota negativa, la tecnología plantea el espectro de una nueva era de contenido de audio falso. Y al igual que otros avances en inteligencia artificial, plantea más preguntas éticas de las que responde.