Manufactura industrial
Internet industrial de las cosas | Materiales industriales | Mantenimiento y reparación de equipos | Programación industrial |
home  MfgRobots >> Manufactura industrial >  >> Manufacturing Technology >> Tecnología Industrial

Facebook desarrolla una inteligencia artificial capaz de copiar la voz de cualquier persona con una precisión sin precedentes

Ha habido grandes avances en las técnicas de aprendizaje automático en los últimos años. Estas técnicas han funcionado muy bien para reconocer objetos, rostros y generar imágenes realistas.

Sin embargo, cuando se trata de audio, la inteligencia artificial es algo decepcionante. Incluso los mejores sistemas de conversión de texto a voz carecen de las características básicas, como cambios en la entonación. ¿Ha escuchado la voz generada por la máquina de Stephen Hawking? A veces, es muy difícil entender sus oraciones.

Ahora, los científicos de Facebook AI Research han desarrollado un método para superar las limitaciones de los sistemas de texto a voz existentes. Han construido un modelo generativo, llamado MelNet, que puede producir entonación humana con una precisión asombrosa. De hecho, puede hablar con fluidez con la voz de cualquier persona.

¿En qué se diferencia MelNet del lenguaje de máquina existente?

La mayoría de los algoritmos de aprendizaje profundo se entrenan en grandes bases de datos de audio para regenerar patrones de habla reales. El principal problema de esta metodología es el tipo de datos. Por lo general, estos algoritmos se entrenan en grabaciones de formas de onda de audio, que tienen estructuras complejas en escalas de tiempo que varían drásticamente.

Estas grabaciones representan cómo la amplitud del sonido varía con el tiempo:un segundo de audio contiene decenas de miles de pasos de tiempo. Estas formas de onda reflejan patrones particulares en varias escalas diferentes.

Los modelos generativos de formas de onda existentes (como SampleRNN y WaveNet) solo pueden retropropagarse en una fracción de segundo. Por lo tanto, no pueden capturar la estructura de alto nivel que emerge en la escala de varios segundos.

MelNet, por otro lado, usa espectrogramas (en lugar de formas de onda de audio) para entrenar redes de aprendizaje profundo. Los espectrogramas son representaciones de frecuencia de tiempo en 2D que muestran el espectro completo de frecuencias de audio y cómo varían con el tiempo.

Espectrograma y patrones de forma de onda del mismo contenido de audio de 4 segundos

Mientras que las formas de onda 1D en el dominio del tiempo capturan el cambio en el tiempo de una variable (amplitud), los espectrogramas capturan el cambio en diferentes frecuencias. Por lo tanto, la información de audio se empaqueta de manera más densa en espectrogramas.

Esto permite a MelNet producir muestras incondicionales de voz y música con consistencia durante varios segundos. También es capaz de generar voz condicional y síntesis de texto a voz, completamente de un extremo a otro.

Referencia:arXiv:1906.01083 | GitHub

Para reducir la pérdida de información y limitar el suavizado excesivo, modelaron espectrogramas de alta resolución y utilizaron un modelo autorregresivo altamente expresivo, respectivamente.

Los resultados son impresionantes

Los investigadores entrenaron a MelNet en numerosas charlas de Ted, y luego pudo regenerar la voz del hablante diciendo frases aleatorias durante unos segundos. A continuación se muestran dos ejemplos de MelNet usando la voz de Bill Gates para decir frases al azar.

  1. https://www.rankred.com/wp-content/uploads/2019/07/Ai-Voice-2-port.mp3

"El oporto es un vino fuerte con un sabor ahumado".

  1. https://www.rankred.com/wp-content/uploads/2019/07/Ai-voice-.mp3

"Fruncimos el ceño cuando los eventos toman un mal giro".

Hay más ejemplos disponibles en GitHub.

Aunque MelNet crea clips de audio notablemente realistas, no puede generar oraciones o párrafos más largos. Sin embargo, el sistema podría mejorar la interacción computadora-humano.

Muchas conversaciones de atención al cliente implican frases cortas. MelNet se puede utilizar para automatizar dichas interacciones o reemplazar el sistema de voz automatizado actual para mejorar la experiencia de la persona que llama.

Leer:Facebook AI convierte la música de un estilo a otro

En una nota negativa, la tecnología plantea el espectro de una nueva era de contenido de audio falso. Y al igual que otros avances en inteligencia artificial, plantea más preguntas éticas de las que responde.


Tecnología Industrial

  1. Circuito con un interruptor
  2. Los kits de desarrollo aceleran la integración de Alexa
  3. Los dispositivos de bajo consumo podrían escuchar con una cóclea de silicio
  4. Cómo los procesadores de borde de audio permiten la integración de voz en dispositivos IoT
  5. Cuando el audio a través de BLE se encuentra con la activación por voz siempre activa
  6. Renesas desarrolla MCU de 28 nm con funciones asistidas por virtualización
  7. Consideraciones de diseño para sistemas de comando de voz de bajo consumo y siempre activos
  8. ¿Facebook engañó a los anunciantes con métricas de video falsas?
  9. KB Components desarrolla su logística con el especialista en automatización Swisslog
  10. Torno capaz de operación manual con asistencia CNC
  11. Plataforma Móvil Autónoma Transportes con Precisión, Seguridad