Manufactura industrial
Internet industrial de las cosas | Materiales industriales | Mantenimiento y reparación de equipos | Programación industrial |
home  MfgRobots >> Manufactura industrial >  >> Manufacturing Technology >> Tecnología Industrial

Microsoft logra un nuevo avance en el campo de la IA conversacional

Las representaciones de lenguaje robustas y universales son importantes para obtener resultados decentes en varias tareas de procesamiento del lenguaje natural (PNL). El aprendizaje conjunto es uno de los enfoques más eficientes para mejorar la generalización del modelo. Hasta ahora, los desarrolladores lo han utilizado para obtener resultados de vanguardia en una variedad de tareas de comprensión del lenguaje natural (NLU), que van desde la comprensión de lectura automática hasta la respuesta a preguntas.

Sin embargo, estos modelos de conjuntos contienen cientos de modelos de redes neuronales profundas (DNN) y son bastante costosos de implementar. Los modelos previamente entrenados, como GPT y BERT, también son muy costosos de implementar. GPT, por ejemplo, consta de 48 capas de transformadores con 1.500 millones de parámetros, mientras que BERT tiene 24 capas de transformadores con 344 millones de parámetros.

En 2019, Microsoft ideó su propio algoritmo de procesamiento de lenguaje natural (NLP), llamado Multi-Task DNN. Ahora han actualizado este algoritmo para obtener resultados impresionantes.

Ampliación de la destilación de conocimientos

El equipo de investigación comprimió varios modelos ensamblados en un DNN multitarea, utilizando la destilación de conocimientos. Utilizaron el modelo de conjunto [sin conexión] para generar objetivos suaves para cada tarea en el conjunto de datos de entrenamiento. En comparación con los objetivos duros, ofrecen datos más útiles por muestra de entrenamiento.

Tomemos una oración, por ejemplo, "Tuve una buena charla con John anoche", es poco probable que el sentimiento en esta frase sea negativo. Sin embargo, la oración "Tuvimos una conversación intrigante anoche" puede ser negativa o positiva, según el contexto.

Referencia:arXiv:1904.09482 | Blog de investigación de Microsoft

Los investigadores utilizaron tanto los objetivos correctos como los objetivos suaves en varias tareas para entrenar un solo MT-DNN. Utilizaron el marco de aprendizaje profundo PyTorch acelerado por cuDNN para entrenar y probar el nuevo modelo en las GPU NVIDIA Tesla V100.

Resultados

Compararon MT-DNN destilado con MT-DNN y BERT normales. Los resultados muestran que el MT-DNN destilado supera a ambos modelos por un margen significativo, en términos de puntuación general en el punto de referencia de Evaluación de Comprensión del Lenguaje General (GLUE), que se utiliza para evaluar el rendimiento del sistema en una amplia gama de fenómenos lingüísticos.

Puntaje de referencia GLUE

El punto de referencia consta de 9 tareas de NLU, que incluyen similitud de texto, vinculación textual, análisis de sentimientos y respuesta a preguntas. Los datos contienen varios cientos de pares de oraciones extraídas de diferentes fuentes, como texto académico y enciclopédico, noticias y redes sociales.

Todos los experimentos realizados en esta investigación muestran claramente que la representación del lenguaje aprendida a través de MT-DNN destilada es más universal y robusta que las MT-DNN y BERT normales.

Leer:Bosque:Nuevo lenguaje de programación sin bucles de Microsoft

En los próximos años, los investigadores intentarán encontrar mejores formas de combinar objetivos estrictos y correctos y objetivos blandos para el aprendizaje multitarea. Y, en lugar de comprimir un modelo complicado en uno más simple, explorarán mejores formas de utilizar la destilación del conocimiento para mejorar el rendimiento del modelo independientemente de su complejidad.


Tecnología Industrial

  1. El surgimiento de una nueva especie de TI:el profesional híbrido de TI / OT
  2. ¿Está cerrada la oficina? Microsoft anuncia una nueva incubadora de investigación de IA
  3. GLTR:Un nuevo método para detectar el lenguaje generado por computadora
  4. Microsoft crea el modelo de generación de idiomas más grande con 17 mil millones de parámetros
  5. Bosque:Nuevo lenguaje de programación de Microsoft sin bucles
  6. 9 nuevos lenguajes de programación para aprender en 2021
  7. En logística global, la orquestación es la nueva visibilidad
  8. El impacto de los nuevos comportamientos de compra de comercio electrónico
  9. 5G, IoT y los nuevos desafíos de la cadena de suministro
  10. El nuevo panorama del comercio electrónico está redefiniendo el marketing exitoso
  11. "Es la temporada del comercio en tiempo real