Manufactura industrial
Internet industrial de las cosas | Materiales industriales | Mantenimiento y reparación de equipos | Programación industrial |
home  MfgRobots >> Manufactura industrial >  >> Manufacturing Technology >> Tecnología Industrial

Microsoft crea el modelo de generación de idiomas más grande con 17 mil millones de parámetros

Los modelos de lenguaje de aprendizaje profundo a gran escala (como GPT-2 y BERT), con miles de millones de parámetros entrenados en todo el texto disponible en Internet, han mejorado varias tareas de procesamiento del lenguaje natural (NLP), como comprensión de documentos, agentes conversacionales y preguntas. respondiendo.

Se ha observado que los modelos más grandes con datos previos al entrenamiento más diversos y completos funcionan mejor, incluso con menos muestras de entrenamiento. Por lo tanto, es más eficiente entrenar un modelo centralizado masivo y compartir sus características en diferentes tareas en lugar de entrenar un nuevo modelo para cada tarea individualmente.

Siguiendo esta tendencia, los investigadores de Microsoft han presentado Turing Natural Language Generation (T-NLG), el modelo más grande del mundo con 17 mil millones de parámetros. Supera a los modelos de vanguardia existentes en diferentes puntos de referencia de modelado de lenguajes.

T-NLG puede generar palabras para completar oraciones inconclusas, resúmenes de documentos de entrada y respuestas directas a preguntas. A diferencia de otros sistemas de PNL que se basan en la extracción de contenido de documentos para crear un resumen o responder preguntas, el nuevo modelo generativo responde con tanta precisión, directa y fluidez como los humanos en diferentes situaciones.

En lugar de copiar un pasaje, T-NLG responde directamente a la pregunta con una oración completa.

Entrenamiento T-NLG

Dado que una GPU (incluso con 32 GB de memoria) no puede procesar miles de millones de parámetros, debe paralelizar el modelo en sí o dividirlo en porciones para entrenarlo en varias GPU.

En este estudio, los investigadores aprovecharon la configuración de hardware NVIDIA DGX-2 (para agilizar la comunicación entre las GPU) y el corte de tensor (para dividir el modelo en 4 GPU NVIDIA V100). Usando la biblioteca DeepSpeed ​​y el optimizador Zero, pudieron entrenar T-NLG de manera muy eficiente con menos GPU.

Rendimiento frente a tareas estándar

Luego compararon el desempeño del T-NLG previamente entrenado con otros modelos de lenguaje transformador de gran alcance en dos tareas estándar:precisión de predicción de la siguiente palabra de LAMBADA (más alta es mejor) y perplejidad de Wikitext-103 (más baja es mejor). En ambos casos, T-NLG funcionó mejor.

Referencia:Microsoft | GitHub

Rendimiento en cuestión respondiendo

Para probar cualidades como la corrección gramatical y la corrección fáctica, los investigadores buscaron la ayuda de anotadores humanos. Compararon el nuevo modelo con el modelo LSTM (similar a CopyNet).

Rendimiento en resumen activo

T-NLG puede escribir resúmenes abstractos similares a los humanos para una variedad de documentos de texto (incluidos documentos de Word, publicaciones de blog, correos electrónicos, presentaciones de PowerPoint e incluso hojas de Excel), pero qué bueno es, en comparación con otros modelos de PNL existentes.

Para hacer que el nuevo modelo sea más versátil para que pueda resumir todo tipo de texto, los investigadores lo entrenaron en conjuntos de datos de resumen disponibles públicamente. Luego lo compararon con otro gran modelo de lenguaje basado en transformadores llamado PEGASUS y su versión anterior. Esta vez, informaron la puntuación ROUGE, un conjunto de métricas que se utilizan para evaluar el resumen automático en el procesamiento del lenguaje natural.

Aplicaciones

Microsoft ha logrado un gran avance en inteligencia artificial conversacional. En los próximos años, integrarán T-NLG en la suite de Microsoft Office, que no solo ahorrará tiempo a los usuarios al resumir correos electrónicos y documentos, sino que también ofrecerá asistencia para la redacción y responderá las preguntas que los lectores puedan hacer sobre el contenido.

Leer:Microsoft crea un almacenamiento de datos de ADN completamente automatizado

Además, los hallazgos allanan el camino para asistentes digitales y chatbots más precisos y fluidos, lo que ayuda a las empresas con la gestión de ventas y relaciones con los clientes.


Tecnología Industrial

  1. ¡¿Qué hago con los datos ?!
  2. Microsoft logra un nuevo avance en el campo de la IA conversacional
  3. Empiece con el (Ciberseguridad) final en mente
  4. Plataformas de redes digitales:el modelo de madurez de cinco etapas
  5. Optimización de la cadena de suministro de atención médica con un WMS
  6. Protección de la cadena de suministro global con datos sin fronteras
  7. Navegando por la crisis de capacidad con sistemas de mantenimiento digital
  8. Preparar el negocio para el futuro con tecnologías para compradores digitales
  9. ¿Cómo puedo aprovechar al máximo mi inversión en generación de oportunidades de venta?
  10. SSI Schaffer proporciona a Coop "una de las soluciones de automatización más grandes del mundo"
  11. ¿Qué es el equipo como servicio? Los beneficios de EaaS