Manufactura industrial
Internet industrial de las cosas | Materiales industriales | Mantenimiento y reparación de equipos | Programación industrial |
home  MfgRobots >> Manufactura industrial >  >> Industrial Internet of Things >> Incrustado

El punto de referencia de aprendizaje automático amplía la compatibilidad con las cargas de trabajo del centro de datos en el perímetro

La organización de evaluación comparativa ML Commons ha lanzado una nueva ronda de puntuaciones de inferencia MLPerf. Esta última ronda se divide en clases de dispositivo para facilitar la comparación. Los resultados también presentan una gama de nuevos modelos de inteligencia artificial, que están destinados a representar una gama de cargas de trabajo diferentes que se implementan comercialmente pero que aún se consideran de última generación.

Los sistemas acelerados por Nvidia representaron alrededor del 85% del total de presentaciones, ganando todas las categorías en las que ingresaron. Sin embargo, no hubo presentaciones de Nvidia en las clases de dispositivos móviles o portátiles (Nvidia no está presente en estos mercados con productos de aceleración de inteligencia artificial). También hubo varias presentaciones interesantes de empresas emergentes y, en general, una mayor tendencia a tener números en varias columnas, lo que facilita las comparaciones.

Cambios desde la última ronda

El primer cambio importante en los resultados de esta ronda es que los sistemas se han dividido en clases:centro de datos, borde, móvil y portátil. Los teléfonos móviles y las computadoras portátiles tienen factores de forma y perfiles de rendimiento muy específicos, lo que los hace fáciles de separar de la lista de bordes más amplia.

"Si está hablando de una computadora portátil, probablemente esté ejecutando Windows, si está hablando de un teléfono inteligente probablemente esté ejecutando iOS o Android", dijo David Kanter, director ejecutivo de ML Commons a EE Times . "Separar estos resultados del grupo más grande de puntuaciones de inferencia es muy útil para aclarar las cosas".

Los puntos de referencia para esta segunda ronda de puntuaciones de inferencia también se han renovado para incluir modelos de IA que representan casos de uso modernos. Mientras que la ronda anterior se centró en los modelos de procesamiento de imágenes y visión, esta vez el centro de datos y las clases de borde incluyen el modelo de recomendación DLRM, el modelo de imágenes médicas 3D-UNet que se usa para buscar tumores en las resonancias magnéticas, el modelo de voz a texto RNN- T y el modelo de procesamiento del lenguaje natural (NLP) BERT.

"[La selección del modelo] está impulsada por los comentarios del cliente, pero no queremos caer en la trampa de que los estudiantes establezcan su propia prueba", dijo Kanter, y explicó que el objetivo era identificar modelos de vanguardia que están en producción. no solo en la fase de investigación. "DLRM y 3D-UNet, fueron [elecciones] muy informadas impulsadas por nuestro consejo asesor, gente del mundo médico, gente que hace recomendaciones a gran escala ... Ese tipo de construcción de carga de trabajo informada es tremendamente valiosa".

Las clases de portátiles y móviles utilizan MobileNetEdge para la clasificación de imágenes, SSD-MobileNetv2 para la detección de objetos, Deeplabv3 para la segmentación de imágenes y Mobile BERT para NLP.

En general, los objetivos de precisión también se han incrementado para reflejar las implementaciones del mundo real.

El análisis a continuación se refiere solo a la división "cerrada" para una comparación justa.

Resultados del centro de datos

Como se esperaba, la mayoría de las presentaciones en la clase de centro de datos utilizaron aceleradores de GPU Nvidia. El resto usó CPU Intel para el procesamiento de IA, con un par de excepciones (ver más abajo). No hay presentaciones de Google para su TPU esta vez, ni presentaciones de nadie en la comunidad vocal de startups que se están estableciendo en este espacio (Graphcore, Cerebras, Groq, etc.).

“El liderazgo de rendimiento [de Nvidia] sobre las CPU ha aumentado de aproximadamente 6X a 30X en un modelo básico de visión por computadora llamado ResNet, y en modelos de sistemas de recomendación avanzados… Nvidia A100 es 237 veces más rápida que la CPU Cooper Lake de [Intel]”, dijo Paresh Kharya , director senior de gestión de productos y marketing de Nvidia. "Un solo DGX-A100 proporciona el mismo rendimiento en sistemas de recomendación que 1000 servidores de CPU, y un valor asombroso para los clientes".

Mipsology fue el único participante sin CPU sin GPU disponible comercialmente en esta división. La compañía tiene una tecnología de aceleración llamada Zebra que se ejecuta en FPGA de Xilinx (en este caso, un Xilinx Alveo U250). Su tecnología puede manejar 4096 consultas ResNet por segundo en modo servidor (en comparación con aproximadamente 5563 para una Nvidia T4) o 5011 muestras por segundo en modo fuera de línea (en comparación con aproximadamente 6112 para Nvidia T4).

La empresa taiwanesa Neuchips presentó una puntuación en la categoría de Investigación, Desarrollo o Interna, lo que significa que el dispositivo que utilizó no está disponible comercialmente y probablemente no lo estará durante al menos otros 6 meses. RecAccel está diseñado específicamente para acelerar DLRM, el modelo de recomendación utilizado en este punto de referencia. Utiliza un diseño masivamente paralelo que se ejecuta en una FPGA Intel Stratix para la inferencia de IA. Sus resultados en la categoría DRLM fueron comparables o peores que los de las CPU Intel Cooper Lake y no igualaron a los de Nvidia.

Resultados de Edge

La categoría de borde estuvo dominada por puntajes acelerados por A100, T4, AGX Xavier y Xavier NX de Nvidia.

Centaur Technology ingresó los resultados de su sistema de diseño de referencia disponible comercialmente que utiliza el procesador de servidor de Centaur basado en su microarquitectura interna x86, más un acelerador de inteligencia artificial interno separado como coprocesador. Este diseño de referencia es un sistema de clase de servidor para aplicaciones de centros de datos privados o locales y está optimizado para el costo y el factor de forma (en lugar del consumo de energía o el rendimiento máximo), según Centaur.

En la clasificación de imágenes de ResNet (latencia de flujo único), el sistema de Centaur era más rápido que las presentaciones de Nvidia para sistemas de servidor equipados con Tesla T4. Sin embargo, el T4 superó el diseño de Centaur en las muestras fuera de línea de ResNet procesadas por segundo. Sin embargo, a Centaur no le fue tan bien en la detección de objetos, ya que se ubicó en algún lugar entre los dos módulos de borde integrados de Nvidia, el Xavier NX y el AGX Xavier.

La consultora británica de ingeniería dividiti, que se especializa en evaluar objetivamente los sistemas de hardware y software ML, presentó una serie de puntajes en sistemas que van desde Fireflys y Raspberry Pis hasta Nvidia AGX Xavier. Las puntuaciones aparentemente idénticas para las entradas de Raspberry Pi utilizan de hecho diferentes sistemas operativos (Debian de 32 bits frente a Ubuntu de 64 bits; Ubuntu fue aproximadamente un 20% más rápido). Los resultados de la compañía difieren de los resultados de Nvidia para AGX Xavier, ya que Nvidia usó tanto la GPU de AGX Xavier como dos aceleradores de aprendizaje profundo en chip para sus puntajes ResNet Offline y Multistream, donde dividiti solo usó la GPU.

Un portavoz de dividiti también le dijo a EE Times que si bien la compañía había logrado reproducir "más o menos" los puntajes de Nvidia para la ronda de inferencia anterior, los últimos resultados introdujeron una regresión de rendimiento en el arnés de prueba que solo se notó minutos antes de la fecha límite de envío (corregir este error luego mejoró algunas latencias por 10-20%). Esto sirve para ilustrar la importancia de la combinación de hardware / software en los resultados.


La categoría de borde estuvo dominada por los resultados acelerados por las GPU de Nvidia, incluido el Jetson Xavier NX (Imagen:Nvidia)

Las nuevas entradas en esta categoría incluyen IVA Technologies y Mobilint, tanto en la categoría Investigación, Desarrollo o Interna.

IVA Technologies, un diseñador y fabricante ruso de equipos de TI, ha estado trabajando en un chip acelerador de IA que admite modelos convolucional, convolucional 3D y LSTM. La empresa presentó una puntuación etiquetada como “FPGA” que puede ser un prototipo del acelerador ASIC implementado en una FPGA. La latencia de flujo único de ResNet fue de 12,23 ms, aproximadamente 4 veces más lenta que la del Xavier NX, y procesó 89 muestras fuera de línea por segundo, menos de una décima parte del Xavier NX. Sin embargo, la categoría Edge es amplia y no se sabe mucho sobre el diseño; podría estar destinada a dispositivos más pequeños que el Xavier NX.

Mobilint, una startup coreana de ASIC aceleradora de IA, presentó una puntuación por su diseño Mobilint Edge, que EE Times sospechosos se implementó como un prototipo en una tarjeta FPGA Xilinx Alveo U250. En ResNet, su latencia fue mucho más larga que el diseño de IVA Technologies a 37,46 ms, pero procesó más muestras sin conexión por segundo (107). La empresa también presentó puntuaciones para la detección de objetos.

Si bien ni IVA Technologies ni Mobilint produjeron puntajes innovadores, ciertamente hay valor en los prototipos de evaluación comparativa, ya que demuestra que los paquetes de software que los acompañan están listos.

Resultados móviles

En la nueva categoría de SoC móvil, hubo tres presentaciones que estaban bastante bien emparejadas, sin un ganador claro.

MediaTek presentó puntajes para su Dimensity 820 (en el teléfono inteligente Xiaomi Redmi 10X 5G). Este dispositivo utiliza la propia unidad de procesamiento de inteligencia artificial (APU) 3.0 de MediaTek, que es un acelerador compatible con FP16 e INT16 optimizado para funciones de cámara / imagen. El SoC también tiene una GPU de 5 núcleos.

El Qualcomm Snapdragon 865+ utiliza el procesador Hexagon 698 de la compañía diseñado para la aceleración de IA que registra 15 TOPS, junto con la GPU Adreno 650. Los puntos de referencia se ejecutaron en un Asus ROG Phone 3.

El Exynos 990 de Samsung se evaluó como parte del Galaxy Note 20 Ultra. Este dispositivo contiene una NPU (unidad de procesamiento neuronal) de doble núcleo y una GPU Arm Mali-G77 junto con varios núcleos de CPU Arm.

Exynos 990 de Samsung obtuvo mejores resultados en clasificación de imágenes y PNL; MediaTek Dimensity 820 estuvo muy cerca en la clasificación de imágenes, pero Samsung tenía una ventaja más clara en la PNL. MediaTek tenía una clara ventaja en la detección de objetos, con Qualcomm Snapdragon 865+ en segundo lugar. MediaTek también ganó el punto de referencia de segmentación de imágenes, por delante de Qualcomm por un estrecho margen.

Resultados de la libreta

Solo había una entrada en la categoría Notebook:un diseño de referencia de Intel que utiliza la próxima GPU Intel Xe-LP como acelerador. El Xe-LP es la versión de bajo consumo de Xe-HP y Xe-HPC, que son para la aceleración de AI y HPC del centro de datos; ninguno de los dispositivos más grandes fue evaluado.

Debido a que solo había una entrada en esta clase, es complicado interpretar los resultados del Xe-LP. Sin embargo, la categoría de portátiles utilizó los mismos modelos de inteligencia artificial que la categoría de dispositivos móviles, por lo que es inevitable hacer algunas comparaciones. La mayor ventaja de Xe-LP sobre los SoC móviles fue la segmentación de imágenes (DeeplabV3), donde superó al ganador móvil en un factor de 2,5 en rendimiento (fotogramas por segundo). Su rendimiento más débil fue en la detección de objetos (SSD - MobileNetv2), donde su ventaja fue 1,15 veces superior al ganador móvil en términos de rendimiento (fotogramas por segundo).

Comparativas futuras

En el futuro, Kanter tiene la esperanza de que las rondas futuras de los puntos de referencia incluyan más entradas de CPU que no son de Nvidia ni de Intel, y dice que la organización se ha esforzado por alentar a las nuevas empresas y las empresas más pequeñas a enviar resultados.

"Tenemos una división abierta, donde puede enviar cualquier red que desee", dijo. “Una de las cosas buenas de eso es que si un cliente dice que quiero X, y usted hace toda la habilitación para eso, puede usar X, siempre que pueda ingresar el código para que podamos ver lo que está ejecutando. ”

Las empresas pueden enviar resultados para tan solo un modelo de IA para mantener bajo el esfuerzo de ingeniería e incluso pueden enviar sus propios modelos a la categoría abierta.

Kanter también mencionó que la intención de la organización es introducir una dimensión de medición de poder en la siguiente ronda de puntajes. El trabajo ya está en curso.

"Una de las cosas en las que nos encantaría involucrar a la gente es ayudar a construir la infraestructura de medición de energía; ayúdenos a desarrollar las herramientas para realizar esas mediciones", dijo Kanter.

La lista completa de resultados de MLPerf Inference en detalle está disponible aquí.

>> Este artículo se publicó originalmente el nuestro sitio hermano, EE Times.


Incrustado

  1. La gestión de datos impulsa el aprendizaje automático y la inteligencia artificial en IIOT
  2. ST:sensor de movimiento con aprendizaje automático para un seguimiento de la actividad de alta precisión y fácil de usar
  3. ADLINK:solución de aprendizaje automático e inteligencia artificial de borde de acceso múltiple montada en poste
  4. NXP duplica el aprendizaje automático en el borde
  5. Las tendencias continúan impulsando el procesamiento al límite para la IA
  6. Características del centro de mecanizado vertical para mejorar la productividad
  7. Una red Wi-Fi optimizada es fundamental para el éxito de Edge
  8. Aprendizaje automático en el campo
  9. El borde es ahora el centro de la acción
  10. Centro de torneado para aplicaciones de trabajo pesado
  11. Centro de torneado vertical de cuatro ejes para producción de ejes