Manufactura industrial
Internet industrial de las cosas | Materiales industriales | Mantenimiento y reparación de equipos | Programación industrial |
home  MfgRobots >> Manufactura industrial >  >> Industrial Internet of Things >> Incrustado

Los procesadores especializados aceleran las cargas de trabajo de AI de punto final

Si bien la aceleración de las aplicaciones de IA y ML es todavía un campo relativamente nuevo, existe una variedad de procesadores que están surgiendo para acelerar casi cualquier carga de trabajo de la red neuronal. Desde los gigantes de procesadores hasta algunas de las nuevas empresas emergentes de la industria, todas ofrecen algo diferente, ya sea que se dirijan a diferentes mercados verticales, áreas de aplicación, presupuestos de energía o puntos de precio. A continuación, se muestra una instantánea de lo que hay en el mercado hoy.

Procesadores de aplicaciones

Intel Movidius Myriad X
Desarrollado por la startup irlandesa Movidius que fue comprada por Intel en 2016, Myriad X es la unidad de procesamiento de visión de tercera generación de la compañía y la primera en presentar un motor de cómputo de red neuronal dedicado, que ofrece operaciones de 1 tera por segundo (TOPS) de tecnología dedicada. computación de la red neuronal profunda (DNN). El motor de cómputo neuronal interactúa directamente con una estructura de memoria inteligente de alto rendimiento para evitar cualquier cuello de botella en la memoria al transferir datos. Admite cálculos FP16 e INT8. El Myriad X también cuenta con un grupo de 16 núcleos SHAVE patentados y aceleradores de visión mejorados y expandidos.

El Myriad X está disponible en el Neural Compute Stick 2 de Intel, efectivamente una plataforma de evaluación en forma de memoria USB. Se puede conectar a cualquier estación de trabajo para permitir que las aplicaciones de visión artificial y de inteligencia artificial estén en funcionamiento en el hardware dedicado de Movidius muy rápidamente.

NXP Semiconductors i.MX 8M Plus
El i.MX 8M Plus es un procesador de aplicaciones heterogéneo con IP de acelerador de red neuronal dedicado de VeriSilicon (Vivante VIP8000). Ofrece 2.3 TOPS de aceleración para inferencia en dispositivos de punto final en el Internet de las cosas industrial y de consumo (IIoT), suficiente para identificación de objetos múltiples, reconocimiento de voz de 40.000 palabras o incluso imágenes médicas (MobileNet v1 a 500 imágenes por segundo).

Además del procesador de red neuronal, el i.MX 8M Plus también cuenta con un subsistema Arm Cortex-A53 de cuatro núcleos que se ejecuta a 2 GHz, además de un subsistema en tiempo real Cortex-M7.

Para aplicaciones de visión, hay dos procesadores de señal de imagen que admiten dos cámaras de alta definición para visión estéreo o una sola cámara de 12 megapíxeles (MP). Para voz, el dispositivo incluye un procesador de señal digital de audio (DSP) HiFi4 de 800 MHz para el procesamiento previo y posterior de datos de voz.

i.MX 8M Plus de NXP es el primer procesador de aplicaciones de la empresa con un acelerador de red neuronal dedicado. Está diseñado para aplicaciones de IoT. (Imagen:NXP Semiconductors)

XMOS xcore.ai
Xcore.ai está diseñado para permitir el control de voz en aplicaciones de inteligencia artificial de las cosas (AIoT). Un procesador cruzado (con el rendimiento de un procesador de aplicaciones y un microcontrolador en tiempo real de bajo consumo), este dispositivo está diseñado para la inferencia de aprendizaje automático en señales de voz.

Se basa en la arquitectura Xcore patentada de XMOS, construida a su vez sobre bloques de construcción llamados núcleos lógicos que se pueden usar para E / S, DSP, funciones de control o aceleración de IA. Hay 16 de estos núcleos en cada chip xcore.ai, y los diseñadores pueden elegir cuántos asignar a cada función. La asignación de diferentes funciones a los núcleos lógicos en el firmware permite la creación de un "SoC virtual", completamente escrito en software. XMOS ha agregado la capacidad de canalización de vectores a Xcore para cargas de trabajo de aprendizaje automático.

Xcore.ai admite redes de 32 bits, 16 bits, 8 bits y 1 bit (binarizadas), entregando 3200 MIPS, 51.2 GMACC y 1600 MFLOPS. Tiene 1 Mbyte de SRAM integrado más una interfaz DDR de bajo consumo para expansión.

xcore.ai de XMOS se basa en una arquitectura patentada y está diseñado específicamente para cargas de trabajo de inteligencia artificial en aplicaciones de procesamiento de voz. (Imagen:XMOS)

SoC automotriz

Texas Instruments Inc. TDA4VM
Como parte de la serie Jacinto 7 para sistemas avanzados de asistencia al conductor (ADAS) automotrices, el TDA4VM es el primer sistema en chip (SoC) de TI con un acelerador de aprendizaje profundo en chip dedicado. Este bloque se basa en el DSP C7x más un acelerador de multiplicación matricial (MMA) desarrollado internamente, que puede alcanzar 8 TOPS.

El SoC puede manejar una transmisión de video desde una cámara frontal de hasta 8 MP o una combinación de cuatro a seis cámaras de 3 MP más radar, LiDAR y sensores ultrasónicos. El MMA podría usarse para realizar la fusión de sensores en estas entradas en un sistema de estacionamiento con valet automático, por ejemplo. El TDA4VM está diseñado para sistemas ADAS entre 5 y 20 W.

El dispositivo aún está en preproducción, pero los kits de desarrollo ya están disponibles.

El TI TDA4VM está diseñado para sistemas ADAS automotrices complejos que permiten a los vehículos percibir su entorno. (Imagen:Texas Instruments Inc.)

GPU

Nvidia Corp. Jetson Nano
El conocido Jetson Nano de Nvidia es un módulo de unidad de procesamiento de gráficos (GPU) pequeño pero potente para aplicaciones de inteligencia artificial en dispositivos de punto final. Construida sobre la misma arquitectura Maxwell que los miembros más grandes de la familia Jetson (AGX Xavier y TX2), la GPU en el módulo Nano tiene 128 núcleos y es capaz de 0.5 TFLOPS, suficiente para ejecutar múltiples redes neuronales en varios flujos de datos de alta Sensores de imagen de resolución, según la empresa. Consume tan solo 5 W cuando está en uso. El módulo también cuenta con una CPU Arm Cortex-A57 de cuatro núcleos.

Al igual que otras partes de la gama de Nvidia, el Jetson Nano utiliza CUDA X, la colección de bibliotecas de aceleración de Nvidia para redes neuronales. Los kits de desarrollo económicos Jetson Nano están ampliamente disponibles.

El módulo Jetson Nano de Nvidia alberga una potente GPU con 128 núcleos para IA en el borde. (Imagen:Nvidia Corp.)

Coprocesadores de consumidores

Kneron Inc. KL520
La primera oferta de la startup estadounidense-taiwanesa Kneron es el procesador de red neuronal KL520, diseñado para el procesamiento de imágenes y el reconocimiento facial en aplicaciones como hogares inteligentes, sistemas de seguridad y dispositivos móviles. Está optimizado para ejecutar redes neuronales convolucionales (CNN), el tipo que se usa comúnmente en el procesamiento de imágenes en la actualidad.

El KL520 puede ejecutar 0.3 TOPS y consume 0.5 W (equivalente a 0.6 TOPS / W), lo que la compañía dijo que es suficiente para un reconocimiento facial preciso, dado que la eficiencia MAC del chip es alta (más del 90%). La arquitectura del chip es reconfigurable y se puede adaptar a diferentes modelos de CNN. El compilador complementario de la empresa también utiliza técnicas de compresión para ayudar a ejecutar modelos más grandes dentro de los recursos del chip para ayudar a ahorrar energía y costos.

El KL520 ya está disponible y también se puede encontrar en una tarjeta aceleradora del fabricante AAEON (M2AI-2280-520).

El KL520 de Kneron utiliza una arquitectura reconfigurable y una compresión inteligente para ejecutar el procesamiento de imágenes en dispositivos móviles y de consumo. (Imagen:Kneron Inc.)

Gyrfalcon Lightspeeur 5801
Diseñado para el mercado de la electrónica de consumo, el Lightspeeur 5801 de Gyrfalcon ofrece 2,8 TOPS con un consumo de energía de 224 mW (equivalente a 12,6 TOPS / W) con una latencia de 4 ms. La empresa utiliza una técnica de procesador en memoria que es particularmente eficiente en el consumo de energía, en comparación con otras arquitecturas. El consumo de energía se puede compensar con la velocidad del reloj variando la velocidad del reloj entre 50 y 200 MHz. Lightspeeur 5801 contiene 10 MB de memoria, por lo que modelos completos pueden caber en el chip.

Esta pieza es el cuarto chip de producción de la compañía y ya se encuentra en el teléfono inteligente de gama media Q70 de LG, donde maneja la inferencia para los efectos de la cámara. Un kit de desarrollo de memoria USB, el 5801 Plai Plug, ya está disponible.

Ultra bajo consumo

Eta Compute ECM3532
El primer producto de producción de Eta Compute, el ECM3532, está diseñado para la aceleración de la inteligencia artificial en diseños alimentados por baterías o de recolección de energía para IoT. Las aplicaciones siempre activas en el procesamiento de imágenes y la fusión de sensores se pueden lograr con un presupuesto de energía tan bajo como 100 µW.

El chip tiene dos núcleos:un núcleo de microcontrolador Arm Cortex-M3 y un NXP CoolFlux DSP. La compañía utiliza una técnica patentada de escalado de voltaje y frecuencia, que ajusta cada ciclo de reloj, para exprimir hasta la última gota de energía de ambos núcleos. Las cargas de trabajo de aprendizaje automático pueden ser procesadas por cualquier núcleo (algunas cargas de trabajo de voz, por ejemplo, se adaptan mejor al DSP).

Las muestras del ECM3532 están disponibles ahora y se espera que la producción en masa comience en el segundo trimestre de 2020.

Syntiant Corp. NDP100
El procesador NDP100 de Syntiant, la startup estadounidense, está diseñado para la inferencia de aprendizaje automático en comandos de voz en aplicaciones en las que la potencia es escasa. Su silicio basado en procesador en memoria consume menos de 140 µW de potencia activa y puede ejecutar modelos para la detección de palabras clave, detección de palabras de activación, identificación de oradores o clasificación de eventos. La compañía dice que este producto se utilizará para permitir el funcionamiento con manos libres de dispositivos de consumo como auriculares, audífonos, relojes inteligentes y controles remotos. Los kits de desarrollo ya están disponibles.

El dispositivo NDP100 de Syntiant está diseñado para el procesamiento de voz en aplicaciones de consumo ultrabajo. (Imagen:Syntiant Corp.)

GreenWaves Technologies GAP9
GAP9, el primer procesador de aplicaciones de ultra bajo consumo de energía de la startup francesa GreenWaves, tiene un poderoso clúster de cómputo de nueve núcleos RISC-V cuyo conjunto de instrucciones se ha personalizado en gran medida para optimizar la energía consumida. Cuenta con interfaces de audio multicanal bidireccionales y 1,6 MB de RAM interna.

GAP9 puede manejar cargas de trabajo de redes neuronales para imágenes, sonidos y detección de vibraciones en dispositivos IoT que funcionan con baterías. Las cifras de GreenWaves tienen GAP9 ejecutando MobileNet V1 en imágenes de 160 × 160, con una escala de canal de 0,25 en solo 12 ms y con un consumo de energía de 806 μW / fotograma / segundo.


Incrustado

  1. Otros motores especializados
  2. Traslado de cargas de trabajo de EDA a la nube de AWS para acelerar los diseños de Arm por 10 veces
  3. Renesas destaca la inteligencia de endpoints en el mundo embebido 2019
  4. CEVA:procesador de inteligencia artificial de segunda generación para cargas de trabajo de redes neuronales profundas
  5. Las MCU apuntan a diseños de extremos y bordes de IoT seguros
  6. Las tecnologías mejoradas acelerarán la aceptación de los asistentes de voz
  7. El procesador multinúcleo integra la unidad de procesamiento neuronal
  8. Los procesadores abordan la convergencia de IoT y AI
  9. El chip de radar de baja potencia utiliza redes neuronales con picos
  10. El diseño de referencia admite cargas de trabajo de IA que consumen mucha memoria
  11. La solución Edge AI se basa en el procesador neuronal y la plataforma de desarrollo ML