El chip AI se conecta a través del servicio en la nube

El silicio del procesador de transmisión tensorial (TSP) de Groq ahora está disponible para acelerar las cargas de trabajo de IA de los clientes en la nube. El proveedor de servicios en la nube Nimbix ahora ofrece aceleración de aprendizaje automático en hardware Groq como un servicio bajo demanda solo para "clientes seleccionados".

Si bien hay varias empresas emergentes que crean silicio de inteligencia artificial para el centro de datos, Groq ahora se une a Graphcore como los únicos dos con aceleradores disponibles comercialmente para que los clientes los utilicen como parte de un servicio en la nube. Graphcore anunció previamente que sus aceleradores están disponibles como parte de Microsoft Azure.

"La arquitectura de procesamiento simplificada de Groq es única, proporciona un rendimiento determinista sin precedentes para cargas de trabajo intensivas en computación, y es una adición emocionante a nuestra plataforma de aprendizaje profundo e inteligencia artificial basada en la nube", dijo Steve Hebert, director ejecutivo de Nimbix.

Groq es solo la segunda puesta en marcha de un acelerador de inteligencia artificial que hace que su hardware esté disponible en la nube (Imagen:Groq)

El chip TSP de Groq, lanzado el otoño pasado, es capaz de una enorme cantidad de 1000 TOPS (operaciones de 1 peta por segundo). Los resultados recientes publicados por la compañía muestran que el chip puede lograr 21.700 inferencias por segundo para la inferencia ResNet-50 v2, lo que, según Groq, duplica con creces el rendimiento de los sistemas basados en GPU actuales. Estos resultados sugieren que la arquitectura de Groq es uno de los procesadores de redes neuronales más rápidos, si no el más rápido, disponible comercialmente.

"Estos resultados de ResNet-50 son una validación de que la arquitectura y el enfoque únicos de Groq para la aceleración del aprendizaje automático ofrecen un rendimiento de inferencia sustancialmente más rápido que nuestros competidores", dijo Jonathan Ross, cofundador y director ejecutivo de Groq. "Estos puntos de prueba del mundo real, basados en puntos de referencia estándar de la industria y no en simulaciones o emulaciones de hardware, confirman las ganancias de rendimiento medibles para el aprendizaje automático y las aplicaciones de inteligencia artificial que son posibles gracias a las tecnologías de Groq".

Groq dice que su arquitectura puede lograr el paralelismo masivo requerido para la aceleración del aprendizaje profundo sin la sobrecarga de sincronización de las arquitecturas tradicionales de CPU y GPU. Las funciones de control se han eliminado del silicio y se han entregado al compilador en su lugar, como parte del enfoque basado en software de Groq. Esto conduce a una operación determinista y completamente predecible orquestada por el compilador, lo que permite comprender completamente el rendimiento en el momento de la compilación.

Otra característica clave a tener en cuenta es que la ventaja de rendimiento de Groq no se basa en el procesamiento por lotes, una técnica común en el centro de datos donde se procesan múltiples muestras de datos a la vez, para mejorar el rendimiento. Según Groq, su arquitectura puede alcanzar un rendimiento máximo incluso en lote =1, un requisito común para las aplicaciones de inferencia que pueden estar trabajando en un flujo de datos que llegan en tiempo real. Si bien el chip TSP de Groq ofrece una ventaja de latencia moderada de 2.5x sobre las GPU en tamaños de lote grandes, en batch =1 la ventaja está más cerca de 17x, dijo la compañía.

La placa Linux combina la seguridad basada en hardware con un paquete de seguridad integral La herramienta de medición ayuda a optimizar la energía de los sistemas integrados

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas