El enfoque actual del hardware de IA está equivocado, dice el pionero de la IA

"Es realmente difícil tener éxito con hardware exótico", dijo el científico jefe de inteligencia artificial de Facebook, Yann Le Cun, a la audiencia durante su discurso de apertura en NeurIPS. Al dirigirse a la reunión global de expertos en inteligencia artificial en Vancouver, Canadá, en diciembre, Le Cun examinó la historia de los chips informáticos especializados para procesar cargas de trabajo de redes neuronales, ofreció un vistazo de en qué está trabajando Facebook e hizo algunas predicciones para el futuro de la tecnología profunda. hardware de aprendizaje.

Historia antigua

Le Cun es un visionario de renombre en el campo de la IA, habiendo estado a la vanguardia de la investigación de redes neuronales en las décadas de 1980 y 1990. Como investigador de Bell Labs a fines de la década de 1980, trabajó con los primeros tipos de procesadores de redes neuronales dedicados, que comprendían matrices de resistencias y se usaban para realizar la multiplicación de matrices. A medida que las redes neuronales cayeron en desgracia a fines de la década de 1990 y principios de la de 2000, Le Cun fue uno de los pocos científicos que continuaron trabajando en el campo. En su discurso de apertura, compartió algunas de las cosas que aprendió sobre el hardware para el aprendizaje profundo durante ese tiempo.

Científico jefe de inteligencia artificial de Facebook, Yann Le Cun

Primero, las herramientas son realmente importantes. Lo que acabó con las redes neuronales (temporalmente) en los años 90 fue que solo unas pocas personas, incluido Le Cun, tenían herramientas para entrenarlas. Le Cun y sus colegas pasaron mucho tiempo construyendo lo que ahora se llamaría un marco de aprendizaje profundo:una pieza de software flexible que interpretó lenguajes de front-end, permitiendo a los investigadores entrenar y experimentar con redes neuronales. El trabajo de los investigadores avanzó el concepto de que los sistemas de aprendizaje profundo pueden ensamblarse a partir de módulos diferenciables y luego diferenciarse automáticamente. Aunque era novedoso en ese momento, ahora es una práctica común.

Las herramientas adecuadas le dieron al equipo de Le Cun su "superpoder" y también fueron un factor importante para producir resultados reproducibles, dijo. "Los buenos resultados no son suficientes ... incluso si obtiene buenos resultados, la gente seguirá siendo escéptica", dijo. "Hacer que esos resultados sean reproducibles es casi tan importante como producir los resultados en primer lugar".

Junto con las herramientas adecuadas, el rendimiento del hardware es crucial para la comunidad de investigación, ya que las limitaciones del hardware pueden influir en direcciones completas de la investigación, dijo Le Cun.

“[Lo que] la comunidad de hardware construye para la investigación o para la capacitación en realidad influye en las ideas en las que piensa la gente”, dijo. "Se pueden abandonar ideas enteras simplemente porque el hardware no es lo suficientemente potente, a pesar de que eran buenas ideas".

La respuesta puede no estar en formas nuevas y novedosas de computación, dijo, y señaló que muchas tecnologías de fabricación exóticas no despegaron cuando no encajaban con el entorno informático existente.

Una de las frustraciones de Le Cun con las soluciones de hardware actuales para la aceleración de IA es que la mayoría están diseñadas para la multiplicación de matrices, no para la convolución, que es la operación matemática clave utilizada en la mayoría de las redes neuronales de procesamiento de imágenes y reconocimiento de voz en la actualidad. “[El enfoque predominante] se volverá cada vez más erróneo, en el sentido de que vamos a tener requisitos cada vez mayores de energía”, dijo. "Si construimos una pieza genérica de hardware en la que el 95% de los ciclos se gastan en hacer convoluciones, no estamos haciendo un buen trabajo".

Aplicación asesina

El futuro, como lo describió Le Cun, verá redes neuronales convolucionales (CNN) utilizadas en todo, desde juguetes hasta aspiradoras y equipos médicos. Pero la aplicación principal, la única aplicación que demostrará el valor de la inteligencia artificial para los dispositivos de los consumidores, es el visor de realidad aumentada.

Facebook está trabajando actualmente en hardware para gafas AR. Es un gran desafío de hardware debido a la cantidad de procesamiento requerido a baja latencia, alimentado solo por baterías. "Cuando te mueves, los objetos superpuestos en el mundo deberían moverse con el mundo, no contigo, y eso requiere bastante cálculo", dijo Le Cun.

Facebook imagina gafas AR que se manejan por voz e interactúan a través de gestos a través del seguimiento de manos en tiempo real. Si bien esas características son posibles hoy en día, están más allá de lo que podemos hacer en términos de consumo de energía, rendimiento y factor de forma. Le Cun señaló algunos "trucos" que pueden ayudar.

Por ejemplo, cuando se ejecuta la misma red neuronal en cada fotograma de un video, tal vez para detectar objetos, no importa si el resultado de un fotograma es incorrecto, porque podemos mirar los fotogramas antes y después y verificar la coherencia. .

“Así que podría imaginarse el uso de hardware de muy bajo consumo que no es perfecto; en otras palabras, puedes [tolerar] los cambios de bits de vez en cuando ”, dijo Le Cun. "Es fácil hacer esto bajando el voltaje de la fuente de alimentación".

Desarrollos de redes neuronales

La rápida evolución de las redes neuronales es un gran desafío para el diseño de hardware. Por ejemplo, las redes dinámicas, aquellas con memoria que se puede entrenar para aprender patrones secuenciales o variables en el tiempo, están ganando popularidad, especialmente para el procesamiento del lenguaje natural (NLP). Sin embargo, se comportan de manera diferente a muchas suposiciones hechas por el hardware actual. El gráfico de cálculo no se puede optimizar en tiempo de compilación; eso debe hacerse en tiempo de ejecución. También es bastante difícil implementar el procesamiento por lotes, una técnica popular mediante la cual se procesa más de una muestra a la vez para mejorar el rendimiento.

"Todo el hardware más común que tenemos a nuestra disposición supone que puede realizar lotes, porque si tiene un lote con más de una muestra, entonces puede convertir cada operación en una multiplicación de matrices, incluidas convoluciones y redes completamente conectadas", dijo Le Cun. “[Es] un desafío para la comunidad de hardware crear arquitecturas que no pierdan rendimiento mediante el uso de un tamaño de lote =1. Eso se aplica a la capacitación, por supuesto; el tamaño óptimo de lote para entrenamiento es 1. Usamos más porque nuestro hardware nos obliga a hacerlo ”.

Aprendizaje autónomo

Otro desafío para el hardware es que los paradigmas de aprendizaje que usamos actualmente cambiarán, y esto sucederá de manera inminente, según Le Cun.

"Hay mucho trabajo [en marcha] para tratar de que las máquinas aprendan más como los humanos y los animales, y los humanos y los animales no aprenden mediante el aprendizaje supervisado o incluso mediante el aprendizaje por refuerzo", dijo. “Aprenden mediante algo que yo llamo aprendizaje auto-supervisado, que es principalmente por observación”.

Le Cun describió un enfoque común para el aprendizaje auto-supervisado en el que una parte de la muestra está enmascarada y el sistema está entrenado para predecir el contenido de la pieza enmascarada en función de la parte de la muestra que está disponible. Esto se usa comúnmente con imágenes, en las que se elimina parte de la imagen, y texto, con una o más palabras en blanco. El trabajo hasta ahora ha demostrado que es particularmente eficaz para la PNL; el tipo de redes utilizadas, transformadores, tienen una fase de entrenamiento que utiliza aprendizaje auto-supervisado.

El problema desde la perspectiva del hardware es que las redes de transformadores para PNL pueden ser enormes:las más grandes de hoy tienen 5 mil millones de parámetros y están creciendo rápidamente, dijo Le Cun. Las redes son tan grandes que no caben en la memoria de la GPU y deben romperse en pedazos.

“El aprendizaje auto supervisado es el futuro, no hay duda [sobre eso]”, dijo. “Pero esto es un desafío para la comunidad de hardware porque los requisitos de memoria son absolutamente gigantes. Debido a que estos sistemas están entrenados con datos sin etiquetar, que son abundantes, podemos entrenar redes muy grandes en términos de datos. Los requisitos de hardware para el sistema final serán mucho, mucho mayores de lo que son actualmente. La carrera del hardware no se detendrá pronto ”.

Tendencias de hardware

Las nuevas ideas de hardware que utilizan técnicas como la computación analógica, la espintrónica y los sistemas ópticos están en el radar de Le Cun. Citó las dificultades de comunicación (problemas para convertir señales entre hardware nuevo y el resto de la infraestructura informática requerida) como un gran inconveniente. Las implementaciones analógicas, dijo, se basan en hacer que las activaciones sean extremadamente escasas para obtener ventajas en el consumo de energía, y se preguntó si esto siempre será posible.

Le Cun se describió a sí mismo como "escéptico" de los nuevos enfoques futuristas, como el aumento de las redes neuronales y la computación neuromórfica en general. Es necesario demostrar que los algoritmos funcionan antes de construir chips para ellos, dijo.

“Conducir el diseño de tales sistemas a través del hardware, con la esperanza de que alguien cree un algoritmo que utilice este hardware, probablemente no sea una buena idea”, dijo Le Cun.

Cronograma de procesamiento de redes neuronales

Finales de la década de 1980 :Las matrices de resistencias se utilizan para realizar la multiplicación de matrices. A fines de la década de 1980, los arreglos ganaron amplificadores y convertidores a su alrededor, pero aún son bastante primitivos para los estándares actuales. La limitación es la rapidez con la que se pueden introducir los datos en el chip.
1991 :Se construye el primer chip diseñado para redes neuronales convolucionales (CNN). El chip es capaz de 320 gigaoperaciones por segundo (GOPS) en datos binarios, con registros de desplazamiento digitales que minimizan la cantidad de tráfico externo necesario para realizar una convolución, acelerando así la operación. El chip no tiene uso más allá de la academia.
1992 :Debuta ANNA, un chip ALU de red neuronal analógica. Diseñado para CNN con pesos de 6 bits y activaciones de 3 bits, ANNA contiene 180.000 transistores en CMOS de 0,9 μm. Se utiliza para el reconocimiento óptico de caracteres de texto escrito a mano.
1996 :Lanzamiento de DIANA, una versión digital de ANNA. Pero con las redes neuronales cayendo en desgracia a mediados de la década de 1990, DIANA finalmente se reutiliza para el procesamiento de señales en torres de telefonía celular.
2009–2010 :Los investigadores demuestran un acelerador de red neuronal por hardware en un FPGA (el Xilinx Virtex 6). Ejecuta una demostración de segmentación semántica para conducción automatizada y es capaz de 150 GOPS a alrededor de 0,5 W. El equipo, de la Universidad Purdue, intenta hacer un ASIC basado en este trabajo, pero el proyecto no tiene éxito. (Fuente:Yann Le Cun / Facebook)

Las llaves digitales del coche asumen la función de autenticador El paquete de seguridad funciona para mitigar las amenazas de IoT

Incrustado

Sensor

Computación en la nube

Tecnología de Internet de las cosas