AlphaZero:la IA de Google conquista el ajedrez y el go en 24 horas

Los juegos de mesa (como el ajedrez) son un campo ampliamente estudiado en la historia de la inteligencia artificial. Pioneros como Turing, Babbage, von Neumann y Shannon desarrollaron teorías, algoritmos y hardware para analizar y jugar al ajedrez. Y en los últimos años, hemos visto programas similares que superan a los humanos en juegos mucho más complejos como Go y Shogi (ajedrez japonés).

Deepmind de Google tiene un historial fenomenal cuando se trata de vencer a los humanos en juegos de mesa. En 2015, su proyecto AlphaGo se convirtió en el primer programa informático de Go en vencer a un humano (un jugador profesional de Go). Y ahora han desarrollado un programa AlphaGo que puede aprender a jugar ajedrez por sí solo y vencer a humanos o cualquier otro programa informático (incluidos Stockfish y Deep Blue) en casi 4 horas.

Los programas de IA convencionales (de juegos de mesa) están altamente optimizados para su dominio y no pueden generalizarse a otros problemas sin la intervención humana. El programa AlphaZero, por otro lado, puede lograr un rendimiento sobrehumano en varios dominios desafiantes. Sin ningún conocimiento previo excepto las reglas del juego y partiendo del juego aleatorio, AlphaZero alcanzó un nivel de juego sobrehumano en 24 horas en las partidas de Ajedrez, Shogi y Go, y derrotó al mejor programa del mundo en cada caso. ¿Cómo han hecho esto y cuáles son los resultados exactos? Averigüemos.

Metodología

En octubre de 2017, Deepmind anunció que su algoritmo AlphaGo Zero había logrado un rendimiento sobrehumano utilizando una red neuronal de convolución profunda y entrenado únicamente mediante aprendizaje por refuerzo. Los ingenieros han utilizado el mismo enfoque para crear un algoritmo genérico, llamado AlphaZero, que reemplaza los aumentos de dominios específicos y el conocimiento artesanal utilizado en los algoritmos de juego convencionales con redes neuronales profundas. y un algoritmo de aprendizaje por refuerzo tabula rasa .

AlphaZero utiliza MCTS de propósito general (Monte-Carlo Tree Search) en lugar de búsqueda alfa-beta. Aprende estimaciones de valor y probabilidades de movimiento jugando contra sí mismo y luego utiliza la información aprendida para guiar su búsqueda.

En qué se diferencia del algoritmo AlphaGo Zero

El algoritmo AlphaGo Zero estima y optimiza la probabilidad de ganar, teniendo en cuenta los resultados binarios de ganancia o pérdida. AlphaZero, por otro lado, estima y optimiza el resultado esperado, considerando empates u otros resultados potenciales.

Las reglas del juego Go son invariantes ante la reflexión y la rotación. Este hecho se utiliza muy bien tanto en AlphaGo como en su versión avanzada AlphaGo Zero de dos maneras.

Aumente los datos de entrenamiento creando 8 simetrías para cada posición.
Transforme la posición mediante una reflexión o rotación seleccionada aleatoriamente antes de ser calculada por la red neuronal, en el algoritmo MCTS, de modo que el cálculo se promedie según diferentes sesgos.

En el caso del ajedrez y el shogi, las reglas son asimétricas y no se pueden asumir simetrías en general. En AlphaZero, los datos de entrenamiento no aumentan y la posición del tablero no se transforma durante MCTS.

AlphaGo Zero utiliza al mejor jugador de iteraciones anteriores para generar un juego de autojuego. Después de completar cada iteración, el desempeño del nuevo jugador se evalúa frente al mejor jugador. Si se gana por un margen del 55 por ciento, el mejor jugador es reemplazado y el nuevo jugador genera más juegos de autojuego. Sin embargo, AlphaZero mantiene una única red neuronal (actualizada continuamente) en lugar de pausar hasta que se completa una iteración.

Optimización y entrenamiento de AlphaZero

AlphaZero utiliza hiperparámetros para todos los juegos sin ninguna optimización específica del juego. Para garantizar la exploración, se integra un factor de ruido, que se escala proporcionalmente al número de movimientos legítimos para ese tipo de juego.

Al igual que AlphaGo Zero, el estado del tablero está codificado por planos espaciales y las acciones están codificadas por planos espaciales o por un vector plano, según las reglas básicas de cada juego.

Los desarrolladores aplicaron AlphaZero al ajedrez, shogi y Go. Se utilizó la misma arquitectura de red, hiperparámetros y configuraciones para los 3 juegos. Para cada juego se entrena una instancia individual del algoritmo. A partir de parámetros inicializados aleatoriamente, el entrenamiento se realizó en 700 000 pasos, utilizando 5000 unidades de procesamiento tensorial de primera generación para crear juegos de autojuego y 64 unidades de procesamiento tensorial de segunda generación para entrenar las redes neuronales.

Referencia: arxiv.org

Resultados

Como se puede ver en la figura, AlphaZero superó a Stockfish después de 300.000 pasos (después de 4 horas) en ajedrez; superó a Elmo en 110.000 pasos (en 2 horas); y superó a AlphaGo Lee en 165.000 pasos (después de 8 horas).

Las instancias completamente entrenadas (entrenadas durante 3 días) de AlphaZero se probaron contra AlphaGo Zero, Elmo y Stockfish, jugando 100 partidos a un ritmo de 1 minuto por movimiento. Los resultados fueron bastante impresionantes (mencionados en la siguiente tabla).

AlphaGo Zero y AlphaZero usaron una sola máquina con 4 unidades de procesamiento de tensor, Elmo y Stockfish obtuvieron sus mejores resultados usando 64 subprocesos y 1 GB de tamaño de hash. AlphaZero los derrotó a todos, perdiendo 8 juegos ante Elmo y ninguno ante Stockfish.

Los desarrolladores de Google también examinaron el rendimiento de la búsqueda MCTS en AlphaZero. Busca 40.000 posiciones por segundo en shogi y 80.000 en ajedrez, frente a 35.000.000 de Elmo y 70.000.000 de Stockfish. AlphaZero utiliza su red neuronal profunda para centrarse de forma más selectiva en las opciones más prometedoras, o podría decirse que es un enfoque más humano.

Leer:15 mejores motores de ajedrez según sus calificaciones

Si bien AlphaZero aún está en sus inicios, constituye un paso importante hacia su objetivo. Si se pueden aplicar enfoques similares a otros problemas estructurados, como el plegamiento de proteínas, el descubrimiento de nuevos materiales o la disminución del consumo de energía, los resultados tienen el potencial de impactar nuestro futuro de manera positiva.

Se presenta el simulador cuántico de 53 qubits que bate récords Japón lanza un prototipo de computadora cuántica 100 veces más rápido que las supercomputadoras actuales

Tecnología Industrial

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial