Alphazero la IA que aprende vencio al emjor modulo de ajedrez

ruftata · 2017/12/20

¿Es AlphaZero realmente un gran avance científico en el terreno de la Inteligencia Artificial?
El último gran evento en el mundo del ajedrez ha sido la llegada de AlphaZero, el algoritmo desarrollado por Google y DeepMind que venció a uno de los módulos de análisis más fuertes del mundo, Stockfish. Desde entonces, se han escuchado muchas opiniones al respecto, la mayoría de ellas sorprendidas por la fuerza de la nueva máquina. Sin embargo, dejando un poco atrás la conmoción mediática, han comenzado a aparecer algunos análisis más profundos sobre las implicaciones de este último lanzamiento. El matemático José Camacho Collados, desde las trincheras de la investigación en el terreno de la Inteligencia Artificial, nos presenta una perspectiva distinta.

Como tal vez se hayan enterado, DeepMind recientemente ha publicado un artículo sobre AlphaZero [1], un sistema que aprende por sí solo y es capaz de dominar juegos como el ajedrez o el shogi.

Antes de entrar en detalles, me voy a presentar. Soy un investigador en el amplio campo de la Inteligencia Artificial (IA), especializado en Procesamientos del Lenguaje Natural. También tengo el título de maestro internacional de ajedrez; actualmente, soy el mejor jugador de Corea del Sur, aunque he estado prácticamente inactivo durante los últimos años debido a mi puesto a tiempo completo como investigador. Dados mis antecedentes, he tratado de construir una opinión razonada lo más constructiva posible sobre el tema. Por razones obvias, me he enfocado en el ajedrez, aunque algunos argumentos son generales y pueden ser extrapolados al shogi o al go. Este artículo únicamente representa mi punto de vista y advierto que es posible que haya malinterpretado algunos detalles particulares que no caen dentro de mi campo de experticie, por los cuales me disculpo de antemano.

El ajedrez ha sido, se podría decir, el juego más estudiado en el contexto del "humano contra la máquina" y de la IA en general. Uno de los primeros puntos de inflexión en esta área fue la victoria de Deep Blue (IBM) ante el entonces campeón mundial, Garry Kasparov, en 1997 [2]. En ese momento, las máquinas eran consideradas inferiores a los humanos en el juego del ajedrez, pero a partir de entonces la "batalla" ha sido ganada claramente por las máquinas.

Garry Kasparov junto al director de DeepMind, Demis Hassabis, durante el London Chess Classic de este año | foto: Lennart Ootes, Grand Chess Tour

En un tenor similar, DeepMind lanzó, hace un par de años, AlphaGo, una máquina capaz de vencer a algunos de los mejores jugadores de go del mundo [3]. Hay que notar que la complejidad del go es significativamente más grande que la del ajedrez. Esta ha sido una de las principales razones por las que, a pesar de contar con un poder de procesamiento computacional más avanzado en estos días, el go seguía siendo un juego en el que los humanos eran más fuertes que las máquinas. Por lo tanto, podemos considerar a AlphaGo como un gran avance por sí mismo. Este resultado inicialmente impactante fue mejorado por AlphaGo Zero, que, como dicen los autores, aprendió a jugar go enteramente por su cuenta [4]. Y, más recientemente, AlphaZero, un modelo similar que entrena una arquitectura de red neuronal con un algoritmo de aprendizaje que ha vencido a algunos de los mejores módulos en el shogi y en el ajedrez [1].

El registro de victorias y derrotas de la máquina en distintos juegos

Este logro ha sido cubierto extensivamente por los medios masivos [5,6] y los medios especializados en ajedrez [7,8], con notas extravagantes respecto a la importancia de este avance. Sin embargo, existen dudas razonables en cuanto a la validez de las declaraciones generales realizadas, que surgen tras una lectura cuidadosa del artículo de AlphaZero. Algunas de estas observaciones podrían no ser consideradas como importantes en sí mismas y podrían ser rectificadas por los autores. De cualquier manera, en conjunto, estas observaciones crean dudas razonables respecto a la validez científica de las afirmaciones principales del artículo. A continuación, enumero estas observaciones:

Disponibilidad/Reproducibilidad. Ninguno de los sistemas AlphaZero desarrollados por DeepMind pueden ser accedidos por el público: el código no está disponible y ni siquiera existe una versión comercial para que los usuarios la revisen. Este es un impedimento importante, pues desde el punto de vista científico estos nuevos enfoques no pueden ser ni validados ni mejorados por otros expertos. Esta falta de transparencia provoca que sea casi imposible replicar sus experimentos.

Entrenamiento durante 4 horas. El tiempo de entrenamiento de AlphaZero ha sido uno de los elementos más confusos en las explicaciones de los medios masivos. Según el artículo, después de 4 horas de entrenamiento en 5000 TPUs, el nivel de AlphaZero ya era superior al del módulo de código abierto Stockfish (el entrenamiento completo de AlphaZero tomó unas cuantas horas más). Esto significa que el tiempo usado por AlphaZero, por TPU, fue aproximadamente de dos años, una cantidad de tiempo que hubiera sido considerablemente más alta en una PC normal. Por lo tanto, a pesar de que las 4 horas se ven impresionantes (y, de hecho, son impresionantes), esto se debe en gran parte a la enorme capacidad de poder computacional disponible hoy en día en comparación con unos cuantos años atrás, especialmente cuando una compañía como DeepMind ha invertido mucho dinero. Por ejemplo, hasta 2012 todas las posiciones con siete piezas o menos habían sido resueltas matemáticamente, usando un poder computacional significativamente menor [9]. Esta mejora en la capacidad de procesamiento facilita el desarrollo de nuevos algoritmos y, probablemente en unos cuantos años más, un juego como el ajedrez podrá ser prácticamente resuelto solo con base en la fuerza bruta computacional.

El entorno experimental contra Stockfish. Para demostrar la superioridad de AlphaZero sobre módulos de ajedrez más antiguos, se realizó un match a 100 partidas contra Stockfish (AlphaZero ganó por 64-36). La selección de Stockfish como rival parece razonable, pues es un módulo de código abierto y uno de los módulos de ajedrez más fuertes hoy en día. Stockfish terminó tercero (detrás de Komodo y Houdini) en la reciente TCEC (Competición de los Mejores Módulos de Ajedrez) [10], considerado el campeonato mundial de módulos. Sin embargo, el entorno experimental no parece ser justo. La versión de Stockfish usada no fue la última y, lo que es más importante, fue ejecutada en una PC normal, mientras que AlphaZero se ejecutó con un poder de procesamiento considerablemente más alto. Para ilustrarlo, en la TCEC los módulos juegan entre sí usando el mismo procesador.

Además, la selección del control de tiempo parece extraña. A cada módulo se le dio un minuto por jugada, mientras que en la gran mayoría de competiciones —humanas y entre máquinas— cada jugador recibe una cantidad de tiempo fija para toda la partida, y cada participante la administra individualmente. Como Tord Romstad, uno de los desarrolladores originales de Stockfish, declaró, esta fue otra decisión cuestionable en detrimento de Stockfish, pues "gran parte del esfuerzo se invirtió en conseguir que Stockfish identifique puntos críticos de la partida y decida cuándo gastar más tiempo por jugada" [10]. Tord Romstad también notó que Stockfish "estaba jugando con muchos más hilos de búsqueda de los que se han testeado en pruebas". Por otra parte, un gran porcentaje de las victorias de AlphaZero sorprendieron mucho a algunos ajedrecistas de élite, pues desafía la creencia común de que los módulos habían alcanzado un nivel casi imbatible (por ejemplo, Hikaru Nakamura, el número 9 del mundo, se mostró escéptico respecto a la baja tasa de empates en el match AlphaZero-Stockfish [11]).

Las 10 partidas contra Stockfish. Junto a los artículos se compartieron diez partidas ejemplares, todas victorias de AlphaZero [12]. Estas partidas han sido alabadas por la comunidad ajedrecística en general, debido a la comprensión aparentemente profunda demostrada por AlphaZero: Peter-Heine Nielsen [13], gran maestro y entrenador del campeón del mundo Magnus Carlsen, y Maxime Vachier Lagrave [11], número 5 del mundo, son dos ejemplos de jugadores que han reaccionado positivamente al desempeño de AlphaZero contra Stockfish en estas partidas. Sin embargo, la decisión de presentar solo diez de las victorias de AlphaZero crea algunas dudas. En los artículos científicos, se suelen presentar ejemplos en los que el sistema propuesto demuestra debilidades o no se ha comportado particularmente bien para tener una comprensión más global, desde la cual otros investigadores partirán para ampliar el conocimiento del tema. Otro cuestionamiento que no parece quedar claro en el artículo es si las partidas arrancaron desde una apertura particular o desde cero. Dada la variedad de aperturas que se ve en estas diez partidas, parecería que se predeterminaron algunas posiciones iniciales.

Auto-aprendizaje. ¿AlphaZero aprendió completamente solo? Esto parece ser cierto según los detalles provistos en el artículo, pero con dos importantes matices: las reglas y la cantidad típica de jugadas fueron enseñadas a la máquina antes de que comience a jugar contra sí misma.

El primer matiz, aunque parece obvio, no es tan trivial. Se debe dedicar mucho trabajo para encontrar una arquitectura de redes neuronales apropiada para codificar estas reglas, como se explica en el artículo de AlphaZero. La arquitectura inicial, basada en redes neuronales circunvolucionales usada en AlphaGo era apropiada para el go, pero no para otros juegos. Por ejemplo, a diferencia del go, el ajedrez y el shogi son juegos asimétricos y algunas piezas se comportan de distinta manera dependiendo de su posición. En el último AlphaZero, se introdujo una versión más genérica en relación al algoritmo de AlphaGo, que engloba juegos como el ajedrez y el shogi.

El segundo matiz (se le dio a AlphaZero el típico número de jugadas para "reducir el ruido exploratorio") también requiere un conocimiento previo del juego. Además, las partidas que excedían un número máximo de pasos se cerraban con un resultado de tablas (no se explicitó este número máximo de pasos). No queda claro si este proceso heurístico fue también usado en las partidas contra Stockfish o solamente durante el entrenamiento.

Generalización. El uso de un aprendizaje de propósito-general que puede tener éxito en muchos dominios es una de las afirmaciones principales del artículo de AlphaZero. Sin embargo, siguiendo con el punto previo de auto-aprendizaje, se ha debatido mucho respecto a la capacidad de sistemas como AlphaGo y AlphaZero de ser generalizados en otros dominios [14]. No parece realista creer que muchas de las situaciones de la vida real pueden ser simplificadas a un conjunto predefinido de reglas, como sucede en el ajedrez, el go o el shogi. Además, no es solo que los juegos tengan un conjunto fijo de reglas, sino que también, aunque con distintos niveles de complejidad, estos juegos son finitos, es decir, la cantidad máxima de confguraciones posibles está limitada. Esto difiere de otros juegos que también tienen un conjunto fijo de reglas. Por ejemplo, en el tenis, la cantidad de variables que se deben tomar en cuenta es difícil de cuantificar y, por lo tanto, no se sabe cuáles deberán ser tomadas en cuenta: la velocidad y dirección del viento, la velocidad de la pelota, el ángulo de la pelota con la superficie, el tipo de superficie, el material de la raqueta, las imperfecciones de la cancha, etc.

Es necesario escudriñar científicamente supuestos grandes avances con cuidado, especialmente en esta época de exageraciones en lo que respecta a la IA. De hecho, es responsabilidad de los investigadores de esta área describir con precisión y publicitar nuestros logros sin contribuir al manejo errado de la información (con frecuencia, provocado por intereses propios) y la mistificación del campo. De hecho, a principios de diciembre, en una de las conferencias más prestigiosas sobre IA (NIPS), algunos investigadores se mostraron muy preocupados respecto a la falta de rigor en esta comunidad científica durante los últimos años [15].

Por lo tanto, dada la relevancia de las afirmaciones del artículo, espero que estas observaciones sean aclaradas y resueltas para poder juzgar con precisión la verdadera contribución científica de esta hazaña, un juicio que simplemente no se puede hacer en este momento. Probablemente, con un mejor diseño experimental y un esfuerzo por hacer posible la reproducibilidad, las conclusiones serán algo más débiles de lo que se cree. O tal vez no, pero es difícil realizar esta evaluación si DeepMind no hace un esfuerzo en esta dirección. Personalmente, tengo mucha esperanza respecto al potencial que tiene DeepMind de encontrar avances relevantes en el campo de la IA, pero espero que estos logros sean desarrollados de forma que puedan ser fácilmente juzgados por sus colegas y contribuyan así a la sociedad.

ruftata · 2017/12/20

@cristian383

DiegoJVPLHP · 2017/12/20

Son las inteligencias artificiales buenos chatos?

perro_culiao · 2017/12/20

pal que quiera destruir a alphazero, simplemente hagan que lea un post de SRL

Bradock · 2017/12/20

esas inteligencias artificiales terminan convirtiéndose en racistas y anti judíos :jijiji:

kirala · 2017/12/20

Ya estaba en ciencia y tecnología pero no tan completo .

Saluditos · 2017/12/20

GO y shogi el último bastión de la humanidad

:idolo:

Oriente dando cara .

Flaco1978 · 2017/12/20

Ándate a redactar tu currículum mejor, en tu tema de CV te dejé una pauta a prueba de chancletas. Y no olvides que por cada Ruftata hay como 20 ruftatas venezolanos postulando a la misma pega... Apúrate weón.

ruftata · 2017/12/20

Flaco1978 dijo:
Ándate a redactar tu currículum mejor, en tu tema de CV te dejé una pauta a prueba de chancletas. Y no olvides que por cada Ruftata hay como 20 ruftatas venezolanos postulando a la misma pega... Apúrate weón.

ya lo hice y ya envie el CV

Flaco1978 · 2017/12/20

ruftata dijo:
ya lo hice y ya envie el CV

DarkTsu · 2017/12/20

@xipito

Alphazero la IA que aprende vencio al emjor modulo de ajedrez

ruftata

Hij@'e Puta

ruftata

Hij@'e Puta

DiegoJVPLHP

Plasta Culiad@

perro_culiao

Hagen

Bradock

Hij@'e Puta

kirala

Epic Troll

Saluditos

Hij@'e Puta

Flaco1978

Hij@'e Puta

ruftata

Hij@'e Puta

Flaco1978

Hij@'e Puta

DarkTsu

Intergalactic Troll