Ir al contenido principal

Sobre el modelo de red neuronal AlphaGo Zero (de Google DeepMind)

Previous versions of AlphaGo initially trained on thousands of human amateur and professional games to learn how to play Go. AlphaGo Zero skips this step and learns to play simply by playing games against itself, starting from completely random play. In doing so, it quickly surpassed human level of play and defeated the previously published champion-defeating version of AlphaGo by 100 games to 0.
If similar techniques can be applied to other structured problems, such as protein folding, reducing energy consumption or searching for revolutionary new materials, the resulting breakthroughs have the potential to positively impact society. 
(Profesor David Silver)

¡Realmente increíble las implicaciones que tiene este descubrimiento de DeepMind! Su modelo neuronal AlphaGo Zero es capaz de aprender SOLO sin necesitar de datos de ningún tipo (ya no necesita siquiera aprender de jugadas de humanos como su versión anterior); simplemente aprende jugando contra sí mismo. Los chicos de Google DeepMind hablan de un entrenamiento de "tabula rasa" mediante un proceso de Reinforce Learning autónomo (auto-sostenido). Este proceso de entrenamiento consiste en partir de una red neuronal profunda (similar a lo que sería un cerebro con sinapsis aleatorias), y mediante una iteración de entrenamiento autónomo mediante ensayo-error y pequeñas mutaciones esa tabula rasa (esa red neuronal con sinapsis aleatorias) poco a poco va ajustando su estructura hasta lograr sin ninguna ayuda algorítmica humana vencer al mejor jugador mundial de Go. Es decir, que a partir de eso que sería el equivalente computacional de neuronas unidas mediante sinapsis aleatorias, este modelo de red neuronal de DeepMind es capaz en pocas semanas de aprender y finalmente emular (y mejorar) la creatividad y la imaginación necesarias para jugar este juego milenario que ha necesitado de millones de años para su implantación cerebral en el hombre.

¡Además esta mejora de AlphaGo Zero supone que el programa ahora es capaz de vencer siempre (al 100%) a su versión predecesora (que ya era ella por cierto capaz de vencer al mejor jugador del mundo)! Es decir, que han conseguido una mejora no ya sobrehumana, sino exponencialmente mejor que su predecesora...¡y además han logrado disminuir (exponencialmente) los requisitos de hardware necesarios para su funcionamiento!



Realmente la IA general está despegando, y todo apunta a que no hace falta más que un modelo neuronal lo suficientemente grande y profundo, suficiente capacidad computacional, y un entrenamiento y modulación similar a la evolución natural.

Implicaciones reales del proyecto sobre el avance hacia una IA general.

Imagina que eres tú el que está jugando a Go: ¿cómo sabes qué movimiento hacer? Recuerda que en el Go la lógica no es fundamental: hay más jugadas disponibles que átomos en el Universo lo que hace que no sea posible racionalizar las jugadas, cosa que convierte en muy importante el proceso de creatividad, imaginación y sobre todo el instinto. De hecho, un gran maestro humano de Go juega  casi exclusivamente guiado por el instinto: mueve donde CREE que es más adecuado, pero NO sabe racionalmente por qué debe mover en cierto lugar concreto en lugar de en cualquier otro (algo que con el ajedrez por ejemplo NO pasa puesto que es mucho más asequible a la planificación racional).

Otro ejemplo: vas por la calle y ves pasar una chica (o un chico) y sientes atracción por ella (o por él): ¿por qué sientes realmente atracción por esa persona? No lo sabes, sólo sabes que sientes atracción por cierto estereotipo de persona y punto. Un ejemplo más: los artistas y su creatividad. Estos trabajos son frutos de ideas que le "salen" de dentro al artista, pero casi siempre de manera instintiva sin saberse bien cómo ni de donde (por eso hablan metafóricamente de la ayuda de su musa, que es en realidad parte de su subconsciente).

El ser humano tiene por lo tanto muchos comportamientos e ideas que son de origen inconscientes e instintivos, los cuales no tienen ni explicación ni soporte racional directo. Y son precisamente este tipo de comportamientos creativos e imaginativos los que DeepMind está logrando de momento simular con mucho éxito; demostrando  por ejemplo que AlphaGo Zero es capaz de adquirir tales habilidades instintivas con una capacidad sobrehumana (y sin soporte algorítmico humano). Se podría decir en cierta manera que; aunque por ahora sólo en el terreno del Go, este modelo neuronal es capaz de actuar con más creatividad, imaginación e instinto que cualquier jugador humano. Y eso es algo muy revelador del futuro que nos espera en IA.

Entradas populares de este blog

¡Más potencia!

«¡Es la guerra! ¡Traed madera! ¡Más madera!»  (Los hermanos Marx) Introducción. El mundo de las ciencias de la computación están estos días de enhorabuena, un nievo hito histórico acaba de acontecer: hablamos por supuesto del casi milagroso desarrollo de Google DeepMind denominado AlphaZero , un modelo neuronal capaz de aprender de manera autónoma no supervisada (sin apoyo de datos etiquetados ofrecidos por el hombre) a jugar con capacidades sobrehumanas a varios juegos milenarios como el Go y el ajedrez ( aquí podéis descargar el paper de este proyecto). DeepMind acaba de demostrar así que la metodología que utilizaron para que un modelo neuronal aprendiera (con capacidades sobrehumanas) por sí misma sin apoyo de datos humanos el juego de Go, es generalizable a cualquier otro tipo de juego o situación. En el arriba comentado paper nos explican por ejemplo como en 4 horas (sí, sólo 4 horas), la red neuronal fue capaz de aprender a jugar al ajedrez (entre otros juegos) con una ca...

Replicando el desarrollo de Google DeepMind: AlphaGo Zero

Previous versions of AlphaGo initially trained on thousands of human amateur and professional games to learn how to play Go. AlphaGo Zero skips this step and learns to play simply by playing games against itself, starting from completely random play. In doing so, it quickly surpassed human level of play and defeated the previously published champion-defeating version of AlphaGo by 100 games to 0. If similar techniques can be applied to other structured problems, such as protein folding, reducing energy consumption or searching for revolutionary new materials, the resulting breakthroughs have the potential to positively impact society.  (Profesor David Silver) Hace unos meses   Google DeepMind   hizo público uno de sus resultados más asombrosos: una versión del modelo neuronal que fue capaz de derrotar al campeón del mundo de   Go , solo que esta vez no necesitaron hacer uso de ningún aprendizaje supervisado de juegos entre humanos (hablé en este mismo blog en   ...

Sobre el mito de la caja negra en el campo de la inteligencia artificial

En relación a esta  buena entrada de Santiago  donde trata el hito que  DeepMind  ha logrado con el sistema de inteligencia artificial  Alpha Zero , me gustaría comentar algo sobre la cuestión que más se malinterpreta actualmente de la moderna IA: ¿es cierto que no sabemos cómo hace lo que hace? ¿Se trata realmente de una misteriosa caja negra inexpugnable? Pues bien, la respuesta es no y no. Sabemos perfectamente (los que se dedican e investigan en este campo) por qué la moderna IA hace lo que hace y cómo lo hace. Y lo de "la caja negra" pues...sencillamente es un mito sensacionalista. Todo el machine learning actual ( Alpha Zero  incluido) es el resultado de procesos matemáticos algebraicos trabajando sobre números reales. Más en concreto, millones de operaciones de sumas y multiplicaciones tensoriales sobre un conjunto de (millones) de números reales almacenados en un fichero para tal fin. Como veis no hay misterio ni "magia" por ninguna parte. Y...