Ir al contenido principal

Hacia una inteligencia artificial general

In this work, published in Science (Open Access version), we introduce the Generative Query Network (GQN), a framework within which machines learn to perceive their surroundings by training only on data obtained by themselves as they move around scenes. Much like infants and animals, the GQN learns by trying to make sense of its observations of the world around it. In doing so, the GQN learns about plausible scenes and their geometrical properties, without any human labelling of the contents of scenes. The GQN model is composed of two parts: a representation network and a generation network. The representation network takes the agent's observations as its input and produces a representation (a vector) which describes the underlying scene. The generation network then predicts (‘imagines’) the scene from a previously unobserved viewpoint. (Google DeepMind)


Como ya es costumbre, Google DeepMind acaba de dar otro paso (o pasito si peca uno de escéptico y quiere ser conservador) hacia una inteligencia artificial general mediante un paper publicado en la revista Science...y la prensa apenas se hizo eco :(.
¿Qué pensarías si te digo que Google ha logrado un sistema formado por tres subredes neuronales interconectadas capaz de generalizar a partir de un entorno y sin ayuda de supervisión humana alguna, el número y tipo de objetos que hay en una escena, sus propiedades y la manera en que estos objetos se relacionan unos con otros? Pues es lo que han logrado.
DeepMind ha conseguido este hito como digo mediante la interconexión de tres subredes neuronales que trabajan juntas (la salida de una es la entrada de otra, etc.). Así pues, una primera red neuronal compuesta principalmente de capas convolucionales (como las que tenemos nosotros en el córtex visual) "codifica" una representación del mundo (de la escena), y luego otras dos subredes neuronales (que utilizan fundamentalmente redes recurrentes LSTM) se encargan de tomar esta representación interna del "mundo" e interpretar y extrapolar qué hay y que se puede esperar del mismo en el tiempo.
De este modo el modelo neuronal completo es capaz de observar por ejemplo una escena (nunca vista antes), detectar cuántos objetos hay y de qué tipo son (qué propiedades tienen y cual es el modo normal en que se suelen comportar en el tiempo cada uno de estos tipos de objeto), de manera que la red neuronal finalmente puede recrear y predecir con mucho éxito futuros estados de la escena sin ninguna otra ayuda. Es capaz, por ejemplo, de observar una escena cualquiera y dar respuesta a preguntas sobre qué podemos esperar que ocurra después dadas las circunstancias. Algo similar a que nosotros veamos un vaso volando por el aire y automáticamente sepamos (e imaginemos mentalmente) que en pocos segundos el vaso habrá chocado con el suelo y se habrá roto. De hecho, hay que notar que la manera en que este modelo neuronal aprende es bastante similar al modo en que lo hacen los bebés humanos conforme van creciendo y desarrollándose cognitivamente poco a poco.
Pero no sólo este novedoso modelo de red neuronal de Google es capaz de generalizar asombrosamente lo que ve, ¡sino que incluso es capaz de mantener cierto razonamiento algebraico (más detalles en el paper)!
Como colofón sólo mencionar que Google DeepMind reconoce que uno de los principales impedimentos que encontró para utilizar esta misma técnica en entornos más realistas (como nuestro mundo) es simplemente que no disponen de momento del hardware necesario (no tienen ni de lejos un poder de cómputo capaz de igual al de nuestro cerebro).
Por lo tanto, y a modo de resumen, remarcar el siguiente hecho: dado que al imitar el modo neuronal en que funciona, aprende, y se desarrolla nuestro cerebro se consiguen resultados tan similares a nuestra representación interna del mundo, junto con la afirmación de que el impedimento más importante encontrado para mejorar aún más el proceso sea que no se dispone de la suficiente potencia de cálculo; casi (casi) nos demuestra ya con poco margen para la duda de que lo único necesario para que TODAS nuestras habilidades cognitivas sean simuladas artificialmente es...¡más potencia! (http://quevidaesta2010.blogspot.com/2017/12/mas-potencia.html)

Entradas populares de este blog

Evidencia a favor de la teoría de Jeremy England (usando computación evolutiva)

"You start with a random clump of atoms, and if you shine light on it for long enough, it should not be so surprising that you get a plant." Jeremy England (2014), interview commentary with Natalie Wolchover Hace ya un mes que terminé de estudiar a fondo el interesante trabajo que el físico  Jeremy England  está realizando en el  MIT (Massachusetts Institute of Technology) . En mi blog he divulgado todo lo referente a este trabajo con mucho nivel de detalle, siendo esta entrada un compendio de todo lo que el trabajo cuenta. La idea de esta línea de investigación viene a decir, a grosso modo , que la física de nuestro mundo mantiene una relación implícita entre complejidad y energía . Esta relación indica que, cuanto más complejo es un fenómeno, más energía debe disiparse de modo que crezca la probabilidad de que tal fenómeno finalmente acontezca. Esta teoría de Jeremy parte, y se deduce, de una base termodinámica y de mecánica estadística ya establecida, por lo que sus concl

Aprendizaje automático mediante Deep Q Ntework (DQN + TensorFlow)

"[Las neuronas son] células de formas delicadas y elegantes, las misteriosas mariposas del alma, cuyo batir de alas quién sabe si esclarecerá algún día el secreto de la vida mental."  (Ramón y Cajal) Introducción. Este artículo es una continuación de mi entrada anterior "Las matemáticas de la mente" [2]. Vimos en ese artículo cómo era posible que un simple algoritmo de computación pudiese imitar el modo en que nuestro cerebro aprende a realizar tareas con éxito, simplemente a partir del equivalente computacional de una red neuronal. Sin embargo, a pesar de que en dicha entrada os comentaba el caso de cómo se puede programar un algoritmo capaz de conseguir  literalmente,  aprender a jugar al Conecta4 (4 en raya) sin especificar ( pre-programar ) en ningún momento las reglas del juego; es posible que muchos notasen que aún así, todavía había que pre-procesar la entrada de la red neuronal para ofrecerle a las neuronas (nodos) de la capa de entrada ( inputs ) qué ficha

Aprendizaje autónomo por computación evolutiva (Conecta 4)

"[Las neuronas son] células de formas delicadas y elegantes, las misteriosas mariposas del alma, cuyo batir de alas quién sabe si esclarecerá algún día el secreto de la vida mental."  (Ramón y Cajal) Introducción. Dibujo de Ramón y Cajal de las células del cerebelo de un pollo,  mostrado en "Estructura de los centros nerviosos de las aves", Madrid, 1905. Dos noticias muy importantes que han tenido lugar estas últimas semanas en el campo de la neurociencia y la inteligencia artificial (de las cuales me hice eco en este mismo blog: aquí [1][2] y  aquí [3]), me hizo recordar un trabajo de computación que hice allá por el 2011 cuando inicié el doctorado en ingeniería (el cual por cierto aún no terminé, y que tengo absolutamente abandonado :( Ya me gustaría tener tiempo libre para poder retomarlo; porque además odio dejar las cosas a medias). Pues bien, el trabajo original[4] (que he mejorado) consistía en ser el desarrollo de un algoritmo capaz de aprender a jugar a