Los modelos de mundo, una forma de interpretar y predecir el mundo para la IA
Los modelos de mundo constituyen un enfoque de la IA centrados en comprender cómo funciona realmente el mundo para poder predecir su comportamiento y actuar en consecuencia. De esta manera, los modelos de IA podrían adaptarse a situaciones cambiantes y responder en tiempo real a cambios en las condiciones del entorno. Un enfoque que anticipa grandes avances en sectores industriales, conducción autónoma o el ámbito de los videojuegos.
Una pelota rebota contra una pared. Un modelo de IA reconoce la escena y entiende qué significa que una pelota rebote contra la pared, ya que ha visto millones de ejemplos y descripciones del fenómeno. Sin embargo, le falta algo clave: simular, sin necesidad de ayuda, cómo se comportará esa pelota y cuál será la trayectoria y la respuesta después de rebotar contra la pared. Poder adaptarse a este tipo de situaciones en tiempo real es la nueva frontera de la IA.
Hasta ahora las IA generativas se han caracterizado por su capacidad para predecir la siguiente palabra, imagen o comando más probable basándose en las combinaciones del conocimiento de sus bases de datos. Su 'conocimiento' parte de lo que ya han aprendido y pueden replicar. Esto tiene sus limitaciones: pueden dar respuestas coherentes, aunque a veces alucinen, pero no tienen la capacidad para interpretar situaciones cambiantes y adaptarse sobre la marcha.
Un nuevo enfoque de la IA pretende cambiar eso. Se trata de los modelos de mundo, sistemas que son capaces de representar el mundo y actuar en consecuencia. La clave está en su capacidad de aprender y simular un entorno real para predecir cómo afectarán sus acciones. Es decir, se trata de un proceso similar al que hacemos los humanos al adelantarnos a situaciones o predecir qué es lo siguiente que sucederá tras una acción.
Un ejemplo son las leyes de la física que los humanos conocemos de manera instintiva. Si una pelota rebota contra una pared, somos capaces de prever la trayectoria para volverla a golpear o apartarnos si fuera necesario. Los investigadores de IA David Ha y Jürgen Schmidhuber lo ejemplifican con el béisbol: un bateador dispone de apenas milisegundos para decidir cómo situar el bate para golpear una pelota ya que la señal visual que recibe tarda más en llegar al cerebro. Un bateador será capaz de golpear la pelota porque puede predecir instintivamente su trayectoria. De manera similar, la base de los modelos de mundo es que pueden predecir el comportamiento de un entorno y anticipar cómo reaccionará.
Modelos de mundo vs. modelos de lenguaje
Los modelos de mundo no son una idea nueva y están ligados a la inteligencia artificial casi desde sus orígenes. El concepto 'modelo de mundo' deriva del concepto 'modelo mental' acuñado por Kenneth Craik, uno de los pioneros de la ciencia cognitiva. Craik explicaba que la mente forma modelos de la realidad en los que luego se basa para predecir eventos similares en el futuro.
Este concepto influyó en la concepción y desarrollo de los primeros sistemas de IA. La idea de estos pioneros era que los sistemas pudieran replicar algunos procesos cognitivos a través de estos modelos de mundo. Más adelante, este enfoque quedó relegado ante la imposibilidad de desarrollarlo de manera eficaz.
El avance del 'machine learning' y la creación de redes neuronales artificiales recuperó la idea de los modelos de mundo. La base conceptual de estos sistemas radica en replicar de manera artificial las conexiones que establece el cerebro para producir respuestas. Los grandes modelos de lenguaje, en los que se basan Chat GPT, Claude y Gemini entre otros, utilizan el 'machine learning' para aprender de grandes volúmenes de datos y reproducir las respuestas más probables ante una pregunta.
Algunos expertos como el pionero de IA Geoffrey Hinton o el exdirector científico de OpenAI Ilya Sutskever defienden que estos modelos de lenguaje ya incorporan elementos que les permiten desarrollar una representación del mundo. Gracias a ello pueden inferir respuestas o ejecutar acciones para las que no fueron específicamente entrenados.
Sin embargo, hay quienes defienden que para la creación de modelos de mundo realmente efectivos es necesario un enfoque diferente. Es el caso de Yann LeCun, exdirector científico de IA en Meta, que acaba de fundar una startup enfocada en el desarrollo de modelos de mundo. Él defiende que los LLM llegan hasta el punto de manipular muy bien el lenguaje, pero que están limitados por el texto. "No pueden razonar ni planificar realmente porque les falta un modelo del mundo. No pueden predecir las consecuencias de sus acciones. Esta es la razón por la que no tenemos un robot doméstico tan ágil como un gato o un coche realmente autónomo", explicaba en una entrevista para MIT Technology Review.
Para desarrollar los modelos de mundo, LeCun apunta a que es necesario que aprendan sobre representaciones abstractas del mundo. Este enfoque de aprendizaje se basa en la observación de cómo funciona el mundo y actúa en consecuencia en base a predicciones. Si lo trasladamos al ejemplo de la pelota: somos capaces de predecir su trayectoria porque conocemos cómo funciona la gravedad y la física. Sería como ofrecer a las máquinas la capacidad de desarrollar el sentido común.
Aplicaciones de los modelos de mundo
Las aplicaciones de los modelos de mundo impactan en muchos sectores muy diferentes. Es clave para operar en el mundo físico, caracterizado por ser impredecible. Por ejemplo, en el ámbito industrial podría ser capaz de integrarse en sistemas de manejo de maquinaria compleja y comprender su funcionamiento y predecir su comportamiento.
Otro ejemplo claro está en el de lograr una conducción totalmente autónoma gracias a su interpretación del entorno y la predicción tanto de lo que puede ocurrir a su alrededor como de los efectos de sus propias acciones. Es algo similar a lo que podría utilizarse para robots de reparto autónomos que deben moverse entre personas y vehículos en las ciudades y para lo que necesitan predecir esos movimientos.
En el mundo del entretenimiento, uno de los grandes desarrollos está en la generación de vídeo con IA mucho más realista al poder aplicar las reglas del mundo físico a los detalles que se ven en pantalla, como la respuesta de una masa de agua ante una piedra o el movimiento de las hojas. La capacidad de razonamiento de estos modelos permitirá crear entornos más realistas. Lo mismo es aplicable a los videojuegos: si un modelo es capaz de razonar y adaptarse al entorno según evoluciona podrán crearse personajes secundarios más complejos que puedan interactuar de manera realista o generar escenarios mucho más realistas que respondan a las reglas de la física. Google Deepmind ya está probando estos enfoques en su modelo de vídeo Veo3 y su modelo de generación de mundos Genie 3.
Las aplicaciones van más allá. En el caso de los agentes de IA, tener la capacidad de prever cuáles son sus acciones podrá derivar en servicios mucho más útiles e integrados en el día a día de los usuarios. El desarrollo de los modelos de mundo está todavía en su fase más temprana, pero anticipan una nueva generación de sistemas de IA mucho más integrados con el mundo real y capaces de tomar decisiones entendiendo realmente cuáles son las consecuencias de sus actos.