Cerrar panel

Cerrar panel

Cerrar panel

Cerrar panel

Alucinaciones en IA generativa: por qué ocurren y por qué se están reduciendo

El uso extendido de ‘chatbots’ de inteligencia artificial generativa ha evidenciado que estas herramientas pueden inventar datos, citas famosas e incluso sentencias judiciales, un fenómeno que se conoce como las ‘alucinaciones’ de la IA. Estos errores forman parte de cómo funcionan los modelos de lenguaje, pero avances recientes en desarrollo y entrenamiento están reduciendo cada vez más su frecuencia. Y en entornos controlados, como el del asistente Blue de BBVA con IA generativa, el sistema está diseñado para evitarlos.

En 2023 ocurrió uno de los ejemplos más conocidos. Abogados estadounidenses utilizaron un ‘chatbot’ para preparar un escrito judicial y presentaron ante el tribunal varias sentencias que en realidad no existían. El juez descubrió que las citas habían sido inventadas por la inteligencia artificial y les sancionó por incluir precedentes falsos.

Cuando se dice que una inteligencia artificial alucina, no significa que tenga alucinaciones parecidas a las que podemos tener los humanos. En los modelos de lenguaje, una alucinación es una afirmación generada por la IA que parece plausible, pero no está respaldada por la realidad. Es decir, una IA puede producir frases perfectamente coherentes que no son verdaderas.

Desde un punto de vista técnico, la literatura científica describe las alucinaciones como situaciones en las que la respuesta generada por el modelo no coincide con información real o verificable. Esta idea aparece, por ejemplo, en el estudio ‘Hallucination is Inevitable: An Innate Limitation of Large Language Models’. El trabajo también argumenta que este fenómeno responde a una limitación estructural de los modelos de lenguaje (o LLM), incluso cuando están bien entrenados. Ocurre porque estos sistemas no funcionan como bases de datos verificadas ni aplican reglas de lógica formal, sino que se basan en patrones estadísticos aprendidos a partir de grandes volúmenes de texto.

¿Por qué la IA generativa puede inventar información?

Los LLM modernos detrás de muchos ‘chatbots’ actuales están optimizados para producir texto probable, no necesariamente texto verdadero. Se entrenan para resolver una tarea muy concreta: predecir cuál debería ser la siguiente palabra en una secuencia de texto. Por eso, cuando un modelo responde correctamente a preguntas sobre hechos o datos, no lo hace porque “comprenda” la información como lo haría un humano. Tal como explica el informe técnico del modelo GPT-4 de OpenAI, en realidad ha aprendido asociaciones estadísticas entre conceptos presentes en los datos de entrenamiento.

Para conseguir esto, los ‘transformers’, las arquitecturas que soportan los LLM, se entrenan analizando enormes cantidades de documentos y detectando qué palabras o expresiones suelen aparecer juntas. Durante este proceso, el objetivo del modelo es maximizar la probabilidad de que un ‘token’ (la unidad mínima de texto que procesa el sistema) aparezca después de otro. Por ejemplo, si en los datos de entrenamiento la expresión “capital de Francia” aparece muchas veces seguida de “París”, el modelo aprenderá que cuando lee “capital de Francia” es muy probable que la siguiente palabra sea “París”.

Pero este mecanismo también puede producir errores cuando:

  • Las relaciones entre conceptos son complejas
  • Existen múltiples asociaciones posibles entre ellos
  • O los datos de entrenamiento contienen ambigüedades

En esos casos, el modelo puede combinar fragmentos de información correctos de forma incorrecta y generar una respuesta que suena convincente, pero que no es cierta. Por ejemplo, a la pregunta “¿Qué idioma hablaba el rey Alfonso XIII?”, el modelo podría responder “alemán”, “latín” o “francés”, idiomas que estadísticamente suelen aparecer junto a la realeza europea en sus datos de entrenamiento. Este tipo de respuestas probabilísticas erróneas han sido detectadas en estudios como ‘Language Models as Knowledge Bases?’.

¿Por qué las alucinaciones están disminuyendo?

Aunque la base probabilística de los modelos no ha cambiado, la investigación en IA ha introducido varios mecanismos que reducen significativamente las alucinaciones. Dos de los más importantes han sido el alineamiento con preferencias humanas y el uso de herramientas externas de recuperación de información.

1) Alineamiento con preferencias humanas

Después del entrenamiento inicial, los modelos pasan por esta fase adicional en la que evaluadores humanos comparan respuestas del sistema y señalan cuáles son mejores. El proceso permite entrenar al modelo para que:

  • Prefiera respuestas más precisas
  • Evite afirmaciones infundadas
  • Siga comportamientos deseados por los usuarios

Así, el sistema aprende a reconocer patrones de respuestas problemáticas (por ejemplo, datos inventados) y a evitarlos.

Según el informe técnico de GPT-4, el alineamiento mejora sensiblemente las métricas de veracidad de la información y reduce la generación de datos falsos. Técnicas muy utilizadas hoy en día para ajustar el comportamiento de los modelos, como Reinforcement Learning from Human Feedback (RLHF) o Direct Preference Optimization (DPO), utilizan esas comparaciones humanas para mejorar sus respuestas.

2) Uso de herramientas externas

Otro avance consiste en permitir que los modelos consulten información externa y verificable en tiempo real para generar su respuesta. El enfoque más conocido se llama Retrieval-Augmented Generation (RAG). Con este método, el sistema no depende únicamente del conocimiento aprendido durante el almacenamiento, sino que recupera la información relevante desde una base de datos confiable antes de generar la respuesta.

En RAG, el modelo combina dos tipos de memoria: la paramétrica, aprendida durante el entrenamiento; y la no paramétrica, almacenada en fuentes externas (por ejemplo, índices de Wikipedia). El procedimiento funciona así:

  1. El sistema recibe una pregunta
  2. Un componente de recuperación busca documentos relevantes en la base de conocimiento indicada
  3. El modelo genera la respuesta utilizando esos documentos como contexto

Dicho de otro modo, el modelo deja de “recordar de memoria” y consulta fuentes antes de responder.

Las investigaciones sobre RAG muestran que este enfoque produce respuestas más específicas y acordes con los hechos que los modelos que dependen solo de su conocimiento interno.

¿Y por qué no desaparecerán completamente?

A pesar de estas mejoras, los investigadores coinciden en un punto importante: las alucinaciones no pueden eliminarse por completo.

El estudio ‘Hallucination is Inevitable: An Innate Limitation of Large Language Models’ demuestra que una limitación matemática fundamental de los modelos de lenguaje es que no pueden aprender todas las funciones computables posibles. Por lo tanto, cuando se utilizan como solucionadores de problemas generales, inevitablemente producirán respuestas incorrectas en algunos casos. El problema se vuelve aún más complejo cuando se considera el mundo real, que contiene información incompleta, ambigüedades, contradicciones y contextos extremadamente complejos. Ningún modelo formal puede representar perfectamente ese nivel de complejidad.

Por esta razón, las alucinaciones no son solo un error técnico que desaparecerá con modelos más grandes o más datos. Representan una limitación estructural de esta tecnología.

Sin embargo, los investigadores siguen desarrollando técnicas para reducir aún más los errores. Una de las líneas más prometedoras consiste en mejorar la capacidad de razonamiento interno de los modelos. Algunos sistemas recientes introducen lo que se conoce como cadena de pensamiento (‘chain-of-thought’), por la que, en lugar de generar directamente una respuesta, el modelo produce una serie de pasos intermedios para llegar a la conclusión. Este paradigma aparece en nuevas generaciones de modelos que dedican más tiempo de cómputo a la fase de razonamiento. Es decir, en lugar de responder inmediatamente, el modelo dedica más recursos a analizar el problema.

Para entrenar esta capacidad, los investigadores utilizan técnicas de aprendizaje por refuerzo, un método que permite al modelo mejorar su comportamiento a partir de recompensas cuando sigue estrategias de razonamiento correctas. Gracias a este proceso, el modelo puede aprender a:

  • Descomponer problemas complejos en pasos más simples
  • Detectar errores en su propio razonamiento
  • Cambiar de estrategia cuando una solución no funciona

El aprendizaje por refuerzo mejora la capacidad del modelo para analizar problemas de forma más robusta y evitar suposiciones incorrectas.

En la práctica, esto significa que las futuras generaciones de IA no solo generarán texto plausible, sino que dedicarán más esfuerzo computacional a verificar su propio razonamiento antes de responder.

¿Cómo controla las alucinaciones el ‘chatbot’ Blue de BBVA?

Todo lo explicado hasta ahora se refiere a asistentes generativos diseñados para responder a cualquier tipo de pregunta abierta. Pero el caso de Blue, el asistente virtual de BBVA apoyado en IA generativa, es muy diferente: está diseñado para operar dentro de un entorno bancario y con una información muy concreta, la relacionada con consultas y operaciones de cuentas, tarjetas y servicios del banco. El objetivo del asistente es permitir que el cliente pueda, en lenguaje natural como si se tratara de una conversación, consultar movimientos, revisar ingresos y gastos o realizar determinadas gestiones sobre cuentas y tarjetas directamente desde la ‘app’ como, por ejemplo, ordenar un bizum.

Los equipos de desarrollo de BBVA utilizan tres aproximaciones para evitar las alucinaciones en Blue:

  1. RAG basado en fuentes de conocimiento del banco, que el ‘chatbot’ consulta antes de responder a una pregunta del cliente. Es decir, no se limita a generar texto libremente sino que sus respuestas están vinculadas a datos reales del cliente y a la operativa bancaria disponible en la aplicación.
  2. Gestión de consultas fuera de alcance (‘fallback’). Cuando el sistema detecta que una pregunta no está relacionada con los servicios bancarios (por ejemplo, si un cliente pregunta qué tiempo hará en París) no bloquea la respuesta, sino que clasifica el tipo de consulta y adapta la respuesta en consecuencia. De este modo, Blue evita responder con información incorrecta y guía al cliente hacia acciones que sí puede realizar dentro de la aplicación.
  3. Monitorización humana. Científicos de datos, ingenieros de ‘machine learning’ e IA, expertos de las áreas de negocio y diseñadores de experiencia de cliente monitorizan las respuestas de Blue, para refinarlas permanentemente.

Así, mientras que los modelos generativos de uso general pueden equivocarse porque intentan responder a cualquier pregunta imaginable, asistentes como Blue están diseñados para responder solo a preguntas del ámbito bancario, para las que dispone de una base de información actualizada y consistente.

En definitiva, la clave no está solo en implementar modelos cada vez más potentes, sino en diseñar bien cómo y para qué se utilizan. Esto implica establecer con precisión su campo de especialización, proporcionar información dentro de un entorno supervisado y evaluar sus respuestas para confirmar que satisfacen las necesidades de los usuarios.