Subir

Tecnología> Inteligencia Artificial Act. 04 jun 2024

Los LLM (modelos de lenguaje): qué son y cómo funcionan

Las herramientas de inteligencia artificial generativa evolucionan a gran velocidad: en tan solo dos meses ChatGPT alcanzó los 100 millones de usuarios frente a otras plataformas como TikTok, que necesitó nueve. Para entender su potencial antes es necesario comprender qué son los grandes modelos de lenguaje que están detrás de estas aplicaciones.

Communications

Escuchar audio

¿De dónde viene el término 'GPT' del modelo sobre el que se basa la herramienta de inteligencia artificial generativa ChatGPT? Se trata del acrónimo en inglés de 'Generative Pre-trained Transformer'. 'Transformer' hace referencia al tipo de arquitectura de red neuronal sobre el que está construido, que se definió por primera vez en 2017 en la publicación 'Attention is all you need'. 'Pre-trained' y 'Generative' hacen referencia a su naturaleza de gran modelo de lenguaje (o LLM, por sus siglas en inglés), es decir, se trata de un modelo que ha sido entrenado previamente con un conjunto de datos determinados y que tiene la capacidad de generar información.

Innovación

BBVA acelera sus planes en inteligencia artificial y firma un acuerdo con OpenAI

Tras años a la vanguardia en proyectos e investigación basada en inteligencia artificial (IA), BBVA da un paso decidido en el uso de la IA generativa en sus principales mercados. Por un lado, ha priorizado alrededor de 100 proyectos que se desarrollarán con distintas herramientas de esta nueva tecnología. Y, por otro, ha firmado un acuerdo estratégico con OpenAI, el creador de ChatGPT, para empezar a desplegar esta herramienta entre sus empleados. El objetivo es explorar, de forma segura y responsable, la IA generativa para acelerar procesos, mejorar la productividad y fomentar la innovación gracias a las nuevas capacidades para la creación de texto, imágenes o tratar información, entre sus múltiples funcionalidades.

¿Pero qué son exactamente los LLM? "Los LLM son modelos pre-entrenados con una técnica llamada aprendizaje automático, capaz de analizar miles de millones de corpus de texto para aprender patrones de lenguaje, gramática y contexto", afirma Curro Maturana, responsable Global de GenAI de BBVA. "El gran cambio con respecto a modelos de inteligencia artificial clásica, estriba en que los LLM son modelos auto-supervisados, es decir, no hay etiquetado previo de datos".

Este entrenamiento les permite realizar tareas relacionadas con el lenguaje, como traducción, creación de contenido, resumen y conversación, con una precisión y fluidez muy similar a la de un ser humano. En el caso de GPT-4, que es el LLM que utiliza en la actualidad ChatGPT, además, fue ajustado mediante aprendizaje por refuerzo a partir de retroalimentación humana e IA.

Software

‘No code/low code’: la revolución de desarrollar 'software' sin código

La era dorada de la programación sin código llega con herramientas que permiten a no expertos crear aplicaciones de forma intuitiva. Esto ha dado paso a una nueva generación de ‘programadores ciudadanos’, mientras las empresas adoptan cada vez más este recurso de la revolución digital que se espera que rebase los 12.000 millones de dólares de facturación a nivel global en 2024.

Desde la postulación teórica del test de Turing en la década de 1950, los humanos han explorado la capacidad de que un humano pueda mantener una conversación con un ordenador sin que el usuario perciba que se trata de una máquina. Fruto de esta convicción nació en 1966 el considerado como primer 'chatbot' de la historia, Eliza.

Pero tras décadas de desarrollo, esta interacción se ha perfeccionado hasta tal punto que es posible obtener contenido original a partir de una petición humana gracias a plataformas como ChatGPT, Bing AI o Bard. Y todo esto es posible gracias a la arquitectura Transformer en la que se basan los LLM.

Cómo funciona un gran modelo de lenguaje

Los grandes modelos de lenguaje se engloban dentro del ámbito del procesamiento de lenguaje natural (PLN), operando como una gran red neuronal que aprende del contexto, de los propios contenidos y a partir del análisis de secuencias de palabras.

Innovación

Cómo escribir buenos ‘prompts’: así se habla con el Optimus Prime de la IA generativa

El concepto de ‘prompt’ hace referencia a las instrucciones que se escriben para hacer una consulta a un ‘chatbot’ como ChatGPT o crear una imagen con una IA generativa de imágenes. Lo que muchos usuarios no saben es que a través del ‘prompt’ le están dando una orden a un ‘transformer’. Pero en este caso no se trata de uno de esos robots que pueden adoptar la forma de un avión o un guepardo mecánico, sino de una herramienta más versátil y potente con la que debemos aprender a hablar para que nos ofrezca los mejores resultados.

Al hacerlo a gran escala con miles de millones de parámetros, permiten desbloquear la capacidad de que la IA sea capaz de generar contenidos similares a los que haría una persona, al igual que permite ChatGPT. Estos modelos están evolucionando utilizando distintos datos de entrada para generar otro tipo de salidas como por ejemplo audio, imágenes, vídeo o 3d, entre otros. Estos nuevos tipos de modelos se engloban en el concepto de Generative AI. No obstante, para conocer más en profundidad de qué forma operan, hay que desgranar cada una de las palabras que forman la sigla:

Gran. Alude a los millones de parámetros y palabras que se emplean para entrenar y nutrir al modelo, por ejemplo, GPT. El término 'large' (grande) se comenzó a emplear para describir a BERT, el LLM de Google, que utiliza 110 millones de parámetros. En 2023, GPT-3 utilizaba 175.000 millones de parámetros. Se desconoce el número de parámetros usados en GPT-3.5 y en GPT-4, algunos expertos estiman que GPT-4 tiene una capacidad 600 veces mayor que GPT-3, lo que serían unos 100 billones de parámetros.
Modelo. Hace referencia al modelo matemático probabilístico: en esencia, los LLM calculan la probabilidad de que una palabra siga a una cadena de palabras que ha sido proporcionada previamente ('prompt'). Por medio del mecanismo de atención comprueba cada nuevo 'token' (palabra o parte de ella) una y otra vez, consiguiendo crear una gramática perfecta en el idioma que sea y el sentido correcto del texto.
Lenguaje. Es el término que permite reconocer patrones basados en el lenguaje humano extraído de páginas webs, libros, artículos de medios 'online', así como otros tipos de documentos.

Ejemplos de grandes modelos de lenguaje

En la actualidad, existe un amplio abanico de LLM en activo y en desarrollo. Algunos de los más destacados son:

GPT-4. Presentado en marzo de 2023, este gran modelo de lenguaje posee una profunda comprensión de textos complejos. Es el ejemplo de la próxima generación de los LLM con capacidades multimodales (Multimodal Large Language Model o MLLM): más allá de procesar texto, puede interpretar información de otra fuente como imágenes.
BERT. Siglas de 'Bidirectional Encoder Representations from Transformers', es una familia de LLM desarrollada por Google que no solo es capaz de procesar palabras por sí sola. Posee una comprensión profunda del significado del contexto de las palabras en frases, así como la relación entre ellas.
PaLM2. Siglas de 'Pathways Language Model', esta evolución de PaLM se entrenó con más de 500.000 millones de parámetros. Este modelo de lenguaje, desarrollado también por Google, es capaz de comprender secuencias de lenguaje complicadas como acertijos o frases hechas.

Además, de estos modelos de lenguaje también es preciso mencionar los conocidos como LLM de código abierto. Este tipo de modelos son accesibles al público, de tal modo que pueden ser utilizados por desarrolladores o investigadores para mejorarlos o modificarlos. Uno de los resultados de este tipo de modelos es BLOOM, capaz de generar texto en 59 idiomas, o Llama 2, desarrollado por Meta y Microsoft.

Casos de uso de los LLM

Programación

De SQL a Python: los lenguajes de programación que los desarrolladores deben conocer

El código del momento se escribe en JavaScript: continúa por undécimo año consecutivo como el lenguaje de programación más utilizado, por un 16,5% de los profesionales españoles, según la última encuesta de Manfred. Python, SQL, Java y C/C++ también se cuelan en el top 10 de los programadores. Conocer sus características diferenciales es clave para destacarse como desarrollador en un mundo tecnológico en constante evolución.

A medida que los modelos de lenguaje aumentan su envergadura, también lo hacen sus capacidades. A grandes rasgos su uso se ha expandido en los siguientes campos:

Generación de contenido y productos. Es uno de los caminos que más empresas han decidido explorar. Los grandes modelos de lenguaje permiten analizar una gran cantidad de datos y crear recomendaciones personalizadas o contenido adaptado a cada cliente.
Categorización y resumen de información. Los grandes modelos de lenguaje pueden ser usados, por ejemplo, para la categorización y resumen de contenido. Esta ventaja está siendo aprovechada por departamentos jurídicos a través, por ejemplo, de un previo entrenamiento exhaustivo para limitar la aparición de errores y la búsqueda de jurisprudencia adecuada para cada caso.
Traducción de contenido. Los grandes modelos de lenguaje no solo son útiles para realizar traducciones entre diferentes idiomas, sino también entre lenguajes de programación para aquellas empresas que, por ejemplo, desean modernizar sus sistemas.
'Chatbots'. A través de grandes modelos de lenguaje, las empresas pueden afinar el entrenamiento de 'chatbots' y mejorar, de este modo, su servicio de atención al cliente o mejorar las capacidades de los equipos. A modo de ejemplo, Salesforce ha desarrollado Einstein Bot, un asistente que permite automatizar tareas y ayudar a equipos a ser más productivos.

A pesar de las oportunidades que abren, los grandes modelos de lenguaje también presentan desafíos a resolver, como la calidad de los datos que son utilizados para entrenarse o los sesgos que puedan estar presentes en los datos de partida. Otro desafío importante es el de las alucinaciones: aunque la información esté correctamente redactada, podría ser inventada. En cualquier caso, la exploración de la comunicación entre humanos y máquinas continúa su evolución, convirtiendo hechos propios de la ciencia ficción en reales.

Sigue leyendo sobre

Home

Información financiera

La acción

Accionistas

Renta fija

Sostenibilidad y Banca Responsable

Gobierno corporativo y Política de Remuneraciones