Inferencia bayesiana, aprendizaje y desarrollo de sistemas de IA
Hay una fórmula matemática poco conocida que en la actualidad utilizan determinados sistemas de inteligencia artificial para resolver una amplia problemática, desde predicciones sobre la forma de propagación de la pandemia, hasta otros usos en nuestros ‘smartphones’. En este artículo vemos porqué.
Cuando comencé a trabajar en IA hace unos 35 años, hubo una técnica cuya aplicación me dejó deslumbrado intelectualmente. Se trataba de la inferencia bayesiana, desarrollada a partir de una fórmula matemática concebida por un clérigo llamado Thomas Bayes en el siglo XVIII: el Teorema de Bayes. Su uso en sistemas expertos, una rama muy fructífera de la IA en la década los 80 del siglo pasado, estaba ayudando a lograr grandes avances. Lo que más me llamó la atención de aquella técnica fue el hecho de que una fórmula matemática pudiera imitar y mejorar en muchos casos procesos de toma de decisiones de expertos humanos.
Como licenciado en matemáticas, estaba familiarizado con el teorema de Bayes y lo había aplicado para resolver otro tipo de problemas. Pero su uso para emular a expertos humanos era algo nuevo para mí. Y lo más impresionante era que muchos expertos humanos probablemente no tuvieran ningún conocimiento sobre las matemáticas subyacentes al Teorema de Bayes. Hoy en día, esta técnica se ha hecho omnipresente en el mundo de la IA. La usan todos nuestros teléfonos inteligentes sin que nos demos cuenta.
En los sistemas de aprendizaje automático actuales, la inferencia bayesiana es hoy más relevante que nunca.
¿Por qué? La respuesta es que, si se dan las condiciones adecuadas, la inferencia bayesiana es capaz de modelar la experiencia humana de una manera excepcional. ¿Cómo es posible? Porque los expertos aprenden inconscientemente a asignar ponderaciones razonablemente correctas a la evidencia para hacer cálculos intuitivos en la resolución de problemas. Pero la fórmula de Bayes permite hacer este tipo de cálculos de manera precisa.
Teorema de Bayes: Cómo funciona
Para entender cómo funciona, usamos una notación simbólica para describir el problema en Bayes, como vemos a continuación:
Primero, es necesario formular el problema en términos de una o más hipótesis. Una hipótesis es simplemente una proposición cuya verdad se desconoce. Por ejemplo, un paciente con Covid. Si se selecciona una persona al azar, se desconoce la respuesta a esta pregunta. Pero los expertos tendrían una idea inicial de la probabilidad de que esto suceda: esto es lo que llamamos probabilidad previa y es la medida de la probabilidad de ocurrencia un suceso sin disponer de más información. La probabilidad mide la posibilidad de ocurrencia de un suceso, asignándole un valor numérico entre 0 y 1. Es posible obtener una buena estimación de una probabilidad previa consultando con un experto o a partir de promedios estadísticos. En el caso de Covid, podríamos tomar el número de infecciones frente a la población total. Escribimos P(H) para representar la probabilidad previa de H.
El siguiente paso es usar una evidencia para actualizar nuestra probabilidad previa de H. Normalmente nos referimos a esta evidencia con la letra E, y con la expresión P(E). Bayes se dio cuenta de que a partir de la probabilidad previa de una hipótesis y tomando la evidencia de las observaciones reales, era posible calcular una probabilidad actualizada para reflejar la situación actual, conocida como probabilidad posterior. Estimada la probabilidad previa de una hipótesis, la clave está en averiguar cuánto afecta el conocimiento de un elemento de evidencia a la probabilidad de ocurrencia de una hipótesis. La expresión P(E/H) indica la probabilidad de que la evidencia E sea verdadera si la hipótesis H es verdadera. Esto quiere decir que la probabilidad de E viene condicionada por H. En esencia, Bayes concibió una fórmula para actualizar la probabilidad de una hipótesis ante la disponibilidad de nuevas observaciones. Si la nueva observación es coherente con la hipótesis, la probabilidad de la hipótesis aumenta; de lo contrario, podría disminuir.
La fórmula matemática del teorema de Bayes es la siguiente:
Para usar esta fórmula, obtendríamos valores para el lado derecho, y los incorporaríamos a la fórmula para determinar el valor actualizado de P(H/E). Esto es, un valor actualizado de la probabilidad de que suceda la hipótesis considerando evidencia observada E. En la práctica todos los cálculos se realizan mediante ordenadores. Sin embargo, el ejemplo a continuación ilustra cómo se podría utilizar la inferencia bayesiana para actualizar las predicciones de infecciones por Covid a partir de los resultados de una prueba de Covid. Se trata de una simplificación que no se basa en datos reales. Su único propósito es ayudar a entender cómo se utilizan las matemáticas en la fórmula para actualizar las probabilidades.
Ejemplo
Suponemos que en un hospital concreto se sabe que existe una probabilidad de 1 entre 1000 de que un paciente tenga Covid. Suponiendo que también supiéramos que la precisión de las pruebas es del 99%, ¿cuál sería la probabilidad de que un paciente que haya dado positivo tenga Covid?
Para determinar la respuesta, necesitamos determinar los valores para cada elemento en el lado derecho, es decir, P(H), P(E/H) y P(E).
P(H) = 1/1000 = 0.001 (Dado que la probabilidad de tener Covid incondicionalmente es del 1%)
P(E/H) = 0.99 dado que el 99% de las veces los pacientes con Covid darán positivo.
Si P(E) = P(E/H) x P(H) + P(E/~H) x P(~H), siendo ~H no tener Covid.
Por lo tanto, P(~H) = 99/100 = 0.999.
Y, P(E/~H) = 0.01
Por lo tanto, P(H/E) = 0.99 x 0.001/ (0.001 x 0.99 + 0.999 x 0.01) = 0.09.
Esto significa que el paciente tendría un 9% de posibilidades de tener Covid tras dar positivo en la prueba. Hasta cierto punto, este resultado puede resultar llamativo, pero hay que tener en cuenta que la probabilidad de tener Covid es de 1 entre 1000, por lo que en una muestra de 1000 personas, sería de esperar que hubiera un positivo. Entre las 999 personas restantes que no lo tienen, si la prueba falla aproximadamente una de cada cien veces, cabría esperar que se produjeran aproximadamente 10 fallos. Por lo tanto tendríamos 1 con covid, y aproximadamente 10 sin covid, dando una probabilidad de aproximadamente de 1 entre 10, un resultado muy similar al 0,09 obtenido aplicando Bayes.
Polémica bayesiana
El uso de la inferencia bayesiana también ha suscitado un cierto nivel de polémica, especialmente en el campo de la ciencias forenses. Por ejemplo, en 1990, en el Reino Unido, un hombre fue hallado culpable de violación y condenado a 16 años de cárcel, en parte a partir de unas pruebas de ADN. Según un testigo experto de la fiscalía, la posibilidad de que el ADN de una persona coincida con el de otra es de una entre tres millones.
Sin embargo, el hombre apeló la sentencia. Un experto afirmó que había un error en el planteamiento porque esta evidencia mezclaba dos preguntas: En primer lugar, ¿cuán probable sería que el ADN de una persona coincidiera con el ADN de la muestra, dado si fuera inocente?; y en segundo, ¿qué probabilidades habría de que fuera inocente si su ADN coincidiera con el de la muestra? Aunque sólo había una probabilidad de 1 entre 3 millones de que el ADN coincidiera, considerando una población total de unos 60 millones, esto implicaría que el ADN de 20 personas podría coincidir con el de la muestra, entre las que se hallaría culpable. Por lo tanto, seleccionando una persona al azar, la probabilidad de que esta persona fuera inocente sería de 19 sobre 20, o lo que es lo mismo, un 95%. Un porcentaje que podría considerarse demasiado elevado y que ilustra lo que se conoce coloquialmente como la “falacia del fiscal”. Sin embargo, el ADN por sí solo no bastaría como evidencia para imponer una condena, porque la existencia de otras pruebas reduciría esta probabilidad. Por ejemplo, si se tuviera la certeza de que ninguna de las otras 20 personas se encontraba en la zona cuando la víctima fue violada, teniendo en cuenta este dato en Bayes, la probabilidad de que el acusado fuera culpable aumentaría. La inferencia bayesiana es un proceso de actualización de probabilidad, que permite utilizar cada nueva observación para corroborar la probabilidad de culpabilidad.
Supuestos para usar la inferencia bayesiana
La aplicación de la inferencia bayesiana en sistemas extensos a veces entraña grandes dificultades puesto que los elementos de evidencia que contribuyen a una hipótesis deben de ser independientes entre sí. Esto implica que dos elementos de prueba utilizados no pueden afectarse mutuamente. Y esto puede suponer una gran complicación cuando varias pruebas de las que se dispone están interconectadas mediante varias hipótesis.
Sistemas ingenuos de aprendizaje bayesiano
Uno de los problemas que plantea la inferencia bayesiana es que, en sistemas de grandes dimensiones, la existencia de un gran volumen de hipótesis y pruebas puede conducir a la existencia de una gran cantidad de combinaciones e interconexiones entre el número de hipótesis y pruebas. La aplicación del aprendizaje automático a los datos puede evitar una gran cantidad de codificación manual. Un sistema ingenuo de aprendizaje bayesiano es una red neuronal de clasificación que asume que los predictores de evidencia son independientes, tal y como lo son al utilizar el Teorema de Bayes. Se trata de un enfoque que se basa en el aprendizaje a partir de la experiencia, en combinación con la aplicación del Teorema de Bayes.
Utiliza ejemplos de aprendizaje supervisado, esto es, ejemplos de datos con cuyos resultados se alimenta al algoritmo de aprendizaje y que funciona mejor con grandes series de datos. Al transformar los datos en una tabla de frecuencia estadística, puede aprender valores posteriores descritos anteriormente para cada clase. Luego clasifica los predictores (hipótesis) de mayor a menor para hacer una predicción. Los sistemas ingenuos de Bayes funcionan bastante bien, incluso cuando no se cumplen los criterios de independencia. De ahí que a esta técnica se la conozca como aprendizaje ingenuo de Bayes. Muchas aplicaciones que todos usamos a diario en nuestros teléfonos inteligentes aplican estos modelos ingenuos de aprendizaje bayesiano. Por ejemplo, los principios del aprendizaje ingenuo se aplican de manera sistemática en los mecanismos de filtrado de correo no deseado de nuestros buzones de correo electrónico, así como en los sistemas de gestión de energía de los teléfonos inteligentes y en muchas otras aplicaciones.
Conclusiones
La inferencia bayesiana se ha convertido en una técnica de IA de referencia tanto en sistemas computacionales como en aquellos derivados de un modelo de aprendizaje. También resulta de gran utilidad en una amplia gama de campos de aplicación, si prevalecen determinadas condiciones. Probablemente, a la inferencia bayesiana le está reservado un papel relevante en el desarrollo futuro de muchos sistemas de IA.