Obsidiana Digital

IA Explicable: La necesidad de que las máquinas se justifiquen

Deslizar keyboard_arrow_down
Escrito por:
Publicación: calendar_month 27 de agosto de 2023

Universidad de Bamberg, Alemania En la actualidad, la inteligencia artificial es omnipresente. Antes, si queríamos ver una nueva serie de televisión, le pedíamos ayuda a un amigo que conociera nuestros gustos; ahora esa decisión se la dejamos a la plataforma de streaming de nuestra preferencia. No obstante, en el caso de situaciones que cambian la vida, como el diagnóstico de una enfermedad, es crucial conocer las razones que hay detrás de un dictamen automatizado. Este solo ejemplo hace patente la necesidad de entender la toma de decisiones de sistemas de inteligencia artificial (IA).

Y es que, aunque estas herramientas sean potentes en términos de resultados y predicciones, muchas veces resultan ser opacas, o lo que es lo mismo, es muy difícil comprender su mecanismo interno de trabajo, sobre todo, cuando los sistemas se entrenan a sí mismos y poseen millones de parámetros. Además, dejar la toma de decisiones importantes a una “inteligencia” que no puede explicar su “razonamiento”, es obviamente peligroso.

 

Para abordar esta cuestión, la llamada “IA Explicable” propone un giro hacia sistemas más transparentes. Su objetivo es crear un conjunto de técnicas que produzcan modelos que mantengan sus altos niveles de rendimiento, pero que puedan justificar lo que hicieron en forma comprensible para un humano. 

 

Este problema no es tan sencillo de resolver, a pesar de que la necesidad de contar con tales sistemas aumenta dada la progresiva automatización de la toma de decisiones en dominios considerados de alto riesgo como la salud, la justicia criminal y las finanzas, entre otros. Como el asunto no es trivial, es conveniente considerar la evolución de la IA desde los sistemas expertos hasta las llamadas cajas negras de las redes neuronales profundas: el grado de explicabilidad e interpretabilidad varía de unos sistemas a otros.

 

Es necesario retroceder históricamente hasta la prehistoria de la IA. Aterrizamos en la década de los 80, cuando la IA simbólica estaba en auge. Por esa época se contaba con los llamados sistemas expertos. Estos consisten en una serie de reglas de inferencia para un dominio específico (como las reacciones químicas) y un motor de deducciones que las encadena para responder a interrogantes concretas. Las decisiones de la computadora se pueden explicar presentando la cadena de inferencias que habrían conducido al sistema hacia una conclusión determinada. Sin embargo, mientras que la capacidad de explicación suele ser la ventaja más importante de los sistemas expertos, estos dependen de poder codificar casi manualmente el conocimiento especializado de los expertos humanos. El proceso es arduo y toma mucho tiempo.

 

A partir de los 90 y hasta la actualidad tomó fuerza la otra gran subárea de la inteligencia artificial, la llamada IA subsimbólica, basada en modelos que no procesan reglas lógicas, sino que operan con millones de parámetros que encapsulan correlaciones que la computadora descubre automáticamente en extensas bases de datos. La computadora se entrena a sí misma.

 

Hay que mencionar que no todos los sistemas de aprendizaje de máquina representan un reto insalvable a la hora de ser explicados. Algunos modelos directamente interpretables son, por ejemplo, pequeños árboles y tablas de decisión, así como modelos de regresión lineal con pocas variables. Sin embargo, la mayoría de los modelos de aprendizaje de máquina actuales trabajan con miles de variables y, además, como cajas negras que devuelven una clasificación, predicción, o recomendación, pero sin revelar detalles suficientes de su comportamiento interno, dando lugar a un modelo de decisión opaco. En una regresión lineal con pocas variables, por ejemplo, es posible jerarquizar numéricamente su importancia. Pero ya con miles de variables no hay métodos simples que puedan revelar la importancia de todas las combinaciones posibles.

 

Las llamadas redes neuronales profundas son el modelo de aprendizaje de máquina más exitoso actualmente. Algunas de ellas manejan miles de proyecciones con millones de parámetros, los llamados pesos de la red, que trabajan coordinados para producir el resultado final. Es muy difícil entender cómo el sistema alcanzó sus conclusiones con los datos introducidos en él. Lo único que una red neural revela es el porcentaje de clasificaciones correctas o incorrectas en una gran base de datos y, por eso, se les llama sistemas con garantía estadística. Sabemos que algunos pueden reconocer caras humanas, por ejemplo, con 99% de exactitud, pero no necesariamente entendemos cómo lo hacen.

 

Quizás la forma más sencilla de agregar explicabilidad a un sistema de IA es a través de justificaciones post-hoc, por ejemplo, las conocidas “explicaciones mediante ejemplos”. Un sistema capaz de clasificar tumores podría justificarse presentando muchos ejemplos de tumores que han sido clasificados como malignos o benignos, para que los médicos le tengan una cierta confianza. Otro ejemplo sería cambiar iterativamente el valor de una variable, mientras se mantiene constante el de otras en el sistema, para hacer visible la importancia de cada una.

 

Un método de explicabilidad de modelos explotado en la estadística es el llamado análisis de sensibilidad. Este consiste en determinar cuáles de las diferentes variables que componen un vector de entrada influyen más en las variables de salida. En el caso de un clasificador de animales, por ejemplo, esto equivaldría a revelar cuáles pixeles de la imagen contienen la asociación más fuerte con la clasificación. Esos pixeles se pueden colorear y, generalmente, corresponden al contorno del animal o partes muy conspicuas del mismo, como una cola o la forma de la cabeza. Es lo que se llama mapas de relevancia.

 

El otro subgrupo de explicaciones post-hoc lo componen las “explicaciones globales”, que se centran en la comprensión de la lógica implícita de un modelo y en el seguimiento del proceso que conduce al abanico de posibles resultados. Se puede tratar de transformar al modelo opaco en un árbol de decisiones o en un modelo probabilístico (bayesiano), más fácil de comprender en su funcionamiento. Idealmente sería la computadora la encargada de encontrar estas transformaciones, aunque aún queda mucho por investigar al respecto. Esta clase de transformaciones resulta útil cuando los modelos de aprendizaje de máquina son cruciales para fundamentar decisiones a nivel poblacional, como predecir el riesgo de contraer neumonía o la evolución del cambio climático.

 

Por último, habría que mencionar que se está trabajando actualmente en modelos híbridos. Lo ideal sería poder fusionar sistemas simbólicos, basados en el tipo de razonamiento que los humanos utilizan en su vida cotidiana, con los sistemas de redes neuronales basadas en modelos estadísticos, que reconocen más fácilmente patrones en los datos entrenados. La fusión podría aumentar la capacidad predictiva del sistema híbrido, que, además, sería más transparente.

 

 

Dejar la toma de decisiones importantes a un sistema que no puede explicar su “razonamiento” es obviamente peligroso.

 

No todos los sistemas de aprendizaje de máquina representan un reto insalvable a la hora de ser explicados.

 

IA: nuevo colega o relevo definitivo
Obsidiana Digital | Científicos
Obsidiana Digital | Científicos
Ensayo y error: aprendizaje por refuerzo

Newsletter

Suscríbete a nuestro newsletter y recibe lo último en publicaciones y contenido exclusivo.

Obsidiana Digital 2025
Obsidiana Logo ASTRYD Editorial IA