Cómo saber si la inteligencia artificial funciona correctamente

Los "métodos de interpretabilidad" buscan arrojar luz sobre cómo los modelos de aprendizaje automático hacen predicciones, pero los investigadores recomiendan proceder con cautela

Nuevas técnicas permiten validar el funcionamiento de la IA

by Overstand, 29/07/2022

Hace aproximadamente una década, los modelos de aprendizaje profundo comenzaron a lograr resultados sobrehumanos en todo tipo de tareas, desde vencer a jugadores de juegos de mesa campeones del mundo hasta superar a los médicos en el diagnóstico del cáncer de mama.

Estos poderosos modelos de aprendizaje profundo generalmente se basan en redes neuronales artificiales, que se propusieron por primera vez en la década de 1940 y se han convertido en un tipo popular de aprendizaje automático. Una computadora aprende a procesar datos usando capas de nodos interconectados, o neuronas, que imitan el cerebro humano.

A medida que ha crecido el campo del aprendizaje automático, las redes neuronales artificiales también lo han hecho.

Los modelos de aprendizaje profundo ahora a menudo se componen de millones o miles de millones de nodos interconectados en muchas capas que están capacitados para realizar tareas de detección o clasificación utilizando grandes cantidades de datos. Pero debido a que los modelos son tan enormemente complejos, incluso los investigadores que los diseñan no entienden completamente cómo funcionan. Esto hace que sea difícil saber si están funcionando correctamente.

Por ejemplo, tal vez un modelo diseñado para ayudar a los médicos a diagnosticar a los pacientes predijera correctamente que una lesión cutánea era cancerosa, pero lo hizo centrándose en una marca no relacionada que ocurre con frecuencia cuando hay tejido canceroso en una foto, en lugar de en el tejido canceroso. tejido mismo. Esto se conoce como una correlación espuria. El modelo acierta en la predicción, pero lo hace por la razón equivocada. En un entorno clínico real donde la marca no aparece en las imágenes positivas para el cáncer, podría dar lugar a diagnósticos erróneos.

Con tanta incertidumbre girando en torno a estos llamados modelos de "caja negra", ¿cómo se puede desentrañar lo que sucede dentro de la caja?

Este rompecabezas ha llevado a un área de estudio nueva y de rápido crecimiento en la que los investigadores desarrollan y prueban métodos de explicación (también llamados métodos de interpretabilidad) que buscan arrojar algo de luz sobre cómo los modelos de aprendizaje automático de caja negra hacen predicciones.

¿Qué son los métodos de explicación?

En su nivel más básico, los métodos de explicación son globales o locales. Un método de explicación local se enfoca en explicar cómo el modelo hizo una predicción específica, mientras que las explicaciones globales buscan describir el comportamiento general de un modelo completo. Esto se hace a menudo mediante el desarrollo de un modelo separado, más simple (y con suerte comprensible) que imita el modelo de caja negra más grande.

Pero debido a que los modelos de aprendizaje profundo funcionan de manera fundamentalmente compleja y no lineal, desarrollar un modelo de explicación global efectivo es particularmente desafiante. Esto ha llevado a los investigadores a centrar gran parte de su enfoque reciente en los métodos de explicación locales, explica Yilun Zhou, estudiante de posgrado en el Grupo de Robótica Interactiva del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) que estudia modelos, algoritmos y evaluaciones en lenguaje interpretable. aprendizaje automático.

Los tipos más populares de métodos de explicación local se dividen en tres amplias categorías.

El primer tipo de método de explicación y el más utilizado se conoce como atribución de características. Los métodos de atribución de características muestran qué características fueron las más importantes cuando el modelo tomó una decisión específica.

Las características son las variables de entrada que se alimentan a un modelo de aprendizaje automático y se utilizan en su predicción. Cuando los datos son tabulares, las características se extraen de las columnas en un conjunto de datos (se transforman utilizando una variedad de técnicas para que el modelo pueda procesar los datos sin procesar). Para las tareas de procesamiento de imágenes, por otro lado, cada píxel de una imagen es una característica. Si un modelo predice que una imagen de rayos X muestra cáncer, por ejemplo, el método de atribución de características resaltaría los píxeles en esa radiografía específica que eran más importantes para la predicción del modelo.

Esencialmente, los métodos de atribución de características muestran a qué le presta más atención el modelo cuando hace una predicción.

“Usando esta explicación de atribución de características, puede verificar si una correlación falsa es una preocupación. Por ejemplo, mostrará si los píxeles de una marca de agua están resaltados o si los píxeles de un tumor real están resaltados”, dice Zhou.

Un segundo tipo de método de explicación se conoce como explicación contrafáctica. Dada una entrada y la predicción de un modelo, estos métodos muestran cómo cambiar esa entrada para que caiga en otra clase. Por ejemplo, si un modelo de aprendizaje automático predice que a un prestatario se le negará un préstamo, la explicación contrafactual muestra qué factores deben cambiar para que se acepte su solicitud de préstamo. Quizás su puntaje de crédito o ingresos, ambas características utilizadas en la predicción del modelo, deben ser más altas para que se apruebe.

“Lo bueno de este método de explicación es que te dice exactamente cómo debes cambiar la entrada para cambiar la decisión, lo que podría tener un uso práctico. Para alguien que está solicitando una hipoteca y no la obtuvo, esta explicación le diría qué debe hacer para lograr el resultado deseado”, dice.

La tercera categoría de métodos de explicación se conoce como explicaciones de importancia de la muestra. A diferencia de los demás, este método requiere acceso a los datos que se usaron para entrenar el modelo.

Una explicación de la importancia de la muestra mostrará en qué muestra de entrenamiento se basó más un modelo cuando hizo una predicción específica; idealmente, esta es la muestra más similar a los datos de entrada. Este tipo de explicación es particularmente útil si se observa una predicción aparentemente irracional. Es posible que haya habido un error de entrada de datos que afectó a una muestra en particular que se usó para entrenar el modelo. Con este conocimiento, se podría corregir esa muestra y volver a entrenar el modelo para mejorar su precisión.

¿Cómo se utilizan los métodos de explicación?

Una motivación para desarrollar estas explicaciones es realizar el control de calidad y depurar el modelo. Con una mayor comprensión de cómo las características afectan la decisión de un modelo, por ejemplo, uno podría identificar que un modelo está funcionando incorrectamente e intervenir para solucionar el problema, o tirar el modelo y comenzar de nuevo.

Otra área de investigación más reciente es la exploración del uso de modelos de aprendizaje automático para descubrir patrones científicos que los humanos no han descubierto antes. Por ejemplo, un modelo de diagnóstico de cáncer que supera a los médicos podría ser defectuoso, o en realidad podría estar detectando algunos patrones ocultos en una imagen de rayos X que representan una vía patológica temprana para el cáncer que los médicos humanos desconocían o que se pensaba que eran irrelevante, dice Zhou.

Sin embargo, todavía es muy pronto para esa área de investigación.

Palabras de advertencia

Si bien los métodos de explicación a veces pueden ser útiles para los profesionales del aprendizaje automático cuando intentan detectar errores en sus modelos o comprender el funcionamiento interno de un sistema, los usuarios finales deben proceder con precaución cuando intenten usarlos en la práctica, dice Marzyeh Ghassemi. , profesor asistente y director del Grupo ML Saludable en CSAIL.

A medida que el aprendizaje automático se ha adoptado en más disciplinas, desde el cuidado de la salud hasta la educación, los métodos de explicación se utilizan para ayudar a los tomadores de decisiones a comprender mejor las predicciones de un modelo para que sepan cuándo confiar en el modelo y usar su guía en la práctica. Pero Ghassemi advierte contra el uso de estos métodos de esa manera.

“Descubrimos que las explicaciones hacen que las personas, tanto expertas como no expertas, confíen demasiado en la capacidad o el consejo de un sistema de recomendación específico. Creo que es muy importante que los humanos no apaguen ese circuito interno y pregunten: 'déjenme cuestionar los consejos que me

dan'”, dice.

Los científicos saben que las explicaciones hacen que las personas se sientan demasiado confiadas según otros trabajos recientes, agrega, citando algunos estudios recientes realizados por investigadores de Microsoft.

Lejos de ser una bala de plata, los métodos de explicación tienen su parte de problemas. Por un lado, la investigación reciente de Ghassemi ha demostrado que los métodos de explicación pueden perpetuar los sesgos y conducir a peores resultados para las personas de grupos desfavorecidos.

Otro escollo de los métodos de explicación es que a menudo es imposible saber si el método de explicación es correcto en primer lugar. Sería necesario comparar las explicaciones con el modelo real, pero dado que el usuario no sabe cómo funciona el modelo, esta es una lógica circular, dice Zhou.

Él y otros investigadores están trabajando para mejorar los métodos de explicación para que sean más fieles a las predicciones del modelo real, pero Zhou advierte que incluso la mejor explicación debe tomarse con cautela.

“Además, las personas generalmente perciben estos modelos como tomadores de decisiones similares a los humanos, y somos propensos a la generalización excesiva. Necesitamos calmar a las personas y contenerlas para asegurarnos realmente de que la comprensión generalizada del modelo que construyen a partir de estas explicaciones locales esté equilibrada”, agrega.

La investigación más reciente de Zhou busca hacer precisamente eso.

¿Qué sigue para los métodos de explicación de aprendizaje automático?

En lugar de centrarse en proporcionar explicaciones, Ghassemi argumenta que la comunidad de investigación debe hacer más esfuerzos para estudiar cómo se presenta la información a los tomadores de decisiones para que la entiendan, y se debe implementar más regulación para garantizar que los modelos de aprendizaje automático sean utilizado responsablemente en la práctica. Mejores métodos de explicación por sí solos no son la respuesta.

“Me emocionó ver que hay mucho más reconocimiento, incluso en la industria, de que no podemos simplemente tomar esta información y hacer un tablero bonito y asumir que las personas se desempeñarán mejor con eso. Debe tener mejoras medibles en acción, y espero que eso conduzca a pautas reales sobre cómo mejorar la forma en que mostramos la información en estos campos profundamente técnicos, como la medicina”, dice.

Y además del nuevo trabajo centrado en mejorar las explicaciones, Zhou espera ver más investigaciones relacionadas con los métodos de explicación para casos de uso específicos, como la depuración de modelos, el descubrimiento científico, la auditoría de equidad y la garantía de seguridad. Al identificar las características detalladas de los métodos de explicación y los requisitos de los diferentes casos de uso, los investigadores podrían establecer una teoría que combinaría las explicaciones con escenarios específicos, lo que podría ayudar a superar algunas de las dificultades que surgen al usarlos en escenarios del mundo real.

Este artículo ha sido elaborado tomando el MIT como fuente.

Pedir presupuesto