Enseñar a la IA a hacer preguntas clínicas

La medicina es uno de los campos más beneficiados con el uso de la Inteligencia Artificial

Los investigadores han avanzado hacia modelos de aprendizaje automático que pueden ayudar a los médicos a encontrar información de manera más eficiente en el registro de salud de un paciente

by Overstand, 18/08/2022

Pedir presupuesto

Los médicos a menudo consultan el registro de salud electrónico de un paciente para obtener información que les ayude a tomar decisiones de tratamiento, pero la naturaleza engorrosa de estos registros dificulta el proceso. La investigación ha demostrado que incluso cuando un médico ha sido capacitado para usar un registro de salud electrónico (EHR), encontrar una respuesta a una sola pregunta puede tomar, en promedio, más de ocho minutos.


Cuanto más tiempo deban pasar los médicos navegando por una interfaz de EHR a menudo torpe, menos tiempo tendrán para interactuar con los pacientes y proporcionar tratamiento.


Los investigadores han comenzado a desarrollar modelos de aprendizaje automático que pueden optimizar el proceso al encontrar automáticamente la información que los médicos necesitan en un EHR. Sin embargo, entrenar modelos efectivos requiere grandes conjuntos de datos de preguntas médicas relevantes, que a menudo son difíciles de obtener debido a las restricciones de privacidad. Los modelos existentes luchan por generar preguntas auténticas, aquellas que haría un médico humano, y a menudo no pueden encontrar las respuestas correctas con éxito.


Para superar esta escasez de datos, los investigadores del MIT se asociaron con expertos médicos para estudiar las preguntas que hacen los médicos al revisar los EHR. Luego, crearon un conjunto de datos disponible públicamente de más de 2000 preguntas clínicamente relevantes escritas por estos expertos médicos.


Cuando usaron su conjunto de datos para entrenar un modelo de aprendizaje automático para generar preguntas clínicas, descubrieron que el modelo hacía preguntas auténticas y de alta calidad, en comparación con preguntas reales de expertos médicos, más del 60 por ciento de las veces.


Con este conjunto de datos, planean generar una gran cantidad de preguntas médicas auténticas y luego usar esas preguntas para entrenar un modelo de aprendizaje automático que ayudaría a los médicos a encontrar la información buscada en el registro de un paciente de manera más eficiente.


“Dos mil preguntas pueden parecer muchas, pero cuando observas los modelos de aprendizaje automático que se entrenan hoy en día, tienen muchos datos, tal vez miles de millones de puntos de datos. Cuando entrena modelos de aprendizaje automático para que funcionen en entornos de atención médica, debe ser realmente creativo porque hay una gran falta de datos”, dice el autor principal Eric Lehman, estudiante graduado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). .


El autor principal es Peter Szolovits, profesor en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) que dirige el Grupo de Toma de Decisiones Clínicas en CSAIL y también es miembro del MIT-IBM Watson AI Lab. El documento de investigación, una colaboración entre los coautores del MIT, el MIT-IBM Watson AI Lab, IBM Research y los médicos y expertos médicos que ayudaron a crear preguntas y participaron en el estudio, se presentará en la conferencia anual de North Capítulo estadounidense de la Asociación de Lingüística Computacional.


“Los datos realistas son fundamentales para entrenar modelos que son relevantes para la tarea pero difíciles de encontrar o crear”, dice Szolovits. "El valor de este trabajo está en la recopilación cuidadosa de las preguntas formuladas por los médicos sobre los casos de los pacientes, a partir de las cuales podemos desarrollar métodos que utilicen estos datos y modelos generales de lenguaje para formular más preguntas plausibles".


Deficiencia de datos


Los pocos grandes conjuntos de datos de preguntas clínicas que los investigadores pudieron encontrar tenían una serie de problemas, explica Lehman. Algunas estaban compuestas por preguntas médicas hechas por pacientes en foros web, que están muy lejos de las preguntas de los médicos. Otros conjuntos de datos contenían preguntas producidas a partir de plantillas, por lo que en su mayoría tienen una estructura idéntica, lo que hace que muchas preguntas no sean realistas.


“La recopilación de datos de alta calidad es realmente importante para realizar tareas de aprendizaje automático, especialmente en un contexto de atención médica, y hemos demostrado que se puede hacer”, dice Lehman.


Para construir su conjunto de datos, los investigadores del MIT trabajaron con médicos en ejercicio y estudiantes de medicina en su último año de formación. Les dieron a estos expertos médicos más de 100 resúmenes de alta de EHR y les dijeron que leyeran un resumen y hicieran cualquier pregunta que pudieran tener. Los investigadores no impusieron restricciones en los tipos o estructuras de preguntas en un esfuerzo por recopilar preguntas naturales. También les pidieron a los expertos médicos que identificaran el "texto desencadenante" en el EHR que los llevó a hacer cada pregunta.


Por ejemplo, un experto médico podría leer una nota en el EHR que dice que el historial médico anterior de un paciente es importante para el cáncer de próstata y el hipotiroidismo. El texto desencadenante "cáncer de próstata" podría llevar al experto a hacer preguntas como "¿fecha de diagnóstico?" o "¿alguna intervención hecha?"


Descubrieron que la mayoría de las preguntas se centraban en los síntomas, los tratamientos o los resultados de las pruebas del paciente. Si bien estos hallazgos no fueron inesperados, cuantificar la cantidad de preguntas sobre cada tema general les ayudará a construir un conjunto de datos efectivo para usar en un entorno clínico real, dice Lehman.


Una vez que compilaron su conjunto de datos de preguntas y el texto desencadenante que lo acompañaba, lo usaron para entrenar modelos de aprendizaje automático para hacer nuevas preguntas basadas en el texto desencadenante.


Luego, los expertos médicos determinaron si esas preguntas eran "buenas" usando cuatro métricas: comprensibilidad (¿La pregunta tiene sentido para un médico humano?), trivialidad (¿Es la pregunta demasiado fácil de responder desde el texto desencadenante?), relevancia médica (¿Tiene ¿Tiene sentido hacer esta pregunta según el contexto?) y la relevancia para el disparador (¿Está relacionado el disparador con la pregunta?).


Motivo de preocupación


Los investigadores encontraron que cuando a un modelo se le dio un texto desencadenante, pudo generar una buena pregunta el 63 por ciento de las veces, mientras que un médico humano haría una buena pregunta el 80 por ciento de las veces.


También entrenaron modelos para recuperar respuestas a preguntas clínicas utilizando los conjuntos de datos disponibles públicamente que habían encontrado al comienzo de este proyecto. Luego probaron estos modelos entrenados para ver si podían encontrar respuestas a las "buenas" preguntas formuladas por expertos en medicina humana.


Los modelos solo pudieron recuperar alrededor del 25 por ciento de las respuestas a las preguntas generadas por los médicos.


“Ese resultado es realmente preocupante. Lo que la gente pensaba que eran modelos de buen rendimiento, en la práctica eran simplemente horribles porque las preguntas de evaluación que estaban probando no eran buenas para empezar”, dice Lehman.


El equipo ahora está aplicando este trabajo hacia su objetivo inicial: construir un modelo que pueda responder automáticamente las preguntas de los médicos en un EHR. Para el próximo paso, usarán su conjunto de datos para entrenar un modelo de aprendizaje automático que puede generar automáticamente miles o millones de buenas preguntas clínicas, que luego se pueden usar para entrenar un nuevo modelo para la respuesta automática de preguntas.


Si bien aún queda mucho trabajo por hacer antes de que ese modelo pueda ser una realidad, Lehman se siente alentado por los sólidos resultados iniciales que el equipo demostró con este conjunto de datos.




Este artículo ha sido elaborado tomando el MIT como fuente.