Los modelos lingüísticos más grandes pueden pasar pruebas médicas con gran éxito, pero utilizarlos para el diagnóstico sería una negligencia grave en la actualidad. Los chatbots médicos hacen diagnósticos rápidos, no siguen las pautas y ponen en riesgo la vida de los pacientes. A esta conclusión llegó un equipo de la Universidad Técnica de Múnich (TUM). Por primera vez, el equipo investigó sistemáticamente si este tipo de inteligencia artificial (IA) es adecuado para la práctica clínica diaria. A pesar de las deficiencias actuales, los investigadores ven potencial en esta tecnología. Publicaron un método que podría usarse para probar la confiabilidad de futuros chatbots médicos.
Los modelos de lenguaje grande son programas de computadora entrenados con grandes cantidades de texto. Variantes especialmente entrenadas de la tecnología detrás de ChatGPT ahora incluso resuelven pruebas finales de estudios médicos casi sin problemas. Pero, ¿puede este tipo de IA asumir las funciones de los médicos en la sala de urgencias? ¿Puede ordenar las pruebas apropiadas, hacer un diagnóstico preciso y desarrollar un plan de tratamiento basado en los síntomas del paciente?
Un equipo interdisciplinario dirigido por Daniel Ruckert, profesor de Inteligencia Artificial en Atención Médica y Medicina de la TUM, abordó esta cuestión en la revista. La medicina de la naturaleza. Por primera vez, médicos y expertos en inteligencia artificial han investigado sistemáticamente el éxito del modelo de lenguaje de código abierto Llama 2 a la hora de diagnosticar diferentes variantes.
Reforzar la vía de tratamiento desde urgencias
Para probar el poder de estos complejos algoritmos, los investigadores utilizaron datos anonimizados de pacientes de una clínica de Estados Unidos. Seleccionaron 2.400 casos de un conjunto de datos más amplio. Todos los pacientes acudieron a urgencias con dolor abdominal. La descripción de cada caso concluye con uno de los cuatro diagnósticos y un plan de tratamiento. Todos los datos registrados para el diagnóstico estaban disponibles para los casos, desde el historial médico y los valores sanguíneos hasta los datos de imágenes.
“Preparamos los datos de tal manera que los algoritmos pudieron simular procedimientos hospitalarios reales y procesos de toma de decisiones”, explica Friedrich Jungmann, médico asistente del departamento de Radiología de la Klinikum Rechts der Isser de la TUM y autor principal del estudio junto con el ordenador. El científico Paul Hager. “El programa sólo tenía información que tenían los médicos reales. Por ejemplo, tenía que decidir por sí mismo si ordenaría un recuento sanguíneo y luego usar esa información para tomar la siguiente decisión, hasta que se hiciera un diagnóstico y un plan de tratamiento. “
El equipo descubrió que ninguno de los grandes modelos de lenguaje solicitaba sistemáticamente todas las pruebas necesarias. De hecho, los diagnósticos de los programas se volvieron menos precisos cuanto más información había sobre el caso. A menudo no siguen las pautas médicas y, en ocasiones, solicitan pruebas que pueden tener graves consecuencias para la salud de los pacientes reales.
Comparación directa con los médicos.
En la segunda parte del estudio, los investigadores compararon los diagnósticos de IA de un subconjunto de datos con los diagnósticos de cuatro médicos. Mientras que este último acertó en el 89 por ciento de los diagnósticos, el mejor modelo de lenguaje grande logró sólo el 73 por ciento. Cada modelo reconoció algunas enfermedades mejor que otras. En un caso extremo, un modelo diagnosticó correctamente la inflamación de la vesícula biliar en sólo el 13 por ciento de los casos.
Otro problema que hace que los programas no sean adecuados para el uso diario es la falta de robustez: el diagnóstico realizado por un modelo de lenguaje grande depende, entre otras cosas, del orden en que recibe los datos. Los matices lingüísticos también afectaron los resultados; por ejemplo, si el programa pedía “diagnóstico principal”, “diagnóstico inicial” o “diagnóstico final”. En la práctica clínica diaria, estos términos suelen ser intercambiables.
ChatGPT no ha sido probado
Claramente, el equipo no probó modelos comerciales de lenguajes grandes de OpenAI (ChatGPT) y Google por dos razones principales. En primer lugar, los proveedores de datos hospitalarios tienen prohibido procesar datos con estos modelos por motivos de protección de datos. En segundo lugar, los expertos sugieren firmemente que sólo se debería utilizar software de código abierto para aplicaciones en el sector sanitario. “Sólo con modelos de código abierto los hospitales tienen suficiente control y conocimiento para garantizar la seguridad del paciente. Cuando probamos modelos, es esencial saber qué datos se utilizaron para entrenarlos. De lo contrario, podemos probarlos con las mismas preguntas y respuestas”. “Por supuesto, las empresas mantienen sus datos de formación en secreto, es difícil hacer una evaluación justa”, afirma Paul Hager. “Además, basar la infraestructura médica central en servicios externos que actualizan y cambian los modelos a voluntad es peligroso. En el peor de los casos, un servicio del que dependen cientos de clínicas no es rentable”.
progreso rápido
El desarrollo de esta tecnología avanza rápidamente. “Es muy probable que en un futuro próximo un modelo de lenguaje grande sea más adecuado para realizar diagnósticos a partir de la historia clínica y los resultados de las pruebas”, afirma el profesor Daniel Ruckert. “Por eso hemos lanzado nuestro entorno de prueba a todos los grupos de investigación que quieran probar modelos de lenguaje grandes en contextos clínicos”. Rückert ve el potencial de la tecnología: “En el futuro, los grandes modelos de lenguaje pueden convertirse en herramientas importantes para los médicos, por ejemplo para discutir un caso. Sin embargo, debemos ser conscientes de las limitaciones y peculiaridades de esta tecnología y tenerlas en cuenta a la hora de desarrollando aplicaciones”, afirma el experto en IA médica.”