Investigadores de los Institutos Nacionales de Salud (NIH) descubrieron que un modelo de inteligencia artificial (IA) resolvió preguntas de cuestionarios médicos, diseñados para evaluar la capacidad de los profesionales de la salud para diagnosticar pacientes basándose en imágenes clínicas y un breve resumen de texto, con alta precisión. . Sin embargo, los evaluadores clínicos descubrieron que el modelo de IA cometía errores al describir las imágenes y explicar cómo su toma de decisiones conducía a la respuesta correcta. Se publicaron los resultados, que arrojan luz sobre el potencial de la IA en el entorno clínico. Medicina digital NPJ. El estudio fue realizado por investigadores de la Biblioteca Nacional de Medicina (NLM) de los NIH y Weill Cornell Medicine en la ciudad de Nueva York.
“La integración de la IA en la atención sanitaria es muy prometedora como herramienta para ayudar a los profesionales médicos a diagnosticar a los pacientes más rápido, para que puedan comenzar el tratamiento más rápidamente”, afirmó el director interino de la NLM, Stephen Sherry, Ph.D. “Sin embargo, como muestra este estudio, la IA aún no está lo suficientemente avanzada como para reemplazar la experiencia humana, que es crucial para un diagnóstico preciso”.
Preguntas respondidas por modelos de IA y médicos humanos Revista de medicina de Nueva Inglaterra (NEJM) Desafío de imagen. El desafío es un cuestionario en línea que proporciona imágenes clínicas reales y una breve descripción de texto que incluye detalles sobre los síntomas y la presentación del paciente, luego pide a los usuarios que elijan el diagnóstico correcto entre respuestas de opción múltiple.
Los investigadores encargaron al modelo de IA que respondiera 207 preguntas de desafío de imágenes y proporcionara un argumento escrito para justificar cada respuesta. El mensaje especificaba que el argumento debía proporcionar una descripción de la imagen, un resumen del conocimiento médico relevante y una justificación paso a paso de cómo el modelo eligió la respuesta.
Se reclutaron nueve médicos de diferentes instituciones, cada uno con una especialidad médica diferente, y las preguntas asignadas se respondieron primero en un entorno de “libro cerrado” (sin referencia a materiales externos como recursos en línea) y luego en un entorno “abierto”. configuración “libro”. ” configuración (utilizando recursos externos). Luego, los investigadores proporcionaron a los médicos las respuestas del modelo de IA y las respuestas correctas junto con la justificación asociada. Finalmente, se pidió a los médicos que proporcionaran la capacidad del modelo de IA para describir la imagen, resumir el conocimiento médico relevante y proporcionar un razonamiento paso a paso.
Los investigadores descubrieron que los modelos de IA y los médicos obtuvieron puntuaciones más altas a la hora de seleccionar el diagnóstico correcto. Curiosamente, el modelo de IA seleccionó el diagnóstico correcto con más frecuencia que los médicos en entornos de libro cerrado, mientras que los médicos con herramientas de libro abierto superaron al modelo de IA, especialmente cuando las preguntas eran más difíciles de responder.
Es importante destacar que, según la evaluación del médico, el modelo de IA a menudo comete errores al describir el cuadro médico y explicar el razonamiento detrás del diagnóstico, incluso en los casos en los que tomó la decisión final correcta. En un ejemplo, al modelo de IA se le dio una foto de la mano de un paciente con dos heridas. Un médico reconocería fácilmente que ambas lesiones fueron causadas por la misma afección. Sin embargo, debido a que las lesiones se presentaban en diferentes ángulos, creando la ilusión de diferentes colores y formas, el modelo de IA no pudo reconocer que ambas lesiones podrían estar relacionadas con el mismo diagnóstico.
Los investigadores sostienen que estos hallazgos subrayan la importancia de evaluar la tecnología de IA multimodal antes de introducirla en un entorno clínico.
“Esta tecnología tiene el potencial de ayudar a capacitar a los médicos con conocimientos basados en datos que pueden conducir a una mejor toma de decisiones clínicas”, afirmó Zhiyong Lu, Ph.D., investigador principal de la NLM y autor correspondiente del estudio. “Comprender los riesgos y las limitaciones “De esta tecnología en medicina es fundamental aprovechar su potencial”.
El estudio utilizó un modelo de IA conocido como GPT-4V (Generative Pre-trained Transformer 4 with Vision), que es un “modelo de IA multimodal” que puede procesar combinaciones de múltiples tipos de datos, incluidos texto e imágenes. Los investigadores señalan que, si bien se trata de un estudio pequeño, arroja luz sobre el potencial de la IA multimodelo para ayudar a los médicos a tomar decisiones de tratamiento. Se necesita más investigación para comprender cómo se comparan estos modelos con la capacidad de los médicos para diagnosticar a los pacientes.
El estudio fue coautor de colegas del Instituto Nacional del Ojo y del Centro Clínico de los NIH; Universidad de Pittsburgh; Centro Médico UT Southwestern, Dallas; Facultad de Medicina Grossman de la Universidad de Nueva York, ciudad de Nueva York; Escuela de Medicina de Harvard y Hospital General de Massachusetts, Boston; Facultad de Medicina de la Universidad Case Western Reserve, Cleveland; Universidad de California San Diego, La Jolla; y Universidad de Arkansas, Little Rock.