Investigadores de los Institutos Nacionales de Salud (NIH) han descubierto que las herramientas de inteligencia artificial (IA) pueden realizar diagnósticos precisos a partir de descripciones de enfermedades genéticas en libros de texto, pero las herramientas son significativamente menos precisas cuando analizan los resúmenes escritos de los pacientes sobre su propia salud. Este es el resultado, informe. Revista Americana de Genética HumanaDemostrar la necesidad de mejorar estas herramientas de inteligencia artificial antes de que puedan implementarse en entornos de atención médica para diagnosticar enfermedades y responder las preguntas de los pacientes.

Los investigadores estudiaron un tipo de IA conocido como modelo de lenguaje grande, entrenado con grandes cantidades de datos basados ​​en texto. Estos modelos tienen el potencial de ser muy útiles en medicina debido a su capacidad para analizar y responder preguntas y a su interfaz, a menudo fácil de usar.

“No siempre lo pensamos de esta manera, pero gran parte de la medicina se basa en palabras”, dice el Dr. Ben Solomon, autor principal del estudio y director clínico del Instituto Nacional de Investigación del Genoma Humano (NHGRI) de los NIH. “Por ejemplo, los registros médicos electrónicos y las conversaciones entre médicos y pacientes están compuestos de palabras. Los grandes modelos de lenguaje han sido un gran avance para la IA, y poder analizar palabras de manera clínicamente útil podría ser increíblemente transformador”.

Los investigadores probaron 10 modelos de lenguaje principales diferentes, incluidas dos versiones recientes de ChatGPT. A partir de libros de texto médicos y otros materiales de referencia, los investigadores diseñaron preguntas sobre 63 afecciones genéticas diferentes. Estas incluyen algunas afecciones bien conocidas, como la anemia falciforme, la fibrosis quística y el síndrome de Marfan, así como muchas afecciones genéticas raras.

Estas condiciones pueden manifestarse de diferentes maneras en diferentes pacientes, y los investigadores intentaron capturar algunos de los posibles síntomas más comunes. Seleccionaron de tres a cinco síntomas para cada afección y formularon preguntas en un formato estándar: “Tengo los síntomas X, Y y Z. ¿Cuál es la afección genética más probable?”

Cuando se les presentan estas preguntas, los modelos de lenguaje grandes varían ampliamente en su capacidad para señalar el diagnóstico genético correcto con una precisión inicial de entre el 21% y el 90%. El modelo con mejor rendimiento fue GPT-4, una de las últimas versiones de ChatGPT.

El éxito de los modelos fue generalmente proporcional a su tamaño, es decir, a la cantidad de datos con los que se entrenaron los modelos. Los modelos más pequeños tienen unos cuantos miles de millones de parámetros de los que extraer, mientras que los más grandes tienen más de un billón. Para muchos de los modelos de menor rendimiento, los investigadores pudieron mejorar la precisión en pruebas posteriores y, en general, los modelos aún proporcionaron respuestas más precisas que las tecnologías que no son de inteligencia artificial con una búsqueda estándar en Google.

Los investigadores optimizaron y probaron los modelos de diversas formas, incluida la sustitución de términos médicos por un lenguaje más común. Por ejemplo, en lugar de decir que un niño tiene “macrocefalia”, la pregunta diría que el niño tiene “una cabeza grande”, lo que refleja más fielmente cómo los pacientes o los cuidadores podrían describir un síntoma a un médico.

En general, la precisión de los modelos disminuye cuando se eliminan los detalles médicos. Sin embargo, 7 de cada 10 modelos eran aún más precisos que la Búsqueda de Google cuando usaban un lenguaje sencillo.

“Es importante que las personas sin conocimientos médicos puedan utilizar estas herramientas”, afirmó Kendall Flaherty, becario de posgrado del NHGRI que dirigió el estudio. “No hay muchos genetistas clínicos en el mundo, y en algunos estados y países, las personas no tienen acceso a estos especialistas. Las herramientas de inteligencia artificial pueden ayudar a las personas a obtener respuestas a algunas de sus preguntas sin tener que esperar años para una cita”.

Para probar el rendimiento del modelo de lenguaje grande con datos de pacientes reales, los investigadores pidieron a los pacientes del Centro Clínico de los NIH que proporcionaran descripciones breves de sus propias condiciones y síntomas genéticos. Estas descripciones iban desde una oración hasta varios párrafos y eran más variables en estilo y contenido que las preguntas tipo libro de texto.

Cuando se presentaron estas descripciones de pacientes reales, el modelo de mejor rendimiento realizó el diagnóstico correcto sólo el 21% de las veces. Muchos modelos funcionaron mucho peor, incluso con menos del 1% de precisión.

Los investigadores esperaban que escribir resúmenes de pacientes fuera más desafiante porque los pacientes de los centros clínicos de los NIH a menudo tienen enfermedades extremadamente raras. Por lo tanto, es posible que los modelos no tengan suficiente información sobre estas afecciones para realizar un diagnóstico.

Sin embargo, la precisión mejoró cuando los investigadores escribieron preguntas estandarizadas sobre las mismas afecciones genéticas ultrararas encontradas en pacientes de los NIH. Esto indica que la redacción y el formato variables de la escritura de los pacientes fueron difíciles de interpretar para los modelos, posiblemente porque los modelos están entrenados en libros de texto y otros materiales de referencia que tienden a ser más concisos y estandarizados.

“Para que estos modelos sean clínicamente útiles en el futuro, necesitamos más datos, y esos datos deben reflejar la diversidad de pacientes”, afirmó el Dr. Solomon. “No sólo necesitamos representar todas las condiciones médicas conocidas, sino también variar la edad, raza, género, origen cultural y más, para que los datos capturen la diversidad de la experiencia del paciente. Estos modelos luego pueden aprender cómo diferentes personas hablan sobre sus condiciones sobre.”

Más allá de demostrar áreas de mejora, este estudio destaca las limitaciones actuales de los grandes modelos de lenguaje y la necesidad continua de supervisión humana cuando la IA se aplica a la atención sanitaria.

“Estas tecnologías ya se están implementando en entornos clínicos”, añadió el Dr. Solomon. “Las preguntas más importantes ya no son si los médicos usarán la IA, sino dónde y cómo deberían usarla y dónde no deberíamos usarla para brindar la mejor atención posible a nuestros pacientes”.

Source link