William Hersh, MD, que ha enseñado a generaciones de estudiantes de informática médica y clínica en la Oregon Health & Science University, se siente intrigado por el creciente impacto de la inteligencia artificial. Se preguntó cómo se comportaría la IA en su propia clase.
Entonces, decidió intentar un experimento.
Probó seis formas de modelos de IA generativos en lenguaje amplio (ChatGPT, por ejemplo) en una versión en línea de su popular curso introductorio a informática biomédica y de salud para ver cómo se desempeñaban en comparación con estudiantes reales y pensantes. Un estudio publicado en la revista Medicina digital NPJreveló la respuesta: mejor que las tres cuartas partes de sus estudiantes humanos.
“Esto genera preocupaciones sobre el fraude, pero aquí hay un problema mayor”, dijo Hersh. “¿Cómo sabemos que nuestros estudiantes están aprendiendo y dominando los conocimientos y habilidades que necesitan para su futuro trabajo profesional?”
Como profesor de informática médica y epidemiología clínica en la Facultad de Medicina de OHSU, Hersh está particularmente en sintonía con las nuevas tecnologías. El papel de la tecnología en la educación no es nada nuevo, dijo Hersh, recordando su propia experiencia como estudiante de secundaria en la década de 1970 durante la transición de las reglas de cálculo a las calculadoras.
Aún así, el cambio hacia la IA generativa representa un salto exponencial.
“Claramente, todo el mundo debería tener alguna base de conocimiento en su campo”, afirmó Hersh. “¿Sobre qué base de conocimientos espera que la gente sea capaz de pensar críticamente?”
Grandes modelos de lenguaje
Hersh y la coautora Kate Fultz Hollis, científica en informática de OHSU, obtuvieron las puntuaciones de evaluación de conocimientos de 139 estudiantes que tomaron cursos de introducción a la informática biomédica y de la salud en 2023. Indujeron seis modelos de lenguaje grande de IA generativa con materiales de evaluación de los estudiantes del curso. Según el modelo, la IA se sitúa entre los 50 primerosmetro Desde 75metro Porcentajes de preguntas de opción múltiple que se utilizaron en cuestionarios y un examen final que requirió respuestas breves por escrito a las preguntas.
“Los hallazgos de este estudio plantean preguntas importantes para el futuro de la evaluación de los estudiantes en la mayoría, si no en todas, las áreas”, escribieron los autores.
Este estudio es el primero en comparar modelos en lenguaje grande con estudiantes de un curso académico completo en un campo biomédico. Hersh y Fultz Hollis señalan que un curso basado en el conocimiento puede ser particularmente adecuado para modelos generativos de lenguaje amplio, a diferencia de cursos académicos más participativos que ayudan a los estudiantes a desarrollar habilidades y destrezas más complejas.
Hersh recuerda su experiencia en la facultad de medicina.
“Cuando era estudiante de medicina, uno de mis médicos me dijo que necesitaba tener todo el conocimiento en mi cabeza”, dijo. “Incluso en la década de 1980, era exagerado. La base de conocimientos de la medicina había superado durante mucho tiempo la capacidad del cerebro humano para memorizarlo todo”.
Mantener el toque humano
Aún así, cree que existe una delgada línea entre el uso inteligente de los recursos tecnológicos para promover el aprendizaje y la dependencia excesiva hasta el punto de inhibir el aprendizaje. En última instancia, el objetivo de un centro de salud académico como OHSU es formar profesionales sanitarios capaces de atender a los pacientes y optimizar el uso de los datos y la información sobre ellos en el mundo real.
En ese sentido, dijo, la medicina siempre necesita el toque humano.
“Los profesionales de la salud hacen muchas cosas que son bastante sencillas, pero hay casos en los que se vuelve más complicado y hay que tomar decisiones”, dijo. “Es útil tener esa perspectiva amplia cuando no es necesario tener hasta el último fragmento de información en el cerebro”.
Dado que las clases de otoño comenzarán pronto, Hersh dijo que no le preocupa hacer trampa.
“Actualizo el curso todos los años”, dijo. “En cualquier campo científico, hay nuevos avances todo el tiempo y los modelos de los grandes lenguajes no necesariamente están actualizados en todos ellos. Eso significa que tenemos que buscar experimentos más nuevos o más sofisticados en los que no se obtienen respuestas. de ChatGPT.”