Un nuevo estudio dirigido por investigadores de la UCL (University College London) sugiere que los grandes modelos de lenguaje, un tipo de IA que analiza texto, pueden predecir los resultados de los estudios de neurociencia con mayor precisión que los expertos humanos.

Resultados, publicados La naturaleza es el comportamiento humano.muestran que los grandes modelos de lenguaje (LLM) entrenados en grandes conjuntos de datos de texto pueden extraer patrones de la literatura científica, lo que les permite predecir resultados científicos con una precisión sobrehumana.

Los investigadores dicen que esto resalta su potencial como herramientas poderosas para acelerar la investigación, yendo más allá de la mera recuperación de conocimientos.

El autor principal, el Dr. Ken Luo (Psicología y Ciencias del Lenguaje de la UCL), dijo: “Desde la llegada de la IA generativa como ChatGPT, muchas investigaciones se han centrado en las capacidades de respuesta de preguntas de los LLM, su notable capacidad para resumir el conocimiento a partir de amplios datos de capacitación. Sin embargo, , en lugar de enfatizar su capacidad retrospectiva para recuperar información pasada, exploramos si LLM predice resultados futuros. Puede sintetizar conocimientos para dar.

“El progreso científico a menudo depende de prueba y error, pero cada experimento matizado exige tiempo y recursos. Incluso los investigadores más capacitados pueden pasar por alto conocimientos críticos de la literatura. Nuestro trabajo investiga cómo los LLM pueden identificar patrones en grandes textos científicos y resultados de pruebas. Puede predecir “.

El equipo de investigación internacional comenzó su estudio desarrollando BrainBench, una herramienta para evaluar cómo los modelos de lenguaje grandes (LLM) pueden predecir los resultados de la neurociencia.

BrainBench consta de numerosos pares de resúmenes de estudios de neurociencia. En cada par, una versión es un resumen del estudio real que describe brevemente los antecedentes de la investigación, los métodos utilizados y los resultados del estudio. En otra versión, los antecedentes y los métodos son los mismos, pero los resultados son modificados por expertos en el dominio de la neurociencia relevante para producir un resultado razonable pero inexacto.

Los investigadores probaron 15 LL.M de propósito general diferentes y 171 estudiantes de neurociencia humana (todos los cuales pasaron una prueba de detección para confirmar sus habilidades) para ver si la IA o la persona podían determinar correctamente cuál de dos pares de resúmenes. era real. Resultados reales del estudio.

Todos los LLM superaron a los neurocientíficos: los LLM tuvieron un promedio de precisión del 81% y los humanos un promedio de precisión del 63%. Incluso cuando el equipo de estudio restringió las respuestas a personas con el mayor grado de experiencia en un dominio determinado de la neurociencia (basado en la experiencia autoinformada), la precisión de los neurocientíficos seguía siendo menor que la de los LLM, con un 66%. Además, los investigadores descubrieron que cuando los LLM tenían más confianza en sus decisiones, era más probable que acertaran.* Los investigadores dicen que este hallazgo allana el camino para un futuro en el que los expertos humanos puedan colaborar con modelos bien calibrados.

Luego, los investigadores adaptaron un LLM existente (una versión de Mistral, un LLM de código abierto) capacitándose específicamente en la literatura de neurociencia. El nuevo LLM especializado en neurociencia, al que llamaron BrainGPT, fue aún mejor en la predicción de los resultados del estudio, logrando un 86% de precisión (una mejora con respecto a la versión de propósito general de Mistral, que tenía un 83% de precisión).

El autor principal, el profesor Bradley Love (Psicología y Ciencias del Lenguaje de la UCL), dijo: “A la luz de nuestros resultados, sospechamos que no pasará mucho tiempo antes de que los científicos utilicen herramientas de inteligencia artificial para diseñar las pruebas más efectivas para sus preguntas. Aunque nuestra investigación se centró en la neurociencia , nuestro enfoque era universal y debería aplicarse con éxito en todas las ciencias.

“Lo que es sorprendente es lo bien que el LLM puede predecir la literatura de neurociencia. Este éxito indica que una gran parte de la ciencia no es verdaderamente novedosa, pero sí consistente con los patrones de resultados existentes en la literatura. Nos preguntamos si los científicos están siendo lo suficientemente innovadores y exploratorios. “.

El Dr. Luo añadió: “Con base en nuestros hallazgos, estamos desarrollando herramientas de IA para ayudar a los investigadores. Imaginamos un futuro en el que los investigadores puedan ingresar su diseño de prueba propuesto y los resultados esperados, con la IA proporcionando predicciones sobre la probabilidad de diferentes resultados. Esto permitirá una iteración más rápida y más. toma de decisiones informada en el diseño experimental.”

El estudio contó con el apoyo del Consejo de Investigación Económica y Social (ESRC), Microsoft y una beca Wolfson de la Royal Society e involucró a investigadores de la UCL, la Universidad de Cambridge, la Universidad de Oxford, el Instituto Max Planck de Neurobiología del Comportamiento (Alemania) y Bilkent. Universidad (Turquía) y otras instituciones en Reino Unido, Estados Unidos, Suiza, Rusia, Alemania, Bélgica, Dinamarca, Canadá, España y Australia.

nota:

* Cuando se le presentan dos resúmenes, LLM calcula la probabilidad de cada uno, asignando una puntuación de confusión para representar qué tan sorprendente es cada uno en función de su propio conocimiento aprendido, así como del contexto (antecedentes y metodología). Los investigadores evaluaron la confianza de los LLM en cuán sorprendentes/confusos los modelos encontraron resúmenes reales versus falsos: cuanto mayor era la diferencia, mayor era la confianza, lo que se correlacionaba con una mayor probabilidad de que el LLM eligiera el resumen correcto.

Source link