Una cosa que hace que los modelos de lenguajes grandes (LLM) sean tan poderosos es la variedad de tareas a las que se pueden aplicar. El mismo modelo de aprendizaje automático que puede ayudar a un estudiante de posgrado a redactar un correo electrónico también puede ayudar a un médico a diagnosticar el cáncer.
Sin embargo, la amplia aplicabilidad de estos modelos dificulta su evaluación de forma sistemática. Es imposible crear un conjunto de datos de referencia para probar un modelo en cada tipo de pregunta que pueda formularse.
En un nuevo artículo, los investigadores del MIT adoptaron un enfoque diferente. Argumentan que, debido a que las personas deciden cuándo implementar grandes modelos de lenguaje, evaluar un modelo requiere comprender cómo las personas forman creencias sobre sus capacidades.
Por ejemplo, el estudiante de posgrado debe decidir si el modelo podría ser útil para redactar un correo electrónico en particular, y el médico debe determinar en qué casos sería mejor consultar el modelo.
Sobre la base de este concepto, los investigadores desarrollaron un marco para evaluar un LLM en función de su alineación con las creencias de las personas sobre cómo se desempeñará en una tarea en particular.
Introducen una función de generalización humana: un modelo de cómo las personas actualizan sus creencias sobre las capacidades de un LLM después de interactuar con él. Luego, evalúan qué tan bien se alinean los LLM con esta función de generalización humana.
Sus resultados indican que cuando los modelos no están alineados con las funciones de generalización humana, un usuario puede tener demasiada confianza o confianza en dónde colocarlo, lo que provoca que el modelo falle inesperadamente. Además, debido a esta desalineación, los modelos más capaces se desempeñan peor que los modelos más pequeños en situaciones de alto riesgo.
“Estas herramientas son interesantes porque son de propósito general, pero como son de propósito general, colaborarán con los humanos, por lo que necesitamos que los humanos estén informados”, dijo el coautor del estudio Ashesh Rambachan, profesor asistente. de Economía y el Laboratorio de Sistemas de Información y Decisión (LIDS) Investigador Principal.
El autor principal, Kion Bhafa, postdoctorado en la Universidad de Harvard, se unió a Rambachan en el artículo; y Sendhil Mullanathan, profesor del MIT en los Departamentos de Ingeniería Eléctrica y Ciencias de la Computación y Economía y miembro de LIDS. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.
Generalización de las personas.
Cuando interactuamos con otras personas, creemos lo que saben y lo que no saben. Por ejemplo, si tu amigo es bueno corrigiendo la gramática de las personas, puedes generalizar y asumir que también será bueno en la construcción de oraciones, aunque nunca le hayas preguntado sobre la construcción de oraciones.
“Los modelos lingüísticos a menudo parecen muy humanos. Queríamos mostrar que este poder de generalización humana también está presente en la forma en que las personas forman creencias sobre los modelos lingüísticos”, dice Rambachan.
Como punto de partida, los investigadores han definido formalmente la función de generalización humana, que implica hacer preguntas, observar cómo responde una persona o LLM y luego hacer inferencias sobre cómo esa persona o modelo responderá a preguntas relacionadas.
Si uno descubre que un LLM puede responder correctamente preguntas sobre inversión de matrices, también puede asumir que puede responder preguntas sobre aritmética simple. Un modelo que no esté alineado con esta función (uno que no funcione bien en las preguntas que un ser humano esperaría que respondiera correctamente) puede fallar cuando se implemente.
Con esa definición formal en la mano, los investigadores diseñaron una encuesta para medir cómo las personas generalizan cuando interactúan con LLM y otras personas.
Mostraron a los participantes de la encuesta preguntas que una persona o LLM acertó o no y luego les preguntaron si pensaban que esa persona o LLM respondería correctamente una pregunta relacionada. A través de la encuesta, crearon un conjunto de datos de casi 19.000 ejemplos de cómo las personas generalizan sobre el desempeño del LLM en 79 tareas diferentes.
Medición de desalineación
Descubrieron que a los participantes les fue bastante bien cuando se les preguntó si una persona que respondiera correctamente una pregunta respondería correctamente la pregunta relacionada, pero fueron mucho peores a la hora de generalizar sobre el desempeño del LLM.
“La generalización humana se aplica a los modelos de lenguaje, pero falla porque estos modelos de lenguaje en realidad no muestran patrones de habilidades similares a los humanos”, dice Rambachan.
Era más probable que las personas actualizaran sus creencias sobre el LLM cuando respondía la pregunta incorrectamente que cuando la respondía correctamente. También tendían a creer que el desempeño del LLM en preguntas más fáciles tendría poco efecto en su desempeño en preguntas más complejas.
En situaciones en las que las personas dan más importancia a las respuestas incorrectas, los modelos simples superan a los modelos muy grandes como GPT-4.
“Los modelos de lenguaje que son mejores casi pueden engañar a las personas haciéndoles creer que se desempeñarán mejor en preguntas relacionadas cuando, en realidad, no es así”, afirma.
Una posible explicación de por qué las personas son malas para generalizar los LLM puede provenir de su novedad: las personas tienen mucha menos experiencia interactuando con los LLM que otras personas.
“En el futuro, es posible que podamos mejorar interactuando más con los modelos de lenguaje”, afirma.
Con este fin, los investigadores quieren seguir estudiando cómo evolucionan las creencias de las personas sobre el LLM a medida que interactúan con un modelo. También quieren explorar cómo se puede incorporar la generalización humana en el desarrollo del LL.M.
“Cuando entrenamos estos algoritmos en primer lugar, o intentamos actualizarlos con retroalimentación humana, debemos tener en cuenta la función de generalización humana en la forma en que pensamos acerca de medir el desempeño”, dice.
Mientras tanto, los investigadores esperan que su conjunto de datos pueda usarse como punto de referencia para comparar cómo se desempeñan los LLM en relación con las funciones de generalización humana, lo que puede ayudar a mejorar el desempeño de los modelos implementados en situaciones del mundo real.
Esta investigación fue financiada, en parte, por la Iniciativa de Ciencia de Datos de Harvard y el Centro de IA Aplicada de la Escuela de Negocios Booth de la Universidad de Chicago.