La gente utiliza grandes modelos de lenguaje para una amplia gama de tareas, desde traducir un ensayo hasta detectar fraude financiero. Sin embargo, a pesar del increíble poder y versatilidad de estos modelos, a veces producen respuestas incorrectas.
Además de ese problema, los modelos pueden confiar demasiado en las respuestas incorrectas o en las respuestas correctas, lo que dificulta que un usuario sepa cuándo confiar en qué modelo.
Los investigadores suelen calibrar un modelo de aprendizaje automático para garantizar un nivel de confianza en su precisión. Un modelo bien calibrado debería tener menos confianza ante una predicción incorrecta y viceversa. Pero debido a que los modelos de lenguajes grandes (LLM) se pueden aplicar a una colección aparentemente interminable de tareas diferentes, los métodos de calibración tradicionales son ineficaces.
Ahora, investigadores del MIT y del MIT-IBM Watson AI Lab han introducido un método de calibración diseñado para modelos de lenguaje grandes. Su método, llamado Termómetro, implica construir un pequeño modelo auxiliar que se ejecuta sobre un modelo de lenguaje más grande para calibrarlo.
El termómetro es más eficiente que otros métodos (requiere cálculos que consumen menos energía), al mismo tiempo que preserva la precisión del modelo y permite respuestas mejor calibradas a tareas nunca antes vistas.
Al permitir la calibración eficiente de un LLM para diferentes tareas, el termómetro puede ayudar a los usuarios a identificar situaciones en las que un modelo confía demasiado en predicciones falsas, lo que en última instancia les impide implementar ese modelo en situaciones en las que podría fallar.
“Con el termómetro, queremos darle al usuario una señal clara de si la respuesta de un modelo es precisa o no, de una manera que refleje la incertidumbre del modelo, para que sepa si el modelo es confiable”, dijo Maohao Shen, ingeniero eléctrico y estudiante de posgrado en ciencias de la computación (EECS) y autor principal de un artículo sobre termómetros.
Shane Papers Gregory Wornell, profesor de ingeniería de Sumitomo que dirige el Laboratorio de Señales, Información y Algoritmos del Laboratorio de Investigación de Electrónica y miembro del Laboratorio de IA Watson del MIT-IBM; La autora principal Soumya Ghosh, miembro del personal de investigación del Laboratorio de IA Watson del MIT-IBM; así como otros en el MIT y el MIT-IBM Watson AI Lab. La investigación se presentó recientemente en la Conferencia Internacional sobre Aprendizaje Automático.
Calibración universal
Dado que los modelos tradicionales de aprendizaje automático suelen estar diseñados para realizar una única tarea, calibrarlos suele implicar un enfoque específico para la tarea. Por otro lado, dado que los LLM tienen la flexibilidad de realizar muchas tareas, utilizar un método tradicional para calibrar ese modelo para una tarea puede afectar su desempeño en otras tareas.
Calibrar un LLM a menudo implica muestrear el modelo varias veces para obtener diferentes predicciones y luego combinar estas predicciones para obtener una confianza mejor calibrada. Sin embargo, dado que estos modelos tienen miles de millones de parámetros, el costo computacional de este enfoque aumenta rápidamente.
“En cierto sentido, los modelos de lenguaje grandes son universales porque pueden manejar muchas tareas diferentes. Por lo tanto, necesitamos un método de calibración universal que pueda manejar muchas tareas diferentes”, dice Shen.
Utilizando el termómetro, los investigadores desarrollaron una técnica versátil que utiliza un método de calibración clásico llamado escala de temperatura para calibrar eficientemente un LLM para una nueva tarea.
En este contexto, una “temperatura” es un parámetro de escala que se utiliza para ajustar la confianza de un modelo a la precisión de sus predicciones. Tradicionalmente, se determina la temperatura correcta utilizando conjuntos de datos de validación etiquetados de ejemplos de tareas específicas.
Debido a que los LLM a menudo se aplican a tareas nuevas, puede resultar casi imposible adquirir conjuntos de datos etiquetados. Por ejemplo, un usuario que desea implementar un LLM para responder las preguntas de los clientes sobre un nuevo producto no tiene un conjunto de datos que contenga dichas preguntas y respuestas.
En lugar de utilizar un conjunto de datos etiquetados, los investigadores entrenaron un modelo auxiliar que se ejecuta sobre un LLM para predecir automáticamente la temperatura necesaria para calibrarlo para esta nueva tarea.
Usan un conjunto de datos etiquetados de algunos trabajos representativos para entrenar el modelo de termómetro, pero luego, una vez entrenado, puede generalizarse a nuevos trabajos en la misma categoría sin necesidad de datos etiquetados adicionales.
Un modelo de termómetro entrenado en una colección de conjuntos de datos de preguntas de opción múltiple, quizás incluyendo uno con preguntas de álgebra y otro con preguntas médicas, podría usarse para calibrar un LLM que respondiera preguntas sobre geometría o biología, por ejemplo.
“El objetivo al que aspiramos es trabajar en cualquier cosa, pero aún no hemos llegado a ese punto”, dijo Ghosh.
El modelo de termómetro solo necesita acceder a una pequeña parte del funcionamiento interno de LLM para calibrar sus predicciones para los puntos de datos de un trabajo en particular con el fin de predecir la temperatura correcta.
Un enfoque eficiente
Es importante destacar que la técnica no requiere múltiples entrenamientos y solo ralentiza ligeramente el LL.M. Además, dado que el escalado de temperatura no cambia las predicciones de un modelo, el termómetro conserva su precisión.
Cuando compararon el termómetro con múltiples líneas de base en múltiples tareas, produjo consistentemente mediciones de incertidumbre mejor calibradas y requirió muchos menos cálculos.
“Siempre que entrenemos un modelo de termómetro en una cantidad suficiente de tareas, debería poder generalizarse bien en cualquier tarea nueva, como un modelo de lenguaje grande, que también es un modelo universal”, añadió Shen.
Los investigadores también descubrieron que si entrenaban un modelo de termómetro para un LLM pequeño, podría aplicarse directamente para calibrar un LLM más grande dentro de la misma familia.
En el futuro, pretenden adaptar el termómetro para tareas de generación de texto más complejas y aplicar la técnica a LLM más grandes. Los investigadores también esperan cuantificar la diversidad y la cantidad de conjuntos de datos etiquetados para entrenar un modelo de termómetro para que pueda generalizarse a una nueva tarea.
Esta investigación fue financiada parcialmente por el MIT-IBM Watson AI Lab.