Los modelos de lenguajes grandes (LLM) automatizan cada vez más tareas como la traducción, la clasificación de textos y el servicio al cliente. Pero aprovechar el poder de LLM generalmente requiere que los usuarios envíen sus solicitudes a un servidor centralizado, un proceso que es costoso, consume mucha energía y a menudo es lento.
Ahora, los investigadores han introducido una técnica para comprimir los datos de un LLM, que puede aumentar la privacidad, ahorrar energía y reducir costos.
El nuevo algoritmo, desarrollado por ingenieros de Princeton y Stanford Engineering, funciona reduciendo la redundancia y la precisión de las capas de datos de LLM. Este tipo de Leaner LLM se puede almacenar y acceder a él localmente en un dispositivo como un teléfono o una computadora portátil y puede proporcionar un rendimiento casi tan exacto y preciso como una versión sin comprimir.
“Cada vez que se pueden reducir la complejidad computacional, el almacenamiento y los requisitos de ancho de banda para usar modelos de IA, se puede habilitar la IA en dispositivos y sistemas que de otro modo no podrían manejar tales tareas de computación y memoria intensivas”, dijo la coautora del estudio Andrea Goldsmith, Dijo Dean. Escuela de Ingeniería y Ciencias Aplicadas de Princeton y Profesor Arthur LeGrand Doty de Ingeniería Eléctrica e Informática.
“Cuando usas ChatGPT, la solicitud que realizas va al servidor back-end de OpenAI, que procesa todos esos datos y es muy costoso”, dijo el coautor Rajarshi Saha, Ph.D. en ingeniería de Stanford. Estudiante “Entonces, desea poder estimar estos LLM utilizando GPU (unidades de procesamiento de gráficos) de consumo y la forma de hacerlo es comprimiendo estos LLM”. El trabajo de posgrado de Sahar fue dirigido por Goldsmith y el coautor Mert Pilanci, profesor asistente de ingeniería en Stanford.
Los investigadores presentarán su nuevo algoritmo Caldera, que significa Descomposición de baja precisión y adaptación de bajo rango consciente de la calibración, en la conferencia Neural Information Processing Systems (NeuriIPS) en diciembre. Saha y sus colegas comenzaron este estudio de compresión no con LLM, sino con grandes colecciones de datos utilizados para entrenar LLM y otros modelos complejos de IA, como los utilizados para la clasificación de imágenes. Esta técnica, precursora del nuevo método de compresión LLM, se publicó en 2023.
Tanto los conjuntos de datos de entrenamiento como los modelos de IA se componen de matrices o cuadrículas de números que se utilizan para almacenar datos. En el caso de LLM, se denominan matrices de peso, que son representaciones numéricas de patrones de palabras aprendidos de grandes fragmentos de texto.
“Hemos propuesto un algoritmo genérico para comprimir grandes conjuntos de datos o matrices grandes”, dijo Saha. “Y luego nos dimos cuenta de que hoy en día no son sólo los conjuntos de datos los que se están haciendo más grandes, sino que los modelos que se están implementando son cada vez más grandes. Por lo tanto, podemos usar nuestros algoritmos para limitar estos modelos”.
Aunque el algoritmo del equipo no es el primero en comprimir LLM, su novedad radica en una combinación innovadora de dos características, una llamada “baja precisión” y la otra “bajo rango”. Debido a que las computadoras digitales almacenan y procesan información como bits (ceros y unos), las representaciones de “baja precisión” reducen la cantidad de bits, mejorando la eficiencia energética al tiempo que aumentan la velocidad de almacenamiento y procesamiento. Por otro lado, “rango bajo” se refiere a una redundancia decreciente en la matriz de ponderación del LLM.
“Al utilizar ambas características juntas, podemos lograr una compresión mucho mayor que la que cualquiera de estas técnicas puede lograr individualmente”, dijo Saha.
El equipo probó su técnica utilizando los modelos de lenguaje grande de código abierto Llama 2 y Llama 3 publicados por Meta AI y descubrió que su método, que utiliza componentes de bajo rango y baja precisión en combinación entre sí, se puede utilizar para mejorar. Otros métodos que utilizan menos precisión. La mejora puede ser de hasta un 5%, lo cual es importante para las métricas que miden la incertidumbre al estimar secuencias de palabras.
Evaluaron el rendimiento de modelos de lenguaje comprimido utilizando varios conjuntos de tareas de referencia para LLM. Las tareas incluyen determinar el orden lógico de dos afirmaciones o responder preguntas de lógica física, como cómo separar la clara de un huevo de su yema o cómo preparar una taza de té.
“Creo que es alentador y algo sorprendente que hayamos podido obtener un rendimiento tan bueno con este esquema de compresión”, dijo Goldsmith, quien se trasladará a Princeton procedente de Stanford Engineering en 2020. Hemos podido mejorar el algoritmo de compresión genérico para los bits que representan la matriz de peso”.
Por lo tanto, utilizar un LLM comprimido puede ser apropiado en situaciones que no requieren la mayor precisión posible. Además, la capacidad de ajustar los LLM comprimidos en dispositivos de vanguardia, como teléfonos inteligentes o computadoras portátiles, mejora la privacidad al permitir que las organizaciones y las personas adapten los modelos a sus necesidades específicas sin compartir datos confidenciales con proveedores externos. Esto reduce el riesgo de violación de datos o acceso no autorizado a información confidencial durante el proceso de capacitación. Para permitir esto, los LLM deben ser inicialmente lo suficientemente compactos como para caber en GPU de consumo.
Saha también advirtió que ejecutar LLM en un teléfono inteligente o computadora portátil podría acaparar la memoria del dispositivo durante algún tiempo. “Si estás haciendo un LLM y tu teléfono se queda sin carga en una hora, no estarás contento”, dice Saha Los cálculos de baja precisión pueden ayudar a reducir el consumo de energía, añadió. “Pero no diría que una sola técnica resuelve todos los problemas. Lo que proponemos en este artículo es una técnica que se utiliza en combinación con las técnicas propuestas en trabajos anteriores. Y creo que esta combinación nos permitirá utilizar LLM en dispositivos móviles. Obtenga resultados más eficientes y precisos”.
papel,”Compresión de modelos de lenguaje grandes mediante descomposición de bajo rango y baja precisión“se presentará en la conferencia Neural Information Processing Systems (NeurIPS) en diciembre de 2024. Además de Goldsmith, Saha y Pilanci, los coautores incluyen a los investigadores de ingeniería de Stanford Naomi Sagan y Varun Srivastava. Este trabajo fue apoyado en parte por el Fondo Nacional de EE. UU. Science Foundation, la Oficina de Investigación del Ejército de EE. UU. y la Oficina de Investigación Naval.