El poder de los modelos de IA previamente entrenados a gran escala se ha disparado recientemente, como lo demuestran los modelos de visión y lenguaje a gran escala como CLIP o ChatGPT. Estos modelos generalistas pueden funcionar razonablemente bien al cubrir una gran variedad de campos, lo que ha llevado a su adopción generalizada por parte del público. Sin embargo, esta versatilidad sin duda tiene un costo.

Entrenar y operar modelos a gran escala consume una gran cantidad de energía y tiempo, lo que va en contra de los objetivos de sostenibilidad y limita los tipos de computadoras que pueden usar. Además, en muchas aplicaciones prácticas, la gente quiere que los modelos de IA desempeñen funciones específicas en lugar de ser multiuso. En tales casos, las capacidades generales de un modelo pueden resultar inútiles e incluso contraproducentes, reduciendo la precisión. ¿Existe alguna manera de hacer que los modelos grandes previamente entrenados sean más eficientes “olvidando” información redundante?

Un artículo reciente presentará que Sistema de procesamiento de información neuronal (NeurIPS 2024)Un equipo de investigación dirigido por el profesor asociado Go Airi de la Universidad de Ciencias de Tokio (TUS) en Japón intentó abordar este problema. Desarrollaron un método llamado “olvido de caja negra” mediante el cual se pueden optimizar de forma iterativa las indicaciones de texto presentadas a un modelo clasificador de lenguaje visual de caja negra para que “olvide” selectivamente algunas de las clases que reconoce. Los coautores de este estudio incluyen al Sr. Yusuke Kuwana y al Sr. Yuta Goto de TUS, así como al Dr. Takashi Shibata de NEC Corporation.

“En aplicaciones prácticas, rara vez es necesaria la clasificación de todo tipo de clases de objetos. Por ejemplo, en un sistema de conducción autónoma, sería suficiente reconocer una clase limitada de objetos como automóviles, peatones y señales de tráfico. No necesitaríamos reconocer alimentos, muebles o especies animales”, explica el Dr. Erie. “Mantener clases que no necesitan ser reconocidas puede resultar en una reducción general en la precisión de la clasificación, así como en un desperdicio de recursos computacionales. y causar dificultades operativas como el riesgo de fuga de datos”.

Aunque existen algunos métodos para el olvido selectivo en modelos previamente entrenados, estos suponen una configuración de caja blanca, donde el usuario tiene acceso a los parámetros internos y la arquitectura del modelo. La mayoría de las veces, los usuarios trabajan con cajas negras; No tienen acceso al modelo ni a gran parte de su información por motivos comerciales o éticos. Por lo tanto, los investigadores tuvieron que emplear la llamada técnica de optimización libre de derivados, que no requiere acceso a los gradientes del modelo.

Para ello, ampliaron un método conocido como CMA-ES, con el modelo clasificador de imágenes CLIP como modelo objetivo de este estudio. Este algoritmo evolutivo implica muestrear diferentes indicaciones candidatas para alimentar el modelo y evaluar los resultados a través de una función objetivo predefinida, actualizando una distribución multivariada basada en los valores calculados.

Sin embargo, el rendimiento de las técnicas de optimización sin derivadas se deteriora rápidamente en problemas de gran escala. A medida que se deben olvidar más clases, el ‘contexto latente’ utilizado para optimizar las indicaciones de entrada crece hasta un tamaño manejable. Para resolver este problema, el equipo de investigación ideó una nueva técnica de parametrización llamada “intercambio de contexto latente”. Este enfoque implica descomponer el contexto latente derivado del mensaje en varios componentes más pequeños, que se consideran “únicos” para el token del mensaje o “compartidos” entre varios tokens. Al intentar optimizar estas unidades pequeñas en lugar de grandes porciones de contexto latente, la dimensión del problema se puede reducir en gran medida, haciéndolo mucho más manejable.

Los investigadores validaron su enfoque utilizando varios conjuntos de datos de clasificación de imágenes de referencia probando CLIP para “olvidar” el 40% de las clases en un conjunto de datos determinado. Este es el primer estudio en el que el objetivo es un modelo de lenguaje visual previamente entrenado que no reconoce ciertas clases en condiciones de caja negra y, basándose en una base de rendimiento razonable, los resultados fueron muy prometedores.

Este enfoque innovador tiene implicaciones importantes en el campo de la inteligencia artificial y el aprendizaje automático. Esto puede ayudar a que los modelos a gran escala funcionen mejor en tareas especializadas al ampliar su ya sorprendente aplicabilidad. Por ejemplo, otro uso es evitar que los modelos de generación de imágenes generen contenido no deseado al olvidar el contexto visual específico.

Además, el enfoque propuesto puede ayudar a abordar los problemas de privacidad, que son una preocupación creciente en este campo. “Si se le pide a un proveedor de servicios que elimine información específica de un modelo, esto se puede lograr reentrenando el modelo desde cero eliminando muestras problemáticas de los datos de entrenamiento. Sin embargo, reentrenar un modelo a gran escala consume una gran cantidad de energía”, El olvido selectivo, o el llamado desaprendizaje automático, puede ser una solución eficaz a este problema”, afirma el Dr. Airey. En otras palabras, puede ayudar a desarrollar soluciones para proteger el llamado “derecho al olvido”, una cuestión especialmente delicada en la sanidad y las finanzas.

Source link

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *