Para entrenar modelos de lenguaje grandes más potentes, los investigadores utilizan colecciones masivas de conjuntos de datos que combinan datos diversos de miles de fuentes web.
Pero a medida que estos conjuntos de datos se combinan y recombinan en múltiples colecciones, a menudo se pierde o se confunde información importante sobre sus orígenes y las restricciones sobre cómo pueden usarse.
Esto no sólo plantea preocupaciones legales y éticas, sino que también puede perjudicar el desempeño de un modelo. Por ejemplo, si un conjunto de datos está mal clasificado, alguien que entrene un modelo de aprendizaje automático para una tarea específica puede terminar utilizando sin darse cuenta datos que no están diseñados para esa tarea.
Además, los datos de fuentes desconocidas pueden contener sesgos que pueden dar lugar a predicciones incorrectas al implementar un modelo.
Para mejorar la transparencia de los datos, un equipo multidisciplinario de investigadores del MIT y otros lugares lanzó una auditoría sistemática de más de 1.800 conjuntos de datos de texto en sitios de alojamiento populares. Descubrieron que más del 70 por ciento de este conjunto de datos omitía alguna información de licencia, mientras que alrededor del 50 por ciento contenía información que contenía errores.
A partir de estos conocimientos, desarrollaron una herramienta fácil de usar llamada Data Provenance Explorer que genera automáticamente resúmenes fáciles de leer de los creadores, fuentes, licencias y usos permitidos de los conjuntos de datos.
“Este tipo de herramientas pueden ayudar a los reguladores y profesionales a tomar decisiones informadas sobre el despliegue de la IA y promover el desarrollo responsable de la IA”, dijo Alex “Sandy” Pentland, profesor del MIT, líder del Grupo de Dinámica Humana en el MIT Media Lab, y un Nuevo proyecto abierto sobre el proyecto -Coautor de Access Paper.
Data Provenance Explorer puede ayudar a los profesionales de la IA a crear modelos más eficaces al permitirles seleccionar conjuntos de datos de entrenamiento que mejor se adapten a los objetivos de su modelo. A largo plazo, esto podría mejorar la precisión de los modelos de IA en situaciones del mundo real, como las que se utilizan para evaluar solicitudes de préstamos o responder preguntas de los clientes.
“Una de las mejores formas de comprender las capacidades y limitaciones de un modelo de IA es comprender con qué datos se entrenó. Cuando hay una atribución errónea y confusión sobre de dónde provienen los datos, se tiene un grave problema de transparencia”, afirmó Robert Mahary. , estudiante de posgrado del grupo de dinámica humana del MIT, candidato a doctorado en derecho en la Facultad de Derecho de Harvard y coautor principal del artículo.
El coautor principal Shane Longpre, estudiante graduado de Media Lab, se unió a Mahary y Pentland en el artículo; Sara Hooker, que dirige Coher, un laboratorio de investigación de IA; Así como MIT, Universidad de California en Irvine, Universidad de Lille en Francia, Universidad de Colorado en Boulder, Olin College, Universidad Carnegie Mellon, AI, ML Commons y Tidelift entre otras. El estudio fue publicado hoy. La naturaleza es inteligencia artificial.
Centrarse en el ajuste fino
Los investigadores suelen utilizar una técnica llamada ajuste fino para mejorar la capacidad de implementar un modelo de lenguaje grande para una tarea específica, como la respuesta a preguntas. Para realizar ajustes, crean cuidadosamente conjuntos de datos seleccionados diseñados para mejorar el rendimiento de un modelo para esta tarea.
Los investigadores del MIT se centraron en estos conjuntos de datos de ajuste, que a menudo son creados por investigadores, instituciones u organizaciones académicas y tienen licencia para usos específicos.
Cuando las plataformas de colaboración colectiva agregan dichos conjuntos de datos en colecciones más grandes para utilizarlas por parte de los profesionales del ajuste, parte de esa información de licencia original a menudo se deja atrás.
“Estas licencias son importantes y deberían poder hacerse cumplir”, afirmó Mahari.
Por ejemplo, si los términos de licencia para un conjunto de datos son incorrectos o faltan, uno puede gastar mucho dinero y tiempo en construir un modelo para luego verse obligado a abandonarlo porque algunos de los datos de entrenamiento contienen información privada.
“Las personas pueden terminar entrenando modelos en los que no comprenden las capacidades, preocupaciones o riesgos de esos modelos, lo que en última instancia proviene de los datos”, añade Longpre.
Para comenzar este estudio, los investigadores definieron formalmente la procedencia de los datos como una combinación de las tradiciones de abastecimiento, creación y licencia del conjunto de datos, así como sus características. A partir de ahí, desarrollaron un método de auditoría estructurado para rastrear la procedencia de los datos de una colección de más de 1.800 conjuntos de datos de texto de populares repositorios en línea.
Después de descubrir que más del 70 por ciento de este conjunto de datos contenía licencias “no especificadas” que omitían mucha información, los investigadores trabajaron hacia atrás para llenar los vacíos. Gracias a sus esfuerzos, redujeron el número de conjuntos de datos con licencias “no especificadas” a aproximadamente el 30 por ciento.
Su trabajo también reveló que las licencias adecuadas eran a menudo más restrictivas que las licencias asignadas por los repositorios.
Además, descubrieron que casi todos los creadores de conjuntos de datos estaban centrados en el norte global, lo que puede limitar la capacidad de un modelo si está capacitado para su implementación en una región diferente. Por ejemplo, un conjunto de datos en turco creado principalmente por personas de Estados Unidos y China puede no tener ningún aspecto culturalmente significativo, explica Mahari.
“Casi nos engañamos pensando que los conjuntos de datos son más diversos de lo que realmente son”, afirma.
Curiosamente, los investigadores también observaron un aumento dramático en las restricciones a los conjuntos de datos creados en 2023 y 2024, probablemente impulsado por las preocupaciones de los académicos de que sus conjuntos de datos pudieran usarse con fines comerciales no deseados.
Una herramienta fácil de usar
Para ayudar a otros a encontrar esta información sin la necesidad de realizar auditorías manuales, los investigadores crearon Data Provenance Explorer. Además de ordenar y filtrar conjuntos de datos según criterios específicos, la herramienta permite a los usuarios descargar una tarjeta de procedencia de datos que proporciona una descripción general concisa y estructurada de las características del conjunto de datos.
“Esperamos que este sea un paso, no sólo para comprender el panorama, sino también para ayudar a las personas a tomar decisiones más informadas sobre los datos con los que están entrenando”, dijo Mahari.
En el futuro, a los investigadores les gustaría ampliar su análisis para investigar la procedencia de los datos multimodales, incluidos el vídeo y la voz. Quieren estudiar si los términos de servicio de los sitios web que sirven como fuentes de datos se reflejan en el conjunto de datos.
A medida que amplían su investigación, también se acercan a los reguladores para discutir sus hallazgos y las implicaciones únicas en materia de derechos de autor que tiene el ajuste de datos.
“Cuando las personas crean y publican estos conjuntos de datos, necesitamos pruebas de datos y transparencia desde el principio, para que a otros les resulte fácil obtener estos conocimientos”, afirmó Longpre.