Identificar una turbina defectuosa en un parque eólico, que puede implicar observar cientos de señales y millones de puntos de datos, es como buscar una aguja en un pajar.

Los ingenieros suelen abordar este complejo problema mediante el uso de modelos de aprendizaje profundo que pueden detectar anomalías en mediciones repetidas tomadas por cada turbina, conocidas como datos de series temporales.

Pero con cientos de turbinas eólicas que registran docenas de señales cada hora, entrenar un modelo de aprendizaje profundo para analizar datos de series temporales es costoso y engorroso. Esto se complica por el hecho de que el modelo puede requerir un reentrenamiento después de su implementación y que los operadores de parques eólicos pueden carecer de las habilidades necesarias de aprendizaje automático.

En un nuevo estudio, investigadores del MIT descubrieron que los modelos de lenguaje grande (LLM) tienen el potencial de ser detectores de anomalías más eficientes para datos de series temporales. Es importante destacar que estos modelos previamente entrenados se pueden implementar de inmediato.

Los investigadores desarrollaron un marco llamado SigLLM, que incluye un componente que puede procesar un LLM convirtiendo datos de series de tiempo en entradas basadas en texto. Un usuario puede introducir estos datos preparados en el modelo y decirle que comience a detectar anomalías. LLM también se puede utilizar para pronosticar futuros puntos de datos de series temporales como parte de un proceso de detección de anomalías.

Aunque los LLM no superaron a los modelos de aprendizaje profundo de última generación en la detección de anomalías, funcionaron tan bien como otros métodos de IA. Si los investigadores pueden mejorar el rendimiento de LLM, el marco podría ayudar a los técnicos a detectar problemas potenciales con maquinaria pesada o equipos como satélites antes de que ocurran, sin la necesidad de entrenar un costoso modelo de aprendizaje profundo.

“Dado que esta es sólo la primera iteración, no esperábamos llegar allí la primera vez, pero estos resultados muestran que existe una oportunidad de utilizar LLM para detectar anomalías complejas”, dijo Sarah Alneghimish, ingeniería eléctrica e informática ( EECS) estudiante de posgrado y SigLLM. Autor principal de un artículo sobre.

Sus coautores incluyen a Linh Nguyen, estudiante de posgrado de EECS; Laure Berti-Equille, directora de investigación del Instituto Nacional de Investigación para el Desarrollo Sostenible de Francia; y el autor principal Kalyan Veeramachaneni, científico investigador principal del Laboratorio de Sistemas de Información y Decisión. La investigación se presentará en la Conferencia IEEE sobre ciencia de datos y análisis avanzado.

Una solución lista para usar

Los modelos de lenguaje grandes son autorregresivos, lo que significa que entienden que los nuevos valores de datos secuenciales dependen de valores anteriores. Por ejemplo, modelos como GPT-4 pueden predecir la siguiente palabra de una oración utilizando las palabras anteriores.

Dado que los datos de series temporales son secuenciales, los investigadores pensaron que la naturaleza autorregresiva de los LLM podría hacerlos adecuados para detectar anomalías en dichos datos.

Sin embargo, querían desarrollar una técnica que evite el ajuste fino, un proceso en el que los ingenieros vuelven a capacitar a un LLM de propósito general en una pequeña cantidad de datos específicos de la tarea para que se especialice en una tarea. En cambio, los investigadores crearon un LLM listo para usar sin pasos de capacitación adicionales.

Pero antes de poder implementarlo, tuvieron que convertir los datos de series temporales en entradas basadas en texto que el modelo de lenguaje pudiera manejar.

Lo lograron a través de una secuencia de transformaciones que capturan las partes más importantes de la serie temporal y al mismo tiempo representan los datos con la menor cantidad de tokens. Los tokens son la entrada básica para un LLM y más tokens requieren más cálculos.

“Si no sigues estos pasos con mucho cuidado, puedes cortar partes de tus datos que son importantes y perder esa información”, dice Alneghimish.

Una vez que descubrieron cómo transformar los datos de series temporales, los investigadores desarrollaron dos métodos de detección de anomalías.

Métodos para la detección de anomalías.

Para el primero, al que llaman apuntador, introducen datos preparados en el modelo y le solicitan que detecte valores inusuales.

“Tuvimos que iterar muchas veces para descubrir las indicaciones correctas para una serie de tiempo determinada. No es fácil entender cómo estos LLM reciben y procesan datos”, añadió Alneghimish.

Para el segundo método conocido como detector, utilizan LLM como predictor para predecir el siguiente valor de una serie de tiempo. Los investigadores comparan el valor previsto con el valor real. Una gran discrepancia indica que el valor real probablemente sea una anomalía.

Con el detector, el LLM será parte de un proceso de detección de anomalías, mientras que el apuntador completará la tarea por sí mismo. En la práctica, el detector funcionó mejor que el apuntador, generando muchos falsos positivos.

“Creo que, con el enfoque más rápido, le estábamos pidiendo al LLM que pasara por demasiados obstáculos. Le estábamos planteando un problema más difícil de resolver”, dice Veeramachaneni.

Cuando compararon ambos enfoques con las técnicas existentes, Detector superó a los modelos de IA basados ​​en transformadores en siete de los 11 conjuntos de datos que evaluaron, aunque no se requirió capacitación ni ajuste para el LLM.

En el futuro, un LLM podrá proporcionar explicaciones en lenguaje sencillo con sus predicciones, de modo que un operador podrá comprender mejor por qué un LLM ha identificado un punto de datos particular como anómalo.

Sin embargo, los modelos de aprendizaje profundo de última generación superan a los LLM por un amplio margen, lo que demuestra que todavía queda trabajo por hacer antes de que los LLM puedan usarse para la detección de anomalías.

“¿Qué se necesita para llegar a donde está funcionando junto con estos modelos de última generación? Esa es la pregunta del millón de dólares que nos enfrentamos ahora. Un detector de anomalías basado en LLM tendría que ser un punto de inflexión para que podamos justificar este tipo de esfuerzo”, afirmó Veeramachaneni.

En el futuro, los investigadores quieren ver si el ajuste puede mejorar el rendimiento, aunque la capacitación requerirá tiempo, costo y experiencia adicionales.

Sus métodos LLM también tardan entre 30 minutos y dos horas en producir resultados, por lo que aumentar la velocidad es un área clave de trabajo futuro. Los investigadores quieren investigar los LLM para comprender cómo realizan la detección de anomalías, con la esperanza de encontrar formas de mejorar su desempeño.

“Cuando se trata de tareas complejas como la detección de anomalías en series temporales, los LLM son realmente un competidor. ¿Quizás otras tareas complejas también puedan resolverse con los LLM?” Dijo Alnegheimish.

Esta investigación contó con el apoyo de SES SA, Iberdrola y ScottishPower Renewables y Hyundai Motor Company.

Source link