Imagínese decirle a su automóvil: “Tengo prisa” y automáticamente lo llevará a la ruta más eficiente hacia donde necesita estar.
Los ingenieros de la Universidad Purdue descubrieron que un vehículo autónomo (AV) podría hacer esto con la ayuda de ChatGPT u otros chatbots posibles gracias a algoritmos de inteligencia artificial llamados modelos de lenguaje grandes.
El estudio, presentado el 25 de septiembre en la 27ª Conferencia Internacional IEEE sobre Sistemas de Transporte Inteligentes, puede estar entre las primeras pruebas para comprobar qué tan bien un AV real puede utilizar grandes modelos de lenguaje para interpretar comandos de un pasajero y conducir en consecuencia.
Jiran Wang, profesor asistente en la Escuela Lyles de Ingeniería Civil y de Construcción de Purdue, quien dirigió la investigación, cree que para que algún día los vehículos sean completamente autónomos, necesitarán comprender lo que les dan sus pasajeros, incluso cuando la instrucción sea implícita. Un taxista, por ejemplo, sabrá lo que necesitas cuando le digas que tienes prisa sin especificar la ruta que debe tomar para evitar el tráfico.
Aunque los AV actuales vienen con funciones que le permiten comunicarse con ellos, deben ser más claros de lo que necesitaría si estuviera hablando con un humano. Por el contrario, los modelos de lenguaje grandes pueden interpretar y responder de una manera más humana porque están capacitados para establecer relaciones a partir de grandes cantidades de datos de texto y aprender con el tiempo.
“Los sistemas convencionales en nuestros vehículos tienen un diseño de interfaz de usuario en el que tienes que presionar botones para decir lo que quieres, o un sistema de reconocimiento de audio en el que tienes que ser muy claro cuando hablas para que tu auto pueda entenderte”, dijo Wang. “Pero el poder de los grandes modelos de lenguaje es que entienden todo tipo de cosas que dices de forma más natural. No creo que ningún otro sistema existente pueda hacer eso”.
Realizando un nuevo tipo de investigación
En este estudio, los modelos de lenguaje grandes no ejecutaron un AV. En cambio, estaban utilizando las funciones existentes de AV para ayudar a la conducción. Al integrar estos modelos, Wang y sus estudiantes descubrieron que un AV no sólo podía comprender mejor a su pasajero, sino también personalizar su conducción para satisfacer su satisfacción.
Antes de comenzar sus experimentos, los investigadores entrenaron a ChatGPT con indicaciones que iban desde comandos más directos (por ejemplo, “Conduzca más rápido”) hasta comandos más indirectos (por ejemplo, “Me siento un poco enfermo en este momento”). A medida que ChatGPT aprendió cómo responder a estos comandos, los investigadores le dieron a su modelo de lenguaje grande los parámetros a seguir, exigiéndole que tuviera en cuenta las reglas de tránsito, las condiciones de la carretera, el clima y otra información detectada por los sensores del vehículo, como cámaras y detección de luz. y rango
Luego, los investigadores hicieron accesibles estos grandes modelos de lenguaje a través de la nube en un vehículo de prueba con nivel cuatro de autonomía según lo definido por SAE International. El nivel cuatro está a un nivel de lo que la industria considera un vehículo totalmente autónomo.
Cuando el sistema de reconocimiento de voz del vehículo detecta una orden de un pasajero durante la prueba, grandes modelos de lenguaje en la nube razonan la orden con parámetros definidos por los investigadores. Luego, estos modelos generaron instrucciones para el sistema de conducción por cable del automóvil, que está conectado al acelerador, los frenos, las marchas y la dirección, sobre cómo conducir de acuerdo con esos comandos.
Para algunos experimentos, el equipo de Wang también probó un módulo de memoria instalado en su sistema que permite que modelos de lenguaje grandes almacenen datos sobre las preferencias históricas de un pasajero y aprendan a factorizarlas en una respuesta de comando.
Los investigadores llevaron a cabo la mayoría de los experimentos en un campo de pruebas en Columbus, Indiana, que era una pista de aterrizaje de un aeropuerto. Este entorno les permite probar de forma segura las respuestas del vehículo a las órdenes de los pasajeros mientras conducen a velocidades de autopista en pistas y manejan intersecciones de dos vías. También probaron qué tan bien estacionaba el automóvil en el estacionamiento del estadio Ross-Add de Purdue de acuerdo con las órdenes de los pasajeros.
Los participantes del estudio utilizaron tanto comandos aprendidos por modelos de lenguaje más antiguos como aquellos que eran nuevos mientras viajaban en el automóvil. Según las respuestas de la encuesta después de sus viajes, los participantes expresaron índices más bajos de incomodidad con las decisiones tomadas por el AV en comparación con los datos sobre cómo se sienten las personas cuando viajan en un AV de nivel cuatro sin la ayuda de modelos de lenguaje grandes.
El equipo comparó el rendimiento del AV con valores de referencia creados a partir de datos sobre lo que las personas en promedio considerarían un viaje seguro y cómodo, como cuánto tiempo da el automóvil para reaccionar para evitar una colisión trasera y qué tan rápido acelera el vehículo. y desacelera. Los investigadores encontraron que el AV en este estudio excedía todos los valores de referencia cuando se usaban modelos de lenguaje grandes para conducir automóviles, incluso cuando respondían a comandos que los modelos aún no habían aprendido.
Dirección futura
Los modelos de lenguaje grandes en este estudio promediaron 1,6 segundos para procesar la orden de un pasajero, lo que se considera aceptable en situaciones en las que el tiempo no es crítico, pero debería mejorarse para situaciones en las que un AV debe responder rápidamente, dijo Wang. Este es un problema que afecta a los grandes modelos lingüísticos en general y que está siendo abordado tanto por la industria como por los investigadores universitarios.
Aunque no es el objetivo de este estudio, se sabe que los modelos de lenguaje grandes como ChatGPT son propensos a “alucinar”, lo que significa que pueden malinterpretar lo que aprenden y responder de manera incorrecta. El estudio de Wang se llevó a cabo en una configuración con un método a prueba de fallos que permitía a los participantes viajar de forma segura cuando modelos de lenguaje grandes malinterpretaban las órdenes. Los modelos han mejorado su comprensión durante el viaje del participante, pero las alucinaciones siguen siendo un problema que los fabricantes de vehículos deberían considerar antes de implementar modelos de lenguaje grandes en los vehículos autónomos.
Además de los estudios realizados por investigadores universitarios, los fabricantes de vehículos también necesitan realizar más pruebas con modelos de lenguajes grandes. La integración de estos modelos con controles AV requerirá aprobaciones regulatorias adicionales para que realmente puedan conducir, dijo Wang.
Mientras tanto, Wang y sus estudiantes están realizando experimentos que podrían ayudar a la industria a agregar grandes modelos de lenguaje a los AV.
Desde que su estudio probó ChatGPT, los investigadores han evaluado otros chatbots públicos y privados basados en grandes modelos de lenguaje, como las series de asistentes de inteligencia artificial Gemini de Google y Llama de Meta. Hasta ahora, han descubierto que ChatGPT puede funcionar mejor en los indicadores para un viaje seguro y eficiente en el tiempo en un AV. Los resultados publicados están próximos.
Otro próximo paso es si será posible que el gran modelo de lenguaje de cada AV se comunique entre sí, como ayudar al AV a decidir cuál ir primero en una parada de cuatro vías. El laboratorio de Wang también está iniciando un proyecto para estudiar el uso de modelos de visión a gran escala para ayudar a los vehículos autónomos a conducir en las condiciones climáticas extremas del invierno, comunes en todo el Medio Oeste. Estos modelos son similares a los modelos de lenguaje grandes pero entrenados en imágenes en lugar de texto. El proyecto contará con el apoyo del Centro para el Transporte Conectado y Automatizado (CCAT), financiado a través del Programa del Centro Universitario de Transporte de la Oficina de Investigación, Desarrollo y Tecnología del Departamento de Transporte de EE. UU. Purdue es uno de los socios universitarios de CCAT.