Piensa en ordenar una cocina desordenada, empezando por una encimera llena de paquetes de salsa. Si tu objetivo es limpiar el contador, puedes barrer los paquetes en grupo. Sin embargo, si eliges primero los paquetes de mostaza antes de descartar el resto, discriminarás más por tipo de salsa. Y si, entre las mostazas, anhelas Grey Poupon, tendrás que buscar más detenidamente para encontrar esta marca en particular.
Los ingenieros del MIT han desarrollado un método que permite a los robots tomar decisiones igualmente intuitivas y relevantes para las tareas.
El nuevo método del equipo, llamado Clio, permite a un robot identificar partes de una escena que son importantes, dadas las tareas manuales. Con Cleo, un robot toma una lista de tareas descritas en lenguaje natural y, basándose en esas tareas, determina el nivel de granularidad que necesita para interpretar su entorno y “recuerda” sólo las partes de una escena que son relevantes.
En experimentos reales que abarcaron desde un cubículo abarrotado en el campus del MIT hasta un edificio de cinco pisos, el equipo utilizó Clio para segmentar automáticamente una escena en diferentes niveles de granularidad, basándose en un conjunto de tareas específicas en indicaciones de lenguaje natural como “mover estante periódico” y “primeros auxilios”. Consigue el botiquín”.
El equipo condujo a Cleo en tiempo real en un robot cuadrúpedo. Mientras el robot exploraba un edificio de oficinas, Cleo identificó y mapeó solo aquellas partes de la escena que eran relevantes para las tareas del robot (como recuperar un juguete para perros mientras ignoraba una pila de suministros de oficina), lo que le permitió percibir objetos de interés.
Cleo lleva el nombre de la musa griega de la historia, por su capacidad para identificar y recordar elementos importantes para una tarea particular. Los investigadores prevén que Clio será útil en muchas situaciones y entornos en los que un robot necesita inspeccionar y comprender rápidamente su entorno en términos de su tarea encomendada.
“La búsqueda y el rescate son la aplicación inspiradora para este trabajo, pero Clio puede impulsar robots domésticos y robots que trabajan en fábricas además de humanos”, dijo Luca Carlone, profesor asociado en el Departamento de Aeronáutica y Astronáutica del MIT, investigador principal. Laboratorio de Sistemas de Información y Decisión (LIDS) y director del Laboratorio Spark del MIT. “Se trata realmente de ayudar al robot a comprender el entorno y lo que necesita recordar para llevar a cabo su misión”.
El equipo detalló sus hallazgos en un estudio que aparece hoy en la revista. Cartas de Robótica y Automatización. Los coautores de Carlone incluyen miembros de Spark Lab: Dominic Maggio, Yun Chang, Nathan Hughes y Lucas Schmid; y miembros del Laboratorio Lincoln del MIT: Matthew Trang, Dan Griffiths, Carlin Dougherty y Eric Christofalo.
campo abierto
Grandes avances en visión por computadora y procesamiento del lenguaje natural han permitido a los robots reconocer objetos en su entorno. Pero hasta hace poco, los robots sólo podían hacer esto en situaciones “cerradas”, donde están programados para operar en un entorno cuidadosamente seleccionado y controlado, con un número limitado de objetos que el robot ha sido previamente entrenado para reconocer.
En los últimos años, los investigadores han adoptado un enfoque más “abierto” para permitir que los robots reconozcan objetos en entornos más realistas. En el reconocimiento de conjuntos abiertos, los investigadores han utilizado herramientas de aprendizaje profundo para construir redes neuronales que pueden procesar miles de millones de imágenes de Internet, con texto asociado a cada imagen (como la foto de un perro de un amigo en Facebook, con el título “Conoce a mi nuevo ¡cachorro!”). ).
A partir de millones de pares de imagen y texto, una red neuronal aprende de esas partes de una escena y luego identifica aquellas que caracterizan ciertos términos, como un perro. Un robot puede aplicar esa red neuronal para detectar a un perro en una escena completamente nueva.
Pero todavía queda un desafío en cuanto a cómo analizar una escena de manera eficiente y relevante para una tarea particular.
“Los métodos típicos elegirán un nivel de granularidad fijo y arbitrario para determinar cómo fusionar partes de una escena en lo que consideran un ‘objeto'”, dice Maggio. “Sin embargo, la granularidad de lo que ustedes llaman ‘objetos’ en realidad está relacionada con lo que el robot necesita hacer. Si esa granularidad se fija sin considerar las tareas, el robot puede terminar con un mapa que no es útil para sus tareas”.
Barreras de información
Con Clio, el equipo del MIT pretendía permitir que los robots interpretaran su entorno con un nivel de granularidad que pudiera ajustarse automáticamente a las tareas en cuestión.
Por ejemplo, dada la tarea de mover una pila de libros en un estante, el robot debería poder determinar que toda la pila de libros es un objeto relevante para la tarea. De manera similar, si la tarea es quitar solo el libro verde del resto de la pila, el robot debe distinguir el libro verde como un único objetivo e ignorar el resto de la escena, incluidos los otros libros de la pila.
El enfoque del equipo combina modelos de lenguaje a gran escala con visión por computadora y redes neuronales de última generación para establecer conexiones entre millones de imágenes de código abierto y texto semántico. También incluyen herramientas de mapeo que dividen automáticamente una imagen en muchas partes más pequeñas, que pueden enviarse a redes neuronales para determinar si ciertas partes son semánticamente similares. Luego, los investigadores derivaron un concepto de la teoría de la información clásica llamado “restricciones de información” que utilizaron para comprimir varios segmentos de imágenes de una manera que selecciona y almacena los segmentos que son semánticamente más relevantes para una tarea particular.
“Por ejemplo, supongamos que la escena tiene una pila de libros y mi trabajo es simplemente obtener el libro verde. En ese caso, empujamos toda esta información sobre la escena a través de esta barrera y terminamos con un grupo de partes que son libros verdes. “, explica Maggio. “Todos los demás segmentos que no son relevantes simplemente se agrupan en un grupo que simplemente podemos eliminar. Y dejar un objeto con la granularidad adecuada que necesitamos para respaldar nuestro trabajo”.
Los investigadores han demostrado Clio en varios entornos del mundo real.
“Lo que pensamos que sería un experimento realmente sensato era utilizar el Clio en mi apartamento, donde no había limpiado antes”, dice Maggio.
El equipo creó una lista de tareas en lenguaje natural, como “mover un montón de ropa”, y luego aplicó Clio a imágenes del desordenado apartamento de Maggio. En este caso, Cleo pudo segmentar rápidamente las escenas del apartamento y alimentar los segmentos a través del algoritmo de cuello de botella de datos para identificar las partes que componían la pila de ropa.
Conducen el robot cuadrúpedo de Boston Dynamic, Spot-A Clio. Le dieron al robot una lista de tareas para completar, y mientras el robot exploraba y mapeaba el interior del edificio de oficinas, Cleo corría en tiempo real en una computadora a bordo montada en el lugar, seleccionando visualmente partes de las escenas mapeadas correspondientes. a la tarea dada. El método creó un mapa superpuesto que mostraba solo los objetos objetivo, que el robot utilizó para acercarse al objeto identificado y completar físicamente la tarea.
“Ejecutar Clio en tiempo real fue un gran logro para el equipo”, dijo Maggio. “Mucho trabajo previo puede tardar horas en ejecutarse”.
En el futuro, el equipo planea adaptar Clio basándose en avances recientes en el manejo de tareas de alto nivel y la representación de escenas visuales fotorrealistas.
“Seguimos asignando a Clio tareas que son algo específicas, como ‘encontrar una baraja de cartas'”, dice Maggio. “Para la búsqueda y el rescate, hay que asignarle tareas de más alto nivel, como ‘encontrar supervivientes’ o ‘recuperar energía’. Por eso, queremos llegar a una comprensión más humana de cómo realizar tareas más complejas”.
Esta investigación fue apoyada en parte por la Fundación Nacional de Ciencias de EE. UU., la Fundación Nacional de Ciencias de Suiza, el Laboratorio Lincoln del MIT, la Oficina de Investigación Naval de EE. UU. y la Alianza de Investigación Colaborativa de Tecnología y Sistemas Inteligentes Distribuidos y Colaborativos del Laboratorio de Investigación del Ejército de EE. UU.