Un robot casero capacitado para realizar tareas domésticas en una fábrica puede sumergirse de manera efectiva o no puede extraer la basura al desplegar la cocina de un usuario, ya que este nuevo entorno es diferente de su espacio de entrenamiento.
Para evitar esto, los ingenieros a menudo coinciden con el entorno de entrenamiento simulado lo más cerca posible con el mundo real donde se desplegarán los agentes.
Sin embargo, los investigadores ahora han descubierto que el MIT y en otro lugar han descubierto que a pesar de este conocimiento convencional, a veces la capacitación en un entorno completamente diferente produce un mejor agente de inteligencia artificial de rendimiento.
Sus resultados indican que en algunas situaciones, entrenando a un agente de IA simulado en un mundo con menos incertidumbre o “palabra”, permiten a ambos agentes probar a ambos agentes que los mismos agentes de IA entrenados en el mundo.
Los investigadores llaman a este fenómeno inesperado el impacto del entrenamiento interior.
“Si aprendemos a jugar al tenis en un entorno interno donde no hay palabra, podemos dominar diferentes disparos más fácilmente. Entonces, si nos movemos a un entorno ruidoso como la cancha de tenis del viento, podemos tener un mayor potencial potencial. de lo que jugamos al tenis mejor de lo que jugamos si empiezo a aprender en el entorno eólico “, Serena Bono, una asistente de investigación en MIT Media Lab y Serena Bono, una principal autora de un artículo relacionado con efectos de capacitación en interiores.
Los investigadores estudiaron el incidente entrenando a los agentes de IA para jugar a los juegos de Atari, lo que corregieron al agregar algo de impredecibilidad. Se sorprendieron de que el impacto del entrenamiento interior ocurriera continuamente a lo largo de la diversidad de los juegos y juegos de Atari.
Esperan que estos resultados aumenten la investigación adicional para desarrollar mejores métodos de capacitación para los agentes de IA.
“Este es un eje completamente nuevo para pensar. El entorno de capacitación y prueba no coincide, pero podemos crear un entorno simulado donde un agente de IA puede aprender mejor”, agregó los coautores Spandan Madan, un estudiante graduado de la Universidad de Harvard. .
Bono y Madan se han unido al periódico del graduado del MIT Ian Ishan Grover; Estudiante graduado de la Universidad de Yale Mao Yasuada; Profesor de Cynthia Bragial, Media Arts and Sciences y líder del Grupo de Robótica Personal del MIT Media Lab; Hanspitor Fister, profesor de informática de Wang en Harvard; Y el profesor de la Facultad de Medicina de Harvard, Gabriel Kreman. La investigación se presentará en la Asociación para el Avance del Premio.
Problemas de entrenamiento
Los investigadores están listos para explorar por qué los agentes que tienden a ser reforzados cuando examinan su capacitación en un entorno separado.
Aprender a reforzar es un método de prueba y conducción donde el agente ha aprendido a tomar medidas que exploran un espacio de capacitación y maximizar sus recompensas.
El equipo definitivamente ha creado una estrategia para agregar un componente de un componente para aprender un refuerzo de la función de conversión. La función de transición define la viabilidad de que un agente se moverá de un estado a otro sobre la base de actividades que un agente elige un agente.
Si el agente está jugando al Pack-Man, una función de transición puede definir las posibilidades que aumentarán, abajo, a la izquierda o derecha en el tablero del juego. En el aprendizaje de refuerzo estándar, la IA será entrenada y probada utilizando la misma función de transición.
Los investigadores han agregado palabras a la función de transición a este método convencional y, como se esperaba, ha alcanzado el rendimiento de Pac-Man del agente.
Pero cuando los investigadores entrenaron al agente con un juego de paquete sin sonido, lo probó en un entorno donde inyectaron la palabra en la función de transición, funcionó mejor que el agente entrenado entrenado en el juego de ruido.
“La regla del pulgar debe tratar de capturar la función de transición a su despliegue de despliegue, así como también podemos ser capacitados cuando entrenan al máximo para su dinero.
La función de conversión permite a los investigadores probar muchas inyecciones al medio ambiente, pero no creó juegos realistas. Cuantas más palabras inyectaron en el paquete, más fantasmas potenciales se teletransportarán al azar en diferentes cuadrados.
Para ver si el entrenamiento en interiores ha sido influenciado en los juegos ordinarios de Pack-Man, ajustaron el potencial subyacente para que los fantasmas fueran eliminados naturalmente, pero era más probable que la izquierda y la derecha se movieran hacia arriba y hacia abajo. Los agentes de IA entrenados en un entorno sin ruido aún funcionan mejor en estos juegos realistas.
Bono dice: “No somos solo por la palabra para crear un entorno adhoc. Esta parece ser propiedad de los problemas de aprendizaje de refuerzo y
Buscar
Cuando los investigadores cavaron más profundamente en busca de una explicación, vieron algunas relaciones sobre cómo los agentes de IA exploraron el espacio de entrenamiento.
Cuando ambos agentes de IA exploran la mayoría de las mismas zonas, los agentes capacitados entrenaron en un entorno que no es de No-Nois, probablemente porque es fácil aprender las reglas del juego sin intervención de palabras para el agente.
Si los tipos de su búsqueda son diferentes, el agente entrenado tiende a funcionar mejor en el ruidoso entorno. Esto puede suceder porque el agente necesita comprender los signos que no pueden aprender en un entorno sin ruido.
“Si solo aprendo a jugar al tenis con mi derecha en el entorno Nossi, pero con el ruido tengo que jugar con mi revés, no jugaré en un entorno no ruido”, explicó Bono.
En el futuro, los investigadores esperan explorar cómo puede ocurrir la capacitación interna en un entorno de aprendizaje más complejo de refuerzo u otras técnicas, como la visión por computadora y el procesamiento del lenguaje natural. También quieren crear el entorno de capacitación diseñado para obtener el efecto de entrenamiento en interiores, lo que puede ayudar a los agentes de IA a realizar mejor el entorno incierto.