A los 10 minutos de su nacimiento, un cervatillo puede ponerse de pie. En siete horas, puede caminar. Entre esos dos hitos, se involucra en una agitación de extremidades altamente adorable y altamente frenética para resolverlo todo.
Esa es la idea detrás de la robótica impulsada por IA. Mientras que los robots autónomos, como los autos autónomos, ya son un concepto familiar, de forma autónoma aprendizaje los robots siguen siendo solo una aspiración. Los algoritmos existentes de aprendizaje por refuerzo que permiten a los robots aprender movimientos a través de prueba y error aún dependen en gran medida de la intervención humana. Cada vez que el robot se cae o sale de su entorno de entrenamiento, necesita que alguien lo recoja y lo vuelva a colocar en la posición correcta.
Ahora un nuevo estudio Los investigadores de Google han hecho un avance importante hacia los robots que pueden aprender a navegar sin esta ayuda. En unas pocas horas, confiando exclusivamente en los ajustes a los algoritmos de vanguardia actuales, lograron con éxito un robot de cuatro patas para aprender a caminar hacia adelante y hacia atrás, y a girar a la izquierda y a la derecha, completamente solos.
El trabajo se basa en investigación previa realizado hace un año, cuando el grupo descubrió por primera vez cómo hacer que el robot aprendiera en el mundo real. El aprendizaje de refuerzo se realiza comúnmente en simulación: un doppelgänger virtual del robot se agita alrededor de un doppelgänger virtual del entorno hasta que el algoritmo sea lo suficientemente robusto como para operar de manera segura. Luego se importa al robot físico.
Este método es útil para evitar daños a un robot y sus alrededores durante su proceso de prueba y error, pero también requiere un entorno que sea fácil de modelar. La dispersión natural de la grava o el resorte de un colchón debajo de la pisada de un robot tardan tanto en simularse que ni siquiera vale la pena.
En este caso, los investigadores decidieron evitar los desafíos de modelado por completo entrenando en el mundo real desde el principio. Diseñaron un algoritmo más eficiente que podría aprender con menos pruebas y, por lo tanto, menos errores, y pusieron el robot en marcha en dos horas. Debido a que el entorno físico proporcionaba una variación natural, el robot también pudo adaptarse rápidamente a otros entornos razonablemente similares, como pendientes, escalones y terreno plano con obstáculos.
Pero un humano aún tenía que cuidar al robot e interferir manualmente cientos de veces, dice Jie Tan, un coautor de papel que dirige el equipo de locomoción de robótica en Google Brain. "Inicialmente no pensé en eso", dice.
Entonces comenzaron a resolver este nuevo problema. Primero, delimitaron el terreno que el robot podía explorar y lo hicieron entrenar en múltiples maniobras a la vez. Si el robot llegaba al borde del cuadro delimitador mientras aprendía a caminar hacia adelante, cambiaría de dirección y comenzaría a aprender a caminar hacia atrás.
En segundo lugar, los investigadores también restringieron los movimientos de prueba del robot, haciéndolo lo suficientemente cauteloso como para minimizar el daño por caídas repetidas. Durante los momentos en que el robot inevitablemente cayó de todos modos, agregaron otro algoritmo codificado para ayudarlo a retroceder.
A través de estos diversos ajustes, el robot aprendió a caminar de forma autónoma a través de varias superficies diferentes, incluyendo un suelo plano, un colchón de espuma viscoelástica y un felpudo con grietas. El trabajo muestra el potencial para futuras aplicaciones que pueden requerir que los robots naveguen por terrenos difíciles y desconocidos sin la presencia de un humano.
"Creo que este trabajo es bastante emocionante", dice Chelsea Finn, profesora asistente en Stanford, quien también está afiliada a Google pero no está involucrada en la investigación. “Eliminar a la persona del proceso es realmente difícil. Al permitir que los robots aprendan de manera más autónoma, los robots están más cerca de poder aprender en el mundo real en el que vivimos, en lugar de en un laboratorio ".
Sin embargo, advierte que la configuración se basa actualmente en un sistema de captura de movimiento sobre el robot para determinar su ubicación. Eso no será posible en el mundo real.
En el futuro, los investigadores esperan adaptar su algoritmo a diferentes tipos de robots o a múltiples robots que aprenden al mismo tiempo en el mismo entorno. En última instancia, cree Tan, romper la locomoción será clave para desbloquear robots más útiles.
"Muchos lugares están construidos para humanos, y todos tenemos piernas", dice. "Si un robot no puede usar las piernas, no puede navegar por el mundo humano".
Para recibir más historias como esta directamente en su bandeja de entrada, Regístrate para nuestro boletín de IA nominado por Webby The Algorithm. Es gratis.