Mira cómo esta IA aprende a jugar a Super Mario
Durante la última semana, han aparecido vídeos con los intentos de una IA por aprender a jugar a Mario. Se llama Rupert y acaba de superar el nivel 2.
En estos videos, Rupert se embarca en diversas acciones: corre, salta, se enfrenta a enemigos, cae por acantilados y muere repetidamente. Tras cada muerte, Rupert persiste y vuelve a intentarlo, repitiendo en gran medida los movimientos que le llevaron a su derrota anterior. Sin embargo, una observación detenida revela que Rupert está evolucionando y mejorando su desempeño en el juego; está aprendiendo.
Rupert opera como un conjunto de algoritmos de aprendizaje automático que se perfeccionan a partir de sus propios errores, con un objetivo claro: completar con éxito el nivel. La IA está consciente de qué botones puede presionar y tiene la capacidad de visualizar la pantalla del juego.
A diferencia de un jugador humano de Mario, la IA no posee conocimiento previo sobre la necesidad de evitar a los Koopas u otras estrategias de juego. Rupert se basa únicamente en retroalimentación positiva y negativa. De manera esencial, Rupert experimenta con acciones al azar, retiene lo que resulta efectivo y lo que no, y con el tiempo, optimiza su estrategia
El enfoque de Rupert se asemeja al proceso evolutivo al emplear conceptos de «especies» y «generaciones». La IA realiza pruebas de estrategias específicas para cada «especie», las cuales consisten en entre dos y seis intentos. Después de un intervalo de 50 a 100 «especies», la IA compila el conocimiento adquirido en una nueva «generación».
Con cada partida, la IA acumula una puntuación de «aptitud» que aumenta según la distancia que Mario logra avanzar hacia la derecha y la rapidez con la que lo hace. Las generaciones que demuestran mayor aptitud son seleccionadas para «procrear» futuras generaciones. Esto implica que la IA basa su desempeño en comportamientos y patrones exitosos, mientras parte de una base renovada. Como resultado, su toma de decisiones se vuelve más compleja y sofisticada con el tiempo.
Aunque el progreso es gradual, Rupert logró superar el primer nivel en 57 generaciones, lo que generó comentarios entusiastas de los espectadores que celebraban su éxito.
Sin embargo, Rupert podría enfrentarse a desafíos más adelante en el juego. El sistema actual de recompensas se basa en el avance horizontal de Mario en la pantalla, pero en ciertos niveles de Super Mario, el objetivo es ascender para alcanzar la meta, en lugar de desplazarse hacia la derecha. El rendimiento de Rupert en estas situaciones aún está por verse.