Desde 2005.
Publicado el
El año pasado vimos cómo DeepMind, de la empresa matriz de Google, Alphabet, detalló AlphaZero, un sistema de inteligencia artificial que podría enseñarse a sí mismo a dominar el juego del ajedrez, una variante japonesa de ajedrez llamada shogi y el juego de mesa chino Go. Venció a los campeones mundiales y protagonizó cientos de portadas de revistas en todo el mundo con el titular «la máquina vence al hombre». Tenía mérito, sí, ya que demostró una habilidad especial para aprender juegos de dos personas con información perfecta, I mean, juegos en los que cualquier decisión se toma teniendo en cuenta lo que ocurrió antes.
But AlphaZero had the advantage of knowing the rules of the games it faced, something that MuZero does not need.
We are talking about another DeepMind project in which a machine learning model capable of teaching the rules is used. MuZero predicts the most relevant information for game planning, and thus manages to be a champion in 57 different Atari games and match AlphaZero in Go, chess and shogi.
Researchers say that MuZero paves the way for learning methods in a large number of real-world domains, particularly those that lack technological religion a simulator that communicates dynamic rules of the environment. Imagine, for example, arriving on an unknown planet: no rules are known, you have to learn on the go.
Hasta ahora los algoritmos de planificación se basan en el conocimiento de la dinámica del entorno, como las reglas del juego un simulador preciso, pero este nuevo aprendizaje basado en modelos tiene como objetivo abordar este problema aprendiendo primero un modelo de la dinámica del entorno y luego planificando con respecto al modelo aprendido.
Básicamente, MuZero recibe observaciones, I mean, imágenes de un tablero de Go una pantalla de Atari, y las transforma en un estado oculto. Este estado oculto se actualiza iterativamente mediante un proceso que recibe del estado anterior y una acción hipotética siguiente, y en cada paso el modelo predice la política (for example, el movimiento para jugar), la función de valor (for example, el ganador) y la recompensa (for example, los puntos anotados al jugar un movimiento).
That is to say, Model a given environment as an intermediate step, Using a state transition model that predicts the next step and a reward model that anticipates the reward.
What's New
Technology weblog with 13 years of history. Here we explain industry news, We give advice of various kinds, We recommend apps and gadgets and much more.
Sponsors