自2005年以来.
发布于
去年我们看到DeepMind, 谷歌母公司, Alphabet, 详细介绍了AlphaZero, 这是一种可以自学掌握国际象棋的人工智能系统, 一种名为将棋的日本象棋变体和中国棋盘游戏围棋. 它击败了世界冠军,并登上了全球数百本杂志的封面,标题是‘机器战胜人类’. 这确实有价值, 是的, 因为它展示了在两人完美信息游戏中学习的特殊能力, 也就是说, 在这些游戏中,任何决策都是基于之前发生的情况做出的.
Pero AlphaZero tenía la ventaja de conocer las reglas de los juegos a los que se enfrentaba, algo que Muzero no necesita.
Estamos hablando de otro proyecto de Deepmind en el que se usa un modelo de aprendizaje automático capaz de enseñar las reglas. MuZero predice la información más relevante para la planificación del juego, y así consigue ser un campeón en 57 juegos diferentes de Atari e igualar a AlphaZero en Go, ajedrez y shogi.
Los investigadores dicen que MuZero allana el camino para aprender métodos en una gran cantidad de dominios del mundo real, particularmente aquellos que carecen de religión tecnológica un simulador que comunique reglas dinámicas del entorno. Imaginad, por ejemplo, llegar a un planeta desconocido: no hay reglas conocidas, 必须在实践中学习.
到目前为止,规划算法依赖于对环境动态的了解, 就像游戏规则或者一个精确的模拟器一样, 但这种基于模型的新型学习旨在通过首先学习环境动态的模型,然后根据学习到的模型进行规划来解决这个问题.
基本上, MuZero 接收观察信息, 也就是说, 围棋棋盘的图像、雅达利屏幕的图像, 并将它们转换为一个隐状态. 这个隐状态通过一个过程迭代更新,该过程从前一个状态和一个假设的下一个动作中获取信息, 在每一步中,模型预测策略 (por ejemplo, 即游戏的动作), 价值函数 (por ejemplo, 获胜者) 以及奖励 (por ejemplo, 玩一个动作时记下的分数).
也就是说, 将给定环境建模为一个中间步骤, 使用预测下一步骤的状态转移模型和预期奖励的奖励模型.
最新动态
拥有13年历史的技术博客. 在这里我们解释行业的新动态, 提供各种类型的建议, 推荐应用程序和小工具,以及更多内容.
赞助商