Google 专注于推进AI研究的子公司 DeepMind 昨日发布了新版本的 AlphaGo 程序,这套系统名为“AlphaGo Zero”。其成功击败了去年战胜韩国围棋选手李世石的 DeepMind 软件 AlphaGo Lee。
据悉,AlphaGo Zero 利用一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。它仅用了三天时间就自行掌握了围棋的下法,还发明了更好的棋步。这期间,除了被告知围棋的基本规则,它未获得人类的帮助。并在三天后成功击败去年在围棋界叱诧风云的 AlphaGo Lee,战绩为 100 比 0。
与旧版本的 AlphaGo 相比,AlphaGo Zero 的 AI 智能化主要不是根据已知的人类发展战略进步,而是经过软件自身的训练不断更新自己的游戏知识,使自己变得越来越强,而这种做法能使软件的上限非常之高,它能够自己创造知识。
目前,AlphaGo Zero 的核心是一组连在一起形成人造神经网络的“神经元”。对于棋局的每个回合,神经网络会观察棋子在棋盘上的位置,并推算接下来的棋步以及这些棋步让全盘获胜的概率。每次对弈后,它会更新神经网络,让棋艺更精进。而这种设定也让 AlphaGo Zero 在围棋比赛中抛除杂念,变得更加纯净。
专家指出,以 AlphaGo Zero 的自学能力及推盘演算能力,如用于医学研究或科技研究,可能可以解决不少绝症或者未曾解决的科学问题。