人工智能继续进阶
——通杀棋界后,“阿法狗”走向教学
本报记者 张梦然
今日视点
在人工智能(AI)领域,“阿法狗”(AlphaGo)是个嚣张的名字。自2016年3月甫出茅庐震惊世人后,该程序妙手迭出,一路刷新纪录。
至本月初,谷歌的AI子公司深度思维宣布“阿法狗”升级成了“阿法零”(AlphaZero),已一举击败国际象棋、将棋、围棋类三个世界冠军级的电脑程序。
12月11日,该公司发布“阿法狗”教学工具。两天后,团队资深研究员、曾代AI执子的“人肉臂”黄士杰,宣布正式离开“阿法狗”,转投深度思维其他项目。
“阿法狗”不断升级
2016年,名为“阿法狗”的AI在和所有其他围棋程序的对抗中获得99.8%的胜率后,进一步学习,于当年3月挑战人类围棋世界冠军。五局鏖战,人类1∶4不敌AI,轰动一时。人们将这一成绩视为彼时人工智能的巅峰之作,没成想,这只是“阿法狗”的起步。
今年1月,一个神秘账号Master在知名围棋平台上先后挑战柯洁、朴廷桓和井山裕太等顶级高手,豪取胜利,随后战赢“棋圣”聂卫平,直至60盘决胜收官时自爆身份,公布自己正是“阿法狗”新版。
10月,“阿法狗”程序再次升级——“阿法元”(AlphaGo Zero)出现,其以100∶0的不败战绩,狠狠击败了曾书写历史的旧版“阿法狗”,而且能够从空白状态起,在不需要任何人类棋谱输入的条件下,无师自通,自学围棋。
直至12月6日,深度思维再出惊人之举:其研发的新一代“阿法零”,凭借强劲的计算资源,使其经过不到24小时的自我对弈强化学习,就接连击败了国际象棋、将棋、围棋三个世界冠军级的电脑程序,自此成了全能棋王。
“阿法零”独孤求败
最新出现的“阿法零”,是深度思维团队继“阿法元”问世之后带给人们的又一全新算法,并称它是“更通用版本”。
目前,“阿法零”算法可以在8个小时训练后击败去年对战李世石版本的“阿法狗”,再以4小时训练击败世界顶级的国际象棋程序Stockfish;又用2小时训练击败世界顶级将棋程序Elmo。
与前辈“阿法元”相比,“阿法零”有很多自己的独到之处。首先,“阿法元”是在假设结果为赢/输二元的情况下,对获胜概率进行估计和优化,而“阿法零”会将平局及其他潜在结果都考虑在内,深一步估计和优化;其次,“阿法零”并不是靠转变棋盘位置进行数据增强,它只对单一神经网络进行维护,并不断更新该神经网络;最后,“阿法零”所有对弈都重复使用相同的超参数(开始学习过程之前设置值的参数,而非通过训练得到的参数数据),因此无需额外针对特定某种棋类再进行调整。
下一步落地应用
本月11日,深度思维拿出了一套“阿法狗”教学工具。“阿法狗”团队核心成员黄士杰在其社交媒体账号上介绍说,该教学工具总共收录了约6000个近代围棋史上主要的开局变化,从23万个人类棋谱中收集而来,而所有盘面都有“阿法狗”评估的胜率及推荐的下法。
这套教学使用的其实是神秘账号Master那一版的“阿法狗”。但这里所有的胜率与下法,AI都思考过将近10分钟——这意味着1000万次模拟,而每一个开局变化,“阿法狗”都固定延伸20步棋。再加上下法,整套教学工具约有2万个分支变化,37万个盘面。团队成员希望,人们能感受这套教学工具中的创新,并可从中获益。
教学系统推出两天后,黄士杰宣布正式告别“阿法狗”,投身公司的其他研究中。
其实早在今年5月,当“阿法狗”战胜柯洁后,深度思维就宣布此后该程序不会再参加到人机大战的竞技中去。团队的下一步计划,是研发出广泛算法以投入应用,包括给出疾病的治疗方案、设法将能源消耗降低,以及发明出革命性新材料等。
现在,深度思维已与谷歌数据中心共同研发管理制冷系统的新技术,并与英国全民医疗健康系统达成合作。他们,在让AI相关算法真实落地于应用中。
(科技日报北京12月14日电)