人工智能自学三天 胜人类千年?

【记者岳超报导】10月19日,谷歌旗下的人工智能公司DeepMind在世界顶级科学杂志《自然》(Nature)杂志上宣布:新一代AlphaGo Zero可以在没有人类干预的情况下自我学习,而且仅自我学习了3天,就以100比0的成绩战胜了第一代AlphaGo。
 
AlphaGo项目的主要负责人戴维•席尔瓦(David Silver)在接受采访时表示,“过去人们普遍认为机器学习是基于海量的大数据,但是从AlphaGo Zero身上,我们发现算法比数据更重要”。
 
AlphaGo于2015年10月面世,在广为人知的与棋手李世石对弈之前,它已经打败了欧洲围棋冠军樊麾。樊麾接受《财经》记者采访时表示,当时在他看来,一个计算程序要打败职业棋手是不可能的事情。结果他以0-5输给了AlphaGo,但他也因此加入了DeepMind团队,帮助训练AlphaGo。2016年3月,在他帮助训练下的AlphaGo以4-1的成绩打败了人类顶尖棋手李世石。2017年初,AlphaGo化名为“Master”,在网络上挑战60名人类棋手,保持全胜的成绩。2017年5月,在浙江乌镇,名为Master的第二代AlphaGo以3-0战胜了目前人类最强棋手柯洁。

(123RF)
(123RF)

 
然而,仅仅在5个月后,第三代AlphaGo Zero横空出世,仅仅自学了3天,就分别击败了第一代AlphaGo和第二代AlphaGo Master。面对无师自通碾压一切前辈的AlphaGo Zero,柯洁说出了这样一句话:“人类显得太多余了……”
 
柯洁被认为是围棋天才,6岁开始学棋,17岁时在世界范围内排名第一,一个人类天才十几年的学习,被Alpha Zero用3天时间超越。
 
被震动的不止柯洁,在DeepMind的Nature论文公布之后,悲观、甚至恐慌的情绪,在大众之间蔓延着,甚至有媒体一本正经地探讨“未来是终结者还是黑客帝国”。
 
人控的“无师自通”
 
那么,在AlphaGo Zero下棋的过程中,人类知识和经验真的一点用都没有吗?事实并非如此。
 
据业内专家介绍,在AlphaGo Zero下棋的过程中,并没有从人类的对局经验和数据中进行学习,但这个算法依然需要人类向它灌输围棋的规则:哪些地方可以落子、怎样才算获胜等等。
 
和之前三版AlphaGo相比,这一版去掉了人类教授棋谱的过程,在训练过程最开始的时候,AI落子完全是随机的,AlphaGo团队的负责人戴维•席尔瓦透露,AlphaGo Zero一开始甚至会把开局第一手下在1-1(棋盘上不占目数的位置)。在和自己对弈的过程中,算法才逐渐掌握了胜利的秘诀,并做到比前一代更优秀。从这个角度来看,AlphaGo Zero的确可以说是第一次做到了无师自通,也正是出于这个原因,DeepMind这篇Nature论文才能引起这么多圈内人关注。
 
然而,AlphaGo Zero虽然在棋盘上“威风八面”,但具体的围棋规则、和以围棋规则判定棋局输赢,依然需要人类来预先“设定”。所以有人说人类无用、或者说机器可以自己产生认知,都是对AlphaGo Zero错误理解。
 
“全面碾压人类”实为空谈
 
AlphaGo Zero发布之后,媒体关切地询问“这个算法以后会用在哪些其它领域”,网友认真地担心“这个AI(人工智能)会不会在各个领域全面碾压人类”。
 
对于AlphaGo Zero算法的未来发展,DeepMind联合创始人哈萨比斯介绍说,AlphaGo团队的成员都已经转移到其它团队中,正在尝试将这项技术用到其它领域,“最终,我们想用这样的算法突破,来解决真实世界中各种各样紧迫的问题。”
 
DeepMind期待AlphaGo Zero解决的,是“其它结构性问题”,他们在博客中特别列举出几项:蛋白质折叠、降低能耗、寻找革命性的新材料。
 
哈萨比斯说AlphaGo可以看作一个在复杂数据中进行搜索的机器,除了博客中提到的几项,新药发现、量子化学、粒子物理学也是AlphaGo可能大展拳脚的领域。
 
然而,AlphaGo Zero在围棋领域获取的成就,能否真的能迅速移植到其它领域呢?
 
有专业人士认为,要解释AlphaGo算法能扩展到哪些领域,需要先了解它现在所解决的问题——围棋具有哪些特性。首先,围棋可以复盘,是能够完美重现的算法模型;其次,围棋对弈双方只有2个,信息是完全可观测的,不像在麻将、扑克里,对手的信息观测不到;最后也是最重要的一点:围棋对局可以用计算机迅速模拟,很快地输出输赢信号。
 
这些围棋特性,对于AlphaGo算法的影响至关重要,他们和AlphaGo算法很一致,能快速输出结果反馈,因此才有了AlphaGo Zero创造的“无师自通”的奇迹。
 
对比其它领域,几乎都比围棋要复杂的多。例如DeepMind期待AlphaGo Zero未来解决的“发现新药”问题。发现新药和下围棋之间有一个非常显著的区别,就是“输赢信号”能不能很快输出:“新药品很多内部的结构需要通过搜索,搜索完以后制成药,再到真正怎么去检验这个药有效,这个闭环代价非常昂贵,非常慢,你很难像下围棋这么简单做出来。”
 
当然,如果找到快速验证新药是否有效的方法,这项技术就能很好地用在新药开发上了。但现阶段看,这几乎是不可能的。
 
这些限制,在普通人看来,实在是平平常常,但对AlphaGo的算法来说,则是致命的限制,让其强大的“自我学习”能力,施展不了。我们也不难推想,AlphaGo Zero在某些小领域内可以做得非常好,但其实并没有“全面碾压人类”的潜力。
 
综上所述,分析人士认为,AlphaGo Zero的工程和算法确实非常厉害。但千万不要对此产生误解,认为人工智能是万能的,所有人工智能都可以无需人类经验从零学习,得出人工智能威胁论。AlphaGo Zero证明了人工智能在快速发展,让我们看到在有些领域可以不用人类知识、人类数据、人类引导就做出顶级的突破。但是,AlphaGo Zero只能在单一简单领域应用,更不具有自主思考、设定目标、创意以及自我意识。即便聪明如AlphaGo Zero,也是要人类给下目标,做好数字优化而已。