泡泡网笔记本频道 PCPOP首页      /      笔记本     /      新闻    /    正文

总分4:1!人机大战AlphaGo战胜李世石

    3月15日,AlphaGo和李世石的第五局人机围棋大战如期而至。经过5个小时的拉锯战,最终AlphaGo轻松战胜李世石,将总比分最终定格在4:1,人工智能成功挑落围棋优异高手。

4:1!人机大战AlphaGo大比分战胜李世石

第五局最终棋局

第四局比赛:李世石下出神之一手翻盘成功

    3月13日中午12点,AlphaGo和李世石的第四局比赛依然受到全世界关注,大家都希望李世石能至少赢下一场比赛为人类证明。这场比赛李世石也没有让大家失望,盘中抓住AlphaGo的“Bug”,一举奠定优势,并最后获得这局比赛的胜利。双方还剩3月15日12点的最后一场比赛。

总比分4:1 李世石第四局终于战胜AlphaGo

第三局比赛:AlphaGo无情战胜李世石

    3月12日中午12点,AlphaGo和李世石的第三局人机围棋大战如期打响,最终AlphaGo以明显优势再胜李世石,已经提前拿下这场比赛!赛前也许很多人都没有想到,AlphaGo能赢的这么彻底。

总比分3:0!AlphaGo直落三居战胜李世石

第二局比赛:AlphaGo轻松获胜

    3月10日中午12点,AlphaGo和李世石的第二局比赛如期进行,经过4个多小时的拉锯战,AlphaGo获得了最终胜利,将总比分改写为2:0!

总比分2:0 AlphaGo第二局轻松战胜李世石

AlphaGo(黑)和李世石(白)第二盘棋局

    今日比赛结束后,双方还将分别在3月12日(周六)、13日(周日)、15日 (周二)的北京时间中午12点进行剩余3场比赛。本次比赛用时每方2小时,1分钟读秒三次。比赛采用中国规则,黑贴3又3/4子(黑贴7目半)。采用中国规则是因Alpha GO以中国规则为基础开发。

1比0!谷歌人工智能首战拿下围棋世界冠军

第一局比赛:AlphaGo逆转获胜

    3月9日12点,全世界的目光都会聚焦在这一场没有硝烟的大战上。我们迎来了一场人机世纪大战!奖金更是高达100万美元。经过一场耗时许久的拉锯战,谷歌人工智能AlphaGo战胜韩国棋手李世石,获得了今日比赛的胜利。

AlphaGo(白)和李世石(黑)第一盘最终棋局

1比0!谷歌人工智能首战拿下围棋世界冠军

    围棋一直被视为最复杂的电脑游戏之一,因为其步骤的绝对数量比宇宙的原子数还多,这也是人工智能始终未解的挑战。因此,这场人机对弈也获得了全世界的关注

1比0!谷歌人工智能首战拿下围棋世界冠军

    李世石于1983年3月2日生于韩国全罗南道,2006年3月12日与女友金贤珍完婚,同年9月3号女儿李慧琳出世。1995年入段,1998年二段,1999年三段,2003年因获LG杯冠军直接升为六段,2003年4月获得韩国最大棋战KT杯亚军,升为七段,2003年7月获第16届富士通杯冠军后直接升为九段。2006、2007、2008韩国围棋大奖——最优秀棋手大奖(MVP)。棋风特点——李世石属于典型的力战型棋风,善于敏锐地抓住对手的弱处主动出击,以强大的力量击垮对手,他的攻击可以用“稳,准,狠”来形容,经常能在劣势下完成逆转。

1比0!谷歌人工智能首战拿下围棋世界冠军

    阿尔法围棋(AlphaGo)是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发,这个程序利用“价值网络”去计算局面,用“策略网络”去选择下子。2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾;2016年3月挑战世界围棋冠军、职业九段选手李世石。

AlphaGo去年10月曾击败欧洲冠军

    谷歌曾于2014年以4亿欧元收购人工智能公司DeepMind。由DeepMind研发的AlphaGo项目已有两年历史,AlphaGo曾在去年战胜了欧洲围棋冠军樊麾(职业二段)。

    去年10月5日-10月9日,谷歌AlphaGo在比赛中以5:0的比分完胜了欧洲冠军。除了战胜人类外,AlphaGo还与其他的围棋程序对战,获得了500场胜利。

AlphaGo工作原理

    传统的人工智能方法是将所有可能的走法构建成一棵搜索树 ,但这种方法对围棋并不适用。此次谷歌推出的AlphaGo,将高级搜索树与深度神经网络结合在一起。这些神经网络通过12个处理层传递对棋盘的描述,处理层则包含数百万个类似于神经的连接点。

    其中一个神经网络“决策网络”(policy network)负责选择下一步走法,另一个神经网络“值网络”(“value network)则预测比赛胜利方。谷歌方面用人类围棋高手的三千万步围棋走法训练神经网络,与此同时,AlphaGo也自行研究新战略,在它的神经网络 之间运行了数千局围棋,利用反复试验调整连接点,这个流程也称为巩固学习(reinforcement learning)。通过广泛使用Google云平台,完成了大量研究工作。

    AlphaGo在与人的对弈中用了“两个大脑”来解决问题:“决策网络”和“值网络”。通俗来说就是,一个大脑用来决策当前应该如何落子,另一个大脑来预测比赛最终的胜利方。■

1人已赞

关注我们

泡泡网

手机扫码关注