【视角呆萌】阿尔法汪的优良与缺陷？人工智能展望与投资（三）

j8typz · 发表于 2024-8-18 23:04:40

★

前言：2016年3月13日，李世石在连续3场被阿尔法汪血虐后重整旗鼓，在第4场白78步下出“神之一手”，之后阿尔法汪连续懵逼失误连连，最后小李上演王者归来。咱们在系列一中以算法为核心的分析似乎得到印证，本文试图再次从算法的规律出发，分析阿尔法汪的优良与缺陷，让咱们更加安然地面对日益到来的人工智能。

★

“神之一手”与阿尔法汪的懵逼

第四局比赛，阿尔法汪前期下出了一个“囧”字，在开局把握了局势。李世石在大势落后的状况下，下出绝妙的白78手，被古力等解说盛赞为“神之一手”。此后阿尔法汪似乎忽然陷入BUG，初学者水平的无用手连续显现，最后长期计算后落败。

Deep Mind创始人Demis Hassabis在Twitter中暗示阿尔法汪的估值网络（用来评定局面胜率的算法）在79步后显现了严重错误。它始终判断自己处在70%胜率的优良状态，因此以快速处理战斗的方式起始乱下（她们的算法便是赢就OK,不在乎赢多少目），而后在87步后发掘对局势判断错误。李世石在赛后采访亦暗示“我觉得AlphaGo并不完美，肯定有弱点的，感觉大致有两点，他执黑下得并不太好，另一当我下出意外一手，AlphaGo应对可能就会显现失误。当我下出完全无想到的棋，AlphaGo全部程序似乎就会显现问题。”

阿尔法汪的优良与缺陷

部分内容引用陈经（香港科技大学计算机科学硕士，中国科学技术大学科技与战略风云学会科研员）

《设备完胜后分析AlphaGo算法巨大的优良与可能的缺陷》

咱们在系列（一）中讨论过，阿尔法汪是由于4个系统构成，并用通俗易懂的语言给予解释，这儿再回顾一遍：

走棋网络（Policy Network），给定当前局面，预测/采样下一步的走棋。

（给每种下棋的可能步打个分）

快速走子（Fast rollout），目的和1同样，但在适当牺牲走棋质量的要求下，速度要比1快1000倍

（打分不是那样准，然则打的快）

估值网络（Value Network），给定当前局面，估计是白胜还是黑胜。

（按照阿尔法汪看的3000万局棋，判断盘面胜率，讲道理倘若我能看3000万场我亦晓得谁赢啊。。）

蒙特卡罗树搜索（Monte Carlo Tree Search，MCTS)，把以上这三个部分连起来，形成一个完整的系统。

（把有些一看就很笨的着数去掉，而后自己脑补后面下棋各样可能，看结果后再选取。其实咱们亦这般，只是想多了脑袋大呀）

优良一：“细腻”的大局观与持续训练的“打分系统”。咱们人类的大局观一般会经过经验与灵感去思考，而阿尔法汪则会连续在历史经验的基本上去细细考究每条胜率，况且经过一直的“复盘”连续去验证。Zen和CrazyStone等上一代程序，以及facebook田渊栋博士研发的Darkforest都用了MCTS。它们和AlphaGo虽然棋力相差很远，然则行棋思想其实很类似。

这是田渊栋贴的Darkforest对前两局的局势评分。能够看出，这个评分和棋局走向高度一致，完全说得通。况且谷歌亦透露了AlphaGo对局势的评分，虽然始终领先，但第二局亦有接近的时候，能够相互印证。

（技术讨论能够看这儿哦：所说的局势评分，便是程序的MCTS模块，对模拟的恰当局面的胜率估计，都是从当前局面，选取有些分支节点搜索，始终分支下去到某层的“叶子”节点，例如深入20步。这个分支策略，AlphaGo和Darkforest用的是“策略网络”供给的选点，选概率大的先试，又鼓励没试过的走走。到了叶子节点后，就改用一个“快速走子策略”始终下完，不分支了，你一步我一步往下推进，例如再下200步下完数子定出胜负。这个走子策略必要是快速的，谷歌论文中说AlphaGo的快速走子策略比策略网络快1000倍。倘若用策略网络来走子，那就无时间下完了，和李世石对局时的2小时会远远不足用。下完以后，将结果一路返回，作有些标记。最后统计所有恰当的最后局面，看双方胜利的各占多少，就有一个胜率报出来，做为局势的评分。通常到80%这类的胜率就没道理了，必胜了，设备看自己小于20%就中盘认输了。AlphaGo的创新是有价值网络，评定叶子节点时不是只看下完的结果，而是一半一半，亦思虑价值网络直接对叶子节点预测的胜负结果。走子选取就简单了，选获胜概率最大的那个分支。设备亦会随机下，由于有时几个分支胜率同样。）

人类一般运用的是判断阵势，而AI能确定性的在大局上去“扣”细节。MCTS这个框架对棋力最大的道理，便是“大局观”好。无论局部怎样激烈战斗，所有的模拟都永远下完，全盘算子的个数。况且这个大局观从原理上就超过了人类！例如人看到一起阵势，倘若不是基本封闭的实空，到底价值多少评定起来其实是非常粗的。能手点目时经常这般，先把能点的目算清楚，有有些小阵势如无忧角就给个经验目数，而后加上贴目算双方精确目数的差值，这类估算有非常多不精确的原因。

优良二：AlphaGo比其它程序强，乃至比职业能手还强的，是近身搏杀时的小手段。

第三局，李世石29和31是失着。29凑白30双，虽然得到了H17的先手，然则中间的头更为重要。当黑31手飞出后，白32象步飞能够说直接将黑击毙了。在盘面的左上中间焦点处，AlphaGo的快速走子网络会有一个7*7之类的小窗口，对这儿进行穷举同样的搜索，用人手写的代码加上策略网络。32这步妙招可能便是这般找出来的，李世石肯定无算到。然则AlphaGo是不怕麻烦的，就始终对着这儿算，比人更易看到黑三子的可怜结果。这个计算对人有些繁杂，仅有实力很强的才可想到算清楚，对AlphaGo便是小菜。李世石一招不小心就被技术性击倒了。AlphaGo对这种封闭局部的计算，是它超过人类的强项。

汪汪的可能缺陷：开放式接触与劫争还需完善。咱们在系列（一）中说到过，在开放式接触中因为可能性太多，阿尔法汪会采取“剪枝”的办法，倘若战斗会搞到很远去，它亦可能手数太多算不清，露出破绽。而倘若是在开局或中局封闭式局部有了劫争，因为要找劫，等于强制变成为了杀到全盘的开放度最大的开放式局面了。这是AlphaGo不爱好的，它的小窗口搜索就用不上了。而用MCTS搜索，打劫步数太多，就会超过它的叶子节点扩展深度，例如20步就不行了，必要“快速走子”收完了。此时它就胡乱终局了，不晓得怎样处理劫争，模拟质量快速下降。从第四盘来观察,在“神78手”之后，整体局面处在不符合常规且多处争夺。此刻推测阿尔法汪的“剪枝效应”使得对局面的评定显现错误，反而还不如人类的“大局观”，这一点在Demis Hassabis的回复中亦有验证，因此以核心价值观将各算法完美糅合的方式或许还需完善。

写在后面，以及投资

在系列（二）中咱们曾表达过对全部AI发展水平超乎掌控的担心，从Demis Hassabis的反馈来看虽然阿尔法汪已然很优秀，咱们仍然能够从算法本身的特征来分析阿尔法汪的优良与缺陷（类似系列（一），幸运自己不是在完全瞎扯）。

AlphaGo算法里有有些模块代码是必须人去写的，这些代码可不是设备训练出来的。例如蒙特卡洛搜索（MCTS）全部框架的代码，例如快速走子网络的代码。其实有两位论文一起第1作者David Silver和Aja Huang数年累积的贡献。这些人写的代码，就会有内在的缺陷，是代码的缺陷，乃至可能是多种算法合成思想的缺陷，咱们亦不必太过于神话。

针对投资而言，咱们全部系列的观点始终从一而终：AI是将来，但A股技术还太远，商场模式更未明。

（附系列（一）投资评论：

倘若纯从AI技术能力来看，A股企业与Deep Mind尚有必定差距。科大讯飞关联实验室在国内属于领先水平，接近百度、港中文、港科大等实验室。国内AI概念股重点停留在算法类似的语音识别、模式识别、设备视觉等技术，商场模式短期内没法大规模实现，因此各类概念股在这儿就不一一列举。

从这次对抗来看，人工智能的两方面不足值得关注。一方面是前期计算需求大引起不得不舍弃许多模拟，另一方面是仍然没法完全复制人类的思考模型。

计算的需求能够用云的方式处理，而更加多更繁杂的思考模型则是大数据发展的重要步伐，亦是人类的自我探索。在IT的发展路途中，人或许是对自我的模仿，云计算就像咱们把思考拜托在广泛的神经元，而后大数据逐步模拟人脑整合海量信息的方式，更美妙的是IT比人脑更准确更少出错。）

联系人：刘洋、刘高畅 13920105213/刘智、刘畅、孙家旭等

0zhongqian · 发表于 2024-9-10 13:11:07

百度seo优化论坛 http://www.fok120.com/

7wu1wm0 · 发表于 2024-10-8 02:45:24

感谢您的精彩评论，为我带来了新的思考角度。

1fy07h · 发表于 2024-10-17 07:03:59

你的见解真是独到，让我受益匪浅。

b1gc8v · 发表于 2024-11-2 20:44:47

真情实感，其含义为认真了、走心了的意思，是如今的饭圈常用语。

		自动登录	找回密码
密码			立即注册