<section class="135editor" style="position: static; box-sizing: border-box; border: 0px none;" data-id="86063"><section style="margin-right: auto; margin-left: auto; box-sizing: border-box;" class="layout"><section style="border: 30px solid rgb(255, 129, 36); border-image-source: url("./static/post_bg.png"); border-image-slice: 42; padding: 5px; box-sizing: border-box;" class="135brush"><p><span style="font-family: 'Microsoft YaHei', 微软雅黑, Heiti, 黑体, 'Hiragino Sans GB', 冬青黑; font-size: 16px; line-height: 33.6px;"><font color="#ff0000">管理员留:感谢您分享的内容,此内容已被收录至博牛社区首页,</font><b><font color="#00bfff">博币+100 </font></b><font color="#ff0000">鼓励! </font></span><font size="2"><font color="#000000" style="font-family: 'Microsoft YaHei', 微软雅黑, Heiti, 黑体, 'Hiragino Sans GB', 冬青黑; line-height: 33.6px;">扫盲:</font><a href="http://www.boniu365.com/forum.php?mod=viewthread&tid=173" style="line-height: 1.5;"><font color="#00bfff">博币能做什么?</font></a></font></p><p><span style="color: rgb(54, 54, 54); font-family: 'Microsoft YaHei', 微软雅黑, Heiti, 黑体, 'Hiragino Sans GB', 冬青黑; font-size: 16px; line-height: 33.6px;">收录地址:</span><a href="http://www.boniu365.com/portal.php?mod=view&aid=246" style="line-height: 1.5;"><font color="#00bfff">点此阅读</font></a></p></section></section><section style="width: 0px; height: 0px; clear: both; box-sizing: border-box;"></section></section><p><br></p><p></p>
<font color="#ff0000"><b>该文首发博牛社区,如果要转载的话请注明来自于博牛社区即可。</b></font><br><br>阿尔法狗最近活遍微博及朋友圈,李世石被阿尔法狗怪异的棋路杀了个片甲不留。那么,什么是阿尔法狗?<br><br>AlphaGo(阿尔法围棋)是由Google DeepMind开发的人工智能围棋程序。<br>2015年10月,它成为第一个不借助让子,在全尺寸19×19的棋盘上击败职业围棋棋手的电脑围棋程序职位。<br><br>AlphaGo使用蒙特卡洛树搜索,借助值网络与策略网络这两种深度神经网络,通过值网络来评估大量选点,并通过策略网络选择落点。AlphaGo最初通过模仿人类玩家,尝试匹配职业棋手的棋局,一旦它达到了一定的熟练程度,它开始和自己对弈大量棋局,使用强化学习进一步改善它。围棋无法仅通过寻找最佳步来解决;游戏一盘平均有150步,每一步平均有200种可选的下法,意味着有太多需要解决的可能性。<br><br>所以,我们总结一下,阿尔法狗其实就是一只以“值网络(覆盖)”及“策略网络(判断)”为主的“学习狗”。<br><br>机器学习是在这几年开始兴起的一个概念,所谓的机器学习正如阿尔法狗那样通过早期模仿人类的行为,直到后期与自己对战大量棋局不停的改善自己的“策略网络”。举个迷宫的例子,如果你要走出一个迷宫,你就必须要走错大量的错误道路,才能找到正确的出口。而机器比起人类的优势就是及时存储、及时读取,当机器在经过大量错误的道路第一次走完迷宫后,机器迅速会将上一次中的每个正确的走法记录到他的数据库中,如果让他再走第二次,则会0失误。因为当它下一次面临同样的道路或节点时立刻就能判断哪条路是正确的。<br><br>迷宫所有的门或路是“值网络”,究竟走哪条路是“策略网络”。<br><br>我们说回菠菜;其实我们身边就有一个最简单的例子,就是QQ斗地主。<br><br><div align="center">
</div><br><br>QQ斗地主中有一个大家都熟知的功能,便是“托管”。而托管仅仅是一个傻瓜式处理,仅仅解决了“值网络”的问题,并不具备任何的“策略网络”,尽管这款游戏已经存在了数年,但是托管依然傻瓜。而腾讯为何一直不试图改进“托管”功能?除了考虑人类自我娱乐为优先的因素外,更需要考虑的是成本及实施的必要性以及游戏本身的制约性(斗地主归根结底还是一款会受运气影响的游戏)。<br><br>阿尔法狗是用2年时间研发出来的,而大部分投入的时间是在“策略网络”上,而不是“值网络”。而腾讯的“托管”如果加入机器学习(策略网络)的话,经过每年数亿次的模拟博弈,早就能征服人类斗地主界了(但这个是伪结论,因为斗地主也有可能受运气影响)。<br><br>但如果“策略网络”真的那么容易搞的话,腾讯不早就干了吗?所以,机器学习注定是一件高成本且独立的事儿(这就意味着你即使做好了一个游戏机器人,下一个游戏机器人你是得从零开始。)<br>我们再举一些例子,我们童年时在电脑或小霸王上玩的五子棋对战及象棋对战游戏。当你与CPU(电脑)对战时,那便是最早期的机器智能,你记起来了吗?那时候的你,能赢得了他吗?<br><br><b>我们再讨论一下,机器智能在菠菜界有何应用之处?</b><br><br><br><br><b>那么,我们寻找一下,还有什么游戏可以像阿尔法狗那样越来越强大呢?至少这样的游戏必须具备以下特征:</b><br><br>1、像围棋那样大家都是0起手(摒弃起手牌等运气因素)<br>2、智力或策略能决定最终结果(满足策略网络)<br>3、公平<br><br>欢迎博牛社区的所有资深业者们进行开放性的讨论。<br><br> |
阿尔法狗, 菠菜, 智能, 阿尔法, 网络, 李世石, 机器, 策略, 游戏, 斗地主, 围棋, 一个
|