《自然》论文详解:AlphaGo 背后的深度神经网络和树搜索

Nature 封面论文:Mastering the game of Go with deep neural networks and tree search(通过深度神经网络和树搜索,学会围棋游戏)

AlphaGo 给围棋带来了新方法,它背后主要的方法是 Value Networks(价值网络)和 Policy Networks(策略网络),其中 Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型通过一种新的方法训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习。这不需要任何前瞻式的 Lookahead Search,神经网络玩围棋游戏的能力,就达到了最先进的蒙特卡洛树搜索算法的级别(这种算法模拟了上千种随机自己和自己下棋的结果)。我们也引入了一种新搜索算法,这种算法将蒙特卡洛模拟和价值、策略网络结合起来。

通过将 Value Networks、Policy Networks 与树搜索结合起来,AlphaGo 达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI 也可以达到人类级别的表现!

DeepMind 团队对围棋项目的介绍(新智元翻译)


论文简介

所有完全信息(perfect information)博弈都有一个最优值函数(optimal value function),它决定了在所有参与博弈的玩家都做出了完美表现的情况下,博弈的结果是什么:无论你在棋盘的哪个位置落子(或者说是状态s)。这些博弈游戏是可能通过在含有大约个可能行动序列(其中b是博弈的宽度,也就是在每个位置能够移动的步数,而d是博弈的深度)的搜索树(search tree)上反复计算最优值函数来解决的。在象棋()和围棋之类()的大型博弈游戏中,穷尽地搜索是不合适的,但是有效搜索空间是可以通过2种普遍规则得到降低的。首先,搜索的深度可能通过位置估计(position evaluation)来降低:在状态s时截取搜索树,将随后的子树部分(subtree)替换为根据状态s来预测结果的近似的值函数。这种方法使程序在象棋、跳棋、翻转棋(Othello)的游戏中表现超越了人类,但人们认为它无法应用于围棋,因为围棋极其复杂。其次,搜索的宽度可能通过从策略概率——一种在位置s时表示出所有可能的行动的概率分布——中抽样行动来降低。比如,蒙特卡洛法通过从策略概率p中为博弈游戏双方抽样长序列的行动来让搜索达到深度的极限、没有任何分支树。将这些模拟结果进行平均,能够提供有效的位置估计,让程序在西洋双陆棋(backgammon)和拼字棋(Scrabble)的游戏中展现出超越人类的表现,在围棋方面也能达到低级业余爱好者水平。

译者注:围棋为何如此复杂?

围棋难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆,同时状态空间大,也没有全局的结构。这两点加起来,迫使目前计算机只能用穷举法并且因此进展缓慢。但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的。这些规律远远不是几条简单公式所能概括,但所需的信息量还是要比状态空间本身的数目要少得多(得多)。一句话,穷举状态并不是最终目标,就算以后超超级计算机能做到这一点,也不能说解决了人工智能。只有找到能学出规律的学习算法,才是解决问题的根本手段。By 田渊栋

蒙特卡洛树搜索(MCTS)使用蒙特卡洛算法的模拟结果来估算一个搜索树中每一个状态(state)的值。随着进行了越来越多的模拟,搜索树会变得越来越庞大,而相关的值也会变得越来越精确。通过选取值更高的子树,用于选择行动的策略概率在搜索的过程中会一直随着时间而有所改进。目前最强大的围棋程序都是基于蒙特卡洛树搜索的,通过配置经训练后用于预测人类棋手行动的策略概率进行增强。这些策略概率用于将搜索范围缩小到一组概率很高的行动、以及在模拟中抽样行动。这种方法已经取得了高级业余爱好者水平的表现。然而,先前的工作仅局限于基于输入特征(input features)的线性组合的粗浅策略概率和值函数。

近期,深度卷积神经网络在视觉领域有很多前所未有的表现:例如,图像分类、脸部识别、玩雅特丽游戏等。他们使用很多层神经元,每个被安排在交叠的区块(Tiles)中来构建越来越抽象和本地化的图片表示。我们在围棋游戏中采用了一个相似的构架。我们用19X19的图像来传递棋盘位置,使用卷积层来构建位置的表示。我们使用这些神经网络来减少搜索树的有效深度和宽度(breadth):使用一个Value Networks(价值网络)来估算位置,使用Policy Network(策略网络)来对动作进行抽样。

我们使用由若干机器学习阶段(Stages)构成的流水线来训练神经网络(例1)。我们直接使用人类专家的步法来训练监督学习策略网络pσ。这为快速而有效的学习更新(Learning Updates)提供了高质量的梯度和即时反馈。与之前的工作相似,我们也训练了一个快速策略网络pπ,它可以快速地在模拟中对动作进行抽样。接下来,我们训练了强化学习(RL)策略网络pρ,这个网络通过优化“自己对抗自己”的最终结果来改善监督学习策略网络。这将策略调整到赢棋这一正确目标上,而非让预测精确率最大。最后,我们训练了价值网络vθ,它可以预测出RL策略网络通过模拟“自己对抗自己”而得出的策略中哪种是最佳策略。我们的程序AlphaGo高效地结合将策略和价值网络与蒙特卡洛树搜索结合起来。

实现过程 

为了评估AlphaGo,我们在诸多AlphaGo变体和一些其他围棋程序中进行了内部比赛,这其中包括了最强大的商业程序Crazy Stone和Zen,还有最大的开源程序Pachi和Fuego。所有这些程序都是基于高性能MCTS算法。此外,比赛也包含了开源程序GnuGo,这个程序使用了在MCTS之前出现的最先进的方法。规定所有程序每次落子有5秒的计算时间。

比赛的结果表明单机AlphaGo领先任何之前的围棋程序很多段位,取得了495局比赛中494次胜利的成绩(99.8%)。为了给AlphaGo提出更大的挑战,我们也让AlphaGo让四子(让子,即对手自由落子)来比赛;AlphaGo让子竞赛中对阵Crazy Stone、Zen和Pachi时分别取得了77%、86%和99%的成绩。分布式AlphaGo明显更强大,对阵单机AlphaGo取得77%的成绩,完胜其他程序。

详解:AlphaGo 如何在对弈中选择步法

黑色棋子代表AlphaGo正处于下棋状态,对于下面的每一个统计,橙色圆圈代表的是最大值所处的位置。

a.用价值网络(value network)估测根节点s处的所有子节点s’,展示了几个最大的获胜概率估计值。

b.计算树中从根节点s处伸出来的边(其中每条边用(s,a)来表示)的动作值Q(s,a),仅当(λ=0)时,取价值网络估值的平均值。

c.计算了根位置处伸出的边的动作值Q(s,a),仅当(λ=1)时,取模拟估计值的平均值。

d.直接从SL策略网络中得出的落子概率,(如果这个概率高于0.1%)则结果以百分比形式表示出来。

e.计算了在模拟过程中,从根节点选出的某个动作的频率百分比。

f.表示来自于AlphaGo搜索树的主要变异性(principal variation)(最大访问数路径),移动路径以序号形式呈现出来。

红色圆圈表示AlphaGo选择的步法;白方格表示樊麾作出的回应;樊麾赛后评论说:他特别欣赏AlphaGo预测的(标记为1)的步法。

AlphaGo与樊麾的比赛结果

以编号形式展示了AlphaGo和樊麾进行围棋比赛时各自的落子顺序。棋盘下方成对放置的棋子表示了相同交叉点处的重复落子。每对中的第一个棋子上的数字表示了何时发生重复落子,而落子位置由第二个棋子上的数字决定。(见补充信息 Supplementary Information)

第一盘:AlphaGo 以 2 目半获胜

第二盘:AlphaGo 中盘胜

第三盘:AlphaGo 中盘胜

第四盘:AlphaGo 中盘胜

第五盘:AlphaGo 中盘胜

最终,我们评估了分布式AlphaGo与樊麾的比赛,他是专业2段位选手,2013、14和15年欧洲围棋赛冠军。在2015年10月5日到9日,AlphaGo和樊麾正式比赛了5局。AlphaGo全部获胜。这是第一次一个电脑围棋程序,在没有让子、全尺寸(19X19)的情况下击败人类专业选手,这一成果过去认为至少需要 10 年才能实现。

讨论

在我们的工作中,我们开发了围棋程序,它将深度神经网络和树搜索结合起来。这个程序可以达到最强的人类选手的表现,因此完成了一个人工智能“伟大挑战”。我们也为围棋首创了高效步法选择和位置评估函数,这是通过具有创新性地将监督和强化学习两种方法结合起来从而训练深度神经网络。我们也引入了一个新搜索算法,这一算法成功的整合了神经网络评估和蒙特卡洛树模拟算法。我们的程序AlphaGo在高性能树搜索引擎中从一定规模上将这些成分整合在一起。

在和樊麾的比赛中,AlphaGo在评估位置方面要比深蓝与Kasparov4比赛时所评估的位置少几千倍,这是由于我们使用了策略网络更智能地选择那些位置,还使用了价值网络更精确地评估它们,而价值网络更接近人类的下棋方式。另外,深蓝依靠手工设计评估方程,而AlphaGo的神经网络是直接通过纯比赛数据训练,也使用了通用监督和强化学习方法。

围棋代表了很多人工智能所面临的困难:具有挑战性的决策制定任务、难以破解的查找空间问题和优化解决方案如此复杂以至于用一个策略或价值函数几乎无法直接得出。之前在电脑围棋方面的主要突破是引入MCTS,这导致了很多其他领域的相应进步:例如,通用博弈,经典的计划问题,计划只有部分可观测问题、日程安排问题和约束满足问题。通过将策略和价值网络与树搜索结合起来,AlphaGo终于达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI也可以达到人类级别的表现。

文/新智元(微信:AI_era)编译,来源:Nature

参与:王嘉俊 王婉婷 张巨岩 李宏菲 林坤  特别感谢:陈雷

·氧分子网(http://www.yangfenzi.com)延伸阅读:

您可能还喜欢…

4 Responses

  1. 肉很多说道:

    在一众擦边媒体的强行轰炸之下,亚洲这片土地上的人们对AlphaGo的表现尤为关注,韩国大选都被这股大潮掩盖了。

    目前整个围棋对决五局已经比完,AlphaGo虽然没有全胜,但对人类的冲击依旧很大。

    韩国棋院官方甚至给AlphaGo颁发了一张围棋九段证书。

    “许多年以后,面对机器人行刑队,鱼唇的人类是否会想起为‘AI国父’阿尔法狗获胜欢呼的那一天?”——段子手们也没闲着。

    随着战局的落幕,AlphaGo背后DeepMind团队的那群研发人员也逐渐被扒了出来。

    浙江台州高考理科状元、围棋之乡天台出生的天才、一直想海归报效祖国的陈御天(Yutian)。

    土生土长的台湾计算机围棋算法大牛、业余六段围棋高手、被誉为台湾之光的黄士杰(Aja Huang)。

    就连DeepMind的带队老大Demis Hassabis,因为有部分华人血统,也被中国媒体和网友强行“儿子智商随妈”。

    其它甚至还有讨论AlphaGo胜利的荣耀到底归属哪个国家的。

    现场比赛AlphaGo一方标注的是英国国旗,DeepMind也是英国团队,但谷歌又是美国公司。

    而围棋则是诞生于中国的古老脑力游戏,DeepMind团队中又有这么多华人,于是不少网友表示“AlphaGo赢了是我们华人的骄傲”。

    虽然听起来蛮有道理的样子,但这种极致的民粹主义还真是让人倒吸一口凉气。

    隔壁全球闻名的“宇宙国”也没这么夸张吧,更何况参赛的还是他们的棋手,比赛也是在他们的首都比的,这样强行贴金真的好吗?

    当然,贴金蹭脸行为纵然很Low,但AlphaGo背后那些耕耘多年的人工智能专家确实非常值得尊敬。

    其实早在AlphaGo专攻围棋之前,它就尝试过不少电子游戏,这些专家当中还有不少是游戏圈的大神。

    在DeepMind团队1月份发表于《自然》杂志有关AlphaGo的学术论文当中,作者多达20多人,其中排在第一的是David Silver,排在最末的则是Demis Hassabis。

    David Silver和Demis Hassabis是一对大学好基友,AlphaGo大战李世石第一天的发布会上,出席致辞的也是这两位好基友。

    David Silver专攻蒙特卡洛树搜索 (MCTS)、计算机围棋和强化学习(RL)等领域,目前在伦敦大学学院(UCL)教授强化学习相关课程。

    早在博士后研究阶段David Silver就曾尝试过用强化学习和蒙特卡罗树搜索玩《文明2》,当时他为此还专门发表了一篇论文。

    后来在Demis Hassabis教会他围棋之后,他决定将目标转向攻克这个人类最难棋类运动,而它之前玩《文明2》的那篇论文很可能就是AlphaGo的起点。

    DeepMind创始人Demis Hassabis同样是一位游戏圈声名显赫的大神级人物。

    Demis Hassabis最早成名是因为国际象棋,曾获得世界国际象棋比赛14岁以下少年组第二名,被誉为国际象棋神童。

    在学校他也经常以很高的成绩跳级毕业,年仅17岁便加入了牛蛙工作室。

    对,就是那个后来被EA收购并关闭的牛蛙工作室。

    在牛蛙工作室他认识了Peter Molyneux,就是那位被英国女王授予不列颠帝国勋章(Order of the British Empire)“官员勋章”(Officer of Order)的知名游戏制作人。

    Demis Hassabis担纲制作的第一款游戏是《主题公园》(Theme Park),这款1994年发售的游戏卖了几百万份,并获得了当年的金摇杆奖。

    《主题公园》是一款动态拟真的模拟经营游戏,很多地方都透露着Demis Hassabis超前的游戏AI设计理念,比如在游戏中将薯片加更多的盐,人们便会消耗更多的饮料,同时卖饮料的店排队也会更长。

    《主题公园》成功后,Demis Hassabis便离开牛蛙工作室,进入剑桥大学学习计算机科学,并获得双一等荣誉学位。

    而这时候牛蛙工作室已经被EA收购,Peter Molyneux也另外开创了一个全新的工作室Lionhead。

    嗯,也就是那个最近才被微软关闭的“《神鬼寓言》系列”开发商Lionhead。

    Demis Hassabis加入Lionhead工作室后参与制作《黑与白》(Black & White),一款扮演上帝经营孤岛上各个部落的模拟游戏,他在整个团队中担纲AI程序员。

    多年以后不少Reddit网友表示,这款游戏才是Lionhead工作室最该出续作的,而不是什么《神鬼寓言:传奇》。

    也许是一山难容二虎,一年之后Demis Hassabis便离开了Peter Molyneux领导的Lionhead工作室,自己创立了Elixir工作室。

    Elixir工作室为维旺迪和微软等大型发行商制作了《共和国:革命》(Republic: The Revolutionand)、《邪恶天才》(Evil Genius)等游戏,获得了诸多好评。

    但是到2005年,Demis Hassabis还是毅然决然关闭了Elixir工作室。

    据他自己的话说,他觉得对游戏行业有点心灰意冷,一方面模拟类游戏逐渐成为小众冷门类型,另一方面开发商们越来越关注跟游戏性无关的画面特效和电影化叙事,这对游戏行业来说是一种彻彻底底的倒退。

    随后Demis Hassabis一头扎进了跟游戏毫无关联的认知神经科学学术研究当中,在伦敦大学学院(UCL)学习期间,他发表了数篇有关记忆和失忆的论文,获得了不俗的影响力。

    2007年,他的研究被《科学》杂志评为排名前10位的科学突破,尽管他的研究成果在该领域专家中还有不少的争议。

    2010年,他正式创立DeepMind,将深度神经网络(DNN) 和蒙特卡洛树搜索 (MCTS) 、强化学习 (RL)3大块技术结合起来,创立了AlphaGo的雏形。

    不过有趣的是,经过各种反转,Demis Hassabis又算是回归了游戏领域——DeepMind团队最初用来测试AI的都是一些老游戏。

    除了David Silver用AI玩过《文明2》之外,这个当时还被称为Deep Q-learning的AI还经过自主学习掌握了49款雅达利公司的经典街机游戏。

    其中有29款游戏,比如《Pinball》、《Boxing》、《Breakout》等,它的表现远超专家级人类的水平,但是在《Pac-man》、《Private Eye》、《Montezuma’s revenge》中AI的表现欠佳。

    游戏开始时,研发人员仅仅只给AI一些简单的信息,比如屏幕显示出来的画面、游戏最后的得分越高越好这类。

    然后AI便开始自我尝试,从一开始无限送死,到最后慢慢掌握游戏的规律,并取得高分。

    比如这个打砖块的演示,从一开始一个回合一个回合慢慢敲。

    到最后还会通过策略调整角度一次消除多个砖块。

    这是一个连续探索和学习的过程,是彻彻底底的人工智能,而非现今各种游戏脚本伪装成的虚拟AI。

    看完之后,不少人惊叹——这AI成精了!

    2014年,经过“钢铁侠”Elon Musk的引荐,谷歌创始人Larry Page发现了这块宝藏,经过与Facebook CEO Mark Zuckerberg的一番竞争之后,谷歌花4亿英镑收购了DeepMind。

    在这之前,“钢铁侠”Elon Musk曾发表过无数次关于人工智能对人类有威胁的言论,但看到DeepMind的潜力之后,他还是入坑了,他是DeepMind最早的投资人之一。

    2015年2月,DeepMind将这项“人工智能自我学习打街机游戏”的研究发表到了《自然》杂志,不过当时并没有叫AlphaGo这个名字。

    仅仅一年之后,DeepMind团队再一次登上《自然》杂志封面,这时候进化成精的AlphaGo也已经从简单的“街机游戏小霸王”升级至世界级围棋大师。

    AlphaGo大战李世石这一周的热炒之后,作为DeepMind团队领袖的Demis Hassabis也被媒体们扒出来吹了一波。

    这位国际象棋圈的天才神童、游戏界的先驱和大神、人工智能领域的扛鼎专家,确实代表着人类最极客的一个方面。

    这样看来,AlphaGo战胜人类其实并不可怕,因为AlphaGo背后的这群人类“爸爸”,才是最具智慧的存在。

    当然,作为曾经游戏界的一位大神,Demis Hassabis没有继续留在这个领域为我们奉献更多好玩的游戏,也算是一种别样的遗憾。

    如果你去看看暴雪已经流产了的“泰坦”项目,你便会发现它跟这位天才大神的不少理念都不谋而合,一个动态、智能、拟真、有活力、将模拟经营和MMO结合为一体的游戏,才真正配的上“XX世界”这个title吧。

  2. 中国思想者说道:

    在我还从事人工智能相关研究的时候,还只有机器学习。当深度学习刚刚出现的时候,我还以为只是神经网络叠加而来的又一个名词噱头。现在感觉自己迅速落伍,深度学习确实是人工智能领域的一个极大的突破。之前在使用神经网络和机器学习对付一些“前”人工智能问题的时候,还需要绞尽脑汁自己去寻找好的feature,现在看来确实已经成为上个时代的人工智能了。

    阿法狗很成功,把小李子虐残了,但是我认为阿法狗只是工程上的一个突破,在深度学习的理论与工程上找到了解决围棋问题很好的契合点,验证了深度学习的强大。而深度学习想要在金融市场交易中获得同样的成功,还有非常长远的路要走。

    其一,围棋是一个封闭系统,是一个完全信息系统,无论是现在的深度学习还是以前的机器学习,都依赖于庞大的样本训练,训练完成之后的样本外输入,其本质和可能性要与训练样本相同。例如围棋只能你一步我一步在固定区域内下,所有的规则都是实现就已经约定好的。而金融市场并不是完全信息系统,这一点在很多人的回答中也都提到。也就是很多新的情况,是系统不可预估的,并不是在历史中存在的,在这种情况下,之前的训练会失效。做过自动程序化交易的人都知道,如果自己不清楚策略为什么赚钱,不清楚背后的理论是什么,是不敢放任其自动交易的。就算深度学习系统经过了长期验证,也不能保证某些黑天鹅来临的时候,它能正确的应付,这个几乎是无法证明的。或许赚了几年但是几分钟就全亏回去了。比如今天第四场小李子终于赢了一局。在下棋中出现bug输一局无所谓,在交易中出低级bug可能就再也无力翻身了。

    其二,阿法狗的paper中提到,人类现有的棋谱在训练中只占到了很小的一部分。他们发现如果只用人类现有的棋谱,阿法狗很快会陷入过度优化。因此对于阿法狗的训练,自己和自己下棋才是训练集的大部分。这也是为什么在盘中总是出现一些人类无法理解的下发,认为是阿法狗的失误。其实阿法狗算得很清楚,因为人类在于围棋的各种可能性走法其实还只探索了一部分。对应到金融市场,所有的行情、新闻、财报等等,对于这样一个复杂系统来说,数据量远远不够。但是系统不可能像围棋那样自己模拟出行情、新闻和财报等信息。因为围棋的走法有规矩,而行情并不是随机生成的数据序列。因此想要完全使用深度学习预测明天大盘的涨跌是不可能的,因为没有足够的训练样本。

    深度学习可能会在无人车,自主机器人领域带给人类最大的福利,因为这些训练都是可以完全充分的。而在金融市场,要把目前的量化交易和人工智能区分开对待。人工智能或许可以在一些特定的金融领域有所作为,比如对逐笔交易,挂单信息的大量数据进行建模和分析,预测短期的一个概率。随着工程能力,计算能力等不断发展,在未来完全使用深度学习进行金融交易也未尝不可。

    无论是炒股还是下围棋,本质都是从过去的事实中提炼出规则并应用于未来,如果围棋可以学习炒股也就可以学习。
    列举一下机器人炒股的好处,不累,不睡觉,迅速做出反应,没有情绪波动,一个成功的交易员本来就是变的越来越机械的执行规则,机器在这一点上已经达到了顶点。
    随着市场的扩张,交易时间延长,人工交易的性价比会低到不可接受。比如当内盘期货开始夜盘交易后,一般的散户交易者已经不可能靠人工交易参与市场了,人不可能不睡觉,偶尔可以,长期是不可行的。带来的结果就是散户基金化,把钱给某个基金团队代炒,散户机构化,上自动化交易,人停机不停。机器人交易不只是一种趋势,而是一种必然。
    看好深度学习在投机市场上的应用,最强大的AI能通吃市场的那一天也就是市场死亡的那一天,不会在有投机的存在,大家都能老实工作了!

    AlphaGo其数据本身就是算法。那我们下面就讨论以神经网络的学习算法形成交易策略的可行性。
    AlphaGo对于围棋与股票市场的差异主要体现四方面:

    一、信息生成机制不同,股票市场中的动因条件是多层次且混沌的。围棋的相互决定性只对于对手,而股票的相互决定性对于所有市场参与对象

    二、对手与对手反馈机制不同,围棋是回合制完全信息非合作动态博弈,而股票市场是一对多完全信息非合作静态博弈

    三、优劣度评估与局面评估函数的性质类似但方向不同,股票的最终评估对象是收益,而围棋评估是胜率。且股票的局面有两个层次,一是个股筛选,二是持仓后策略。两者组合,就是在市场中不断交换个股的最高胜率条件的持仓。如果将优劣评估设成以增辐一定偏离值内的符合度,亦或者是动态生成局面下一时序可能局面收益预测的权重,这两者就是两个独立的优劣评估系统。

    四、数据原型不同,围棋只需处理对手数据和局面数据。股票有成交sick,有价格、成交方向数据,极难产生关联条件。

    有空,文末会聊一聊现行有效的”分型“理论过滤混沌信息建立有效条件的应用性。

    而对于股票市场时序对应行为(非回合制)的机制:
    1.历史参与者V行为构成市场信息a
    2.参与者ABuy观测市场信息产生交易动机,与参与者ASell发生交易,或ABuy产生
    3.A交易影响市场价格,构成市场信息b,使观测者B产生交易动机
    4.观测者BBuy与BSell发生交易,构成市场信息c

    如果说V行为导致了A行为,连续产生了C行为。而V、A、C行为本身存在相互决定性的影响关联就是一个由人类心理动态构成的混沌系统,是取决于完全不同的动机机制和策略机制而产生的不同频率的固定方向行为(Buy与Sell)。如果以行为发生逻辑提取条件,那么到了不同的数据环境,混沌系统又不同了,也就失灵了。

    因为决定交易的,市场信息只是诱因,动因是对于市场信息的动机机制而产生的策略。这个混沌系统下,有效的信息极其有限。大量的数据都是垃圾数据。

    股票市场的优劣水平计算,是以收益为结果导向,而这种过程是受大量无法产生条件关联的中间因素干扰的。
    从数据原型来讲,如果不以对手行为为时序单位,按历史市场信息来分析:
    我曾经做过一个统计模型,一个4日的K线的开盘价、收盘价、最高价、最低价的增辐(Increase.)为参照数组,以5%为允许偏离值。1990年至今3000余支股票的数据,仅检测到1个匹配数组。后放低标准,仅检测开盘价,也检测到不过6个匹配数组。

    AlphaGo本身的数据原型是回合制并只有一个反馈条件的,能够形成数据关联特征的数据以数百万计。

    而股票市场的反馈条件有多少个呢?不知道,这是与市场参与者动机的发生密度决定交易频率而形成的,这个反馈条件也是一个指数级的数字。

    任何模型、策略、逻辑、算法的基础,基本逻辑都是构建在条件反射上的,股票市场的复杂度以及无序性无法有效的提取关联数组条件(这也是为什么会有原理不明但却有效的分型理论以及“缠论”的成因):
    AlphaGo的条件可能足够多,但是是明确且相互对应的。
    而股票市场的条件反馈如何构建?股票市场的复杂性已经证明了不能用明确条件来统计提取有效数据拟订对数据策略。
    而如果用一定允许偏离值来抓取数据特征关联条件形成策略,上面的举例已经证明这其中的偏差超出了有效的程度。并且,股票市场上,相同的数组,产生的不同结果也是极其正常的,时序结果也是不同的。

    CPU,GPU的单核运算速度远远超过脑神经元,但是大脑神经元的连接方式远远超过现有的人工智能。这就决定了计算机人工智能的计算能力远超过人类,但是人类的思考复杂问题会远远优于计算机。

    举个例子,如果当一些指数,比如macd(个人不是很喜欢这个指数,纯举例)走出一种变化,计算机可以通过大量数据支持,总结出这个走势后期上涨几率50%,下跌几率40%,然后,就可以在大量交易的情况下,通过这10%的概率来获利。

    而人类擅长的是查理芒格所推荐的多元思维模型。就是不管波动,只关心股票本身,并且通过经济周期,货币周期,消费心理,公司高管信息,公司的核心竞争力,近期资金情况,等一系列的信息作为辅助来判断股票是否值得购买。

    所以,我个人不推荐作为人类的散户们做短线,或者通过预测股价走势来赚钱。除非你的数学功底不错,并且还有一个性能不错的计算机帮忙。

    当然,巴菲特不推荐所有人通过预测波动赚钱。

    其是很担心DEEPMIND这种团队进行交易市场统计套利的转型,我在实时看了第二盘阿尔法狗执黑37肩冲以后就深深的知道,李世石跪了,因为这步棋完全就是大格局大布局的定势一步(虽然很多声音对这步棋的理解是事后复盘才说是好手,如果从外行的角度说,阿尔法狗在两局中展现的看起来是夯实连连看流,但是请特别注意,阿尔法狗的落子组合完全是均衡分布,子与子间都是235间隔的合理分布,大布局中,都是广撒网,四处搭,这是降龙十八掌啊,我们看起来人家是土包子蛤蟆功。

    说回到如果阿尔法狗的思路做量化行不行,答案是非常行,因为以价格高低剪刀差为交易唯一目标的获利方式就跟围棋的获胜原理是一样的,只要有盈利,交易形成利润差额,阿尔法狗这种自我学习系统就能不断的数据化训练与决策,统计套利有各种各样的空间与你卖我买的方式,锁定盈利价差,进行多市场多产品数据对比猎取,判定相对风险与波动下的风险收益,自我学习的结果就是 数据分析-决策判断-交易执行-利润获取,周而复始,我很恐惧 我很害怕,没有壁垒保护的话,未来的金融市场会被这种深度学习的智能系统彻底搞乱。

    市场是参与全体的预期的汇总
    无论是量化交易还是传统交易,都是构成市场总当量的一份子
    没有谁可以决定市场的方向
    作为量化交易在算法和交易策略,反馈速度上更具备优势
    但缺乏对市场的感受和触摸
    市场是有生命的,这是量化交易永远也无法企及的高度
    或者说在很久远的时间段。

    人机大战前两盘结束 总比分1:1 这些年,自己都在学巴塞罗那的TIKITAKA的打发。跟电脑+自己AI打了四年。一共有5000场左右,但是自从自己开发出油炸丸子后,计算机学习进步非常明显。现在计算机的踢法像巴西,没错就是巴西。而我像tiki-taka。这两局AI表现,本人已经拿出全部实力,我的等级分如果是2900,深度学习四年AI大约在2850-2950.
    一、护球已经是顶尖职业选手,磁铁防守对它基本失效。 二、机会把握能力基本成神,可以用最快的办法打出最好的射门。已经超越人类。(第二盘)
    三、 AI创新学习了一种新型无惯性过人并且连续通过梯度回归算法连续使用,第二盘人机大战本人吃尽苦头。本人两次被它连续过掉三人(含守门员)(第二盘)
    四、 它已经形成了自己的风格:有点像巴西队。计算机目前认为巴西队的风格好。
    五、 终于看见计算机果断选择强行内切射门了!(第二盘首次出现)
    六、 AI控制的AC米兰后防线,呈现非常好的三角站位,首次看见这种站位的效果。每次强突的时候,感觉就是一道墙壁。
    七、机会远多于自己,战术来讲,AI有点像穆里尼奥在指挥。第一盘我用过伊涅斯塔打边后卫和边锋的调整,4-3-3 一度变回4-5-1 后又变回 4-3-3。但是效果不明显,自己在战术方面显得不如AI。

  3. 小世儿说道:

    ■ 深度学习,和大多数人想象的不一样

    在电影《超能陆战队》中有一个实验室的场景,小宏、泰迪、弗雷德组装智能盔甲去揭穿“面具人”的阴谋。在影片中,大家分工明确,谁去画图纸,谁去构筑材料,谁去做测试,一切按计划进行,井井有条。但电影毕竟是电影,真实世界中的人工智能并不是这样。

    △电影“超能陆战队”里的实验室

    AlphaGo采用的算法,叫做人工神经网络算法(后文简称“神经网络”)。它的设计灵感源于大脑中的神经网络,每一个神经元做简单计算,而连接起来计算力就非常强大了。一个神经网络可以有一层(只算一次),也可以有好几层(一层算完下一层接着算)。超过一层的神经网络,就叫做“深度学习”。研究者往往是先搭建一个初始化的神经网络,然后慢慢训练,训着训着它就会做精确计算了。

    神经网络有一个奇妙的特点,那就是人们不需要知道每一个神经元具体负责什么,只要训练得当,结果自然精确。但神经网络的神奇之处,恰恰也是它的困难之处。因为它是个“黑箱子”,没人知道里面到底是怎么运作的,所以调试起来特别难。

    一个人工神经网络的构建实际并不简单,它往往需要顶尖的人才和漫长的实验过程。而一个成功神经网络的构建,也面临着种种难题:

    首先,要考虑构建什么样的模型。一个好的模型,计算起来快,训练时间短,结果精度高。而怎样选择这个模型、怎样处理输入的数据、怎样训练,里面学问就大了。一大堆术语会让新人们望而却步:卷积神经网络、递归神经网络、PCA whitening、ZCA whitening、Broyden–Fletcher–Goldfarb–Shanno algorithm……要全部搞明白这些,不仅要勤翻论文,还需要亲自实践。

    其次,就是漫长的训练时间。如果要做深度学习,训练一个神经网络短则几小时,多则好几天。如果要快一些呢?要么换成GPU做平行计算,要么就得乖乖地多买几个服务器吧!

    最后,就是精度的提高。如果现在训练出的模型不准确,问题出在哪儿呢?有时候是因为模型不好,有时候是因为参数不合适,有时候可能仅仅是因为训练数据不够。到底为什么,谁都不知道,咱们只能换个方法重头来。

    △一个成功神经网络的构建非常复杂

    如果要做一个比喻的话,训练一个人工神经网络不像是搭建机器人,而是像一个道士炼丹。一个老道士坐在丹炉前,琢磨是用文火还是武火?要不要多加一些丹砂?需要炼多少年?至于这炼丹炉子里到底是怎么回事儿,这个老道也是一头雾水。结果经常就是,炼丹一炼几十年,什么成果也没有。但如果方法对,炼出的丹药就会药到病除,百试不爽。

    正因为上面所说的种种困难,构建神经网络也像道士炼丹一样,不仅看重数学素养,也看重经验直觉。一个老教授看到一个测试结果,会凭借他多年的经验判断可能是哪个参数有问题,该往哪个方向调。而一个初出茅庐的本科生,往往一点概念也没有,只能随机去改模型、调参数。在人工神经网络的研究中,很多时候竟然要靠直觉。当然,还有长时间的钻研和调试。

    一个成功模型的搭建背后往往是多少研究者的长期付出。一个“人工大脑”的完成,背后是多少个计算机科学家和数学家大脑含辛茹苦的成果。难怪不少人工智能的研究者自嘲说,人工智能其实不那么奇妙,因为“有多少人工,才有多少智能。”

    △现实生活中,开发出阿尔法围棋的谷歌DeepMind团队位于伦敦的办公室

    ■ 深度学习的软肋

    深度学习在很多领域颇有成果,但不得不承认,它存在不少问题。

    其中一个比较著名的,叫做“过拟合”。如果神经网络层数太多,训练方法不当,它有可能只对训练数据的预测准确,而实际数据一来,它就不灵了。以AlphaGo为例,因为它的训练数据是历代围棋大师的著名棋局,所以它可以很好地模拟大师下棋的套路。但假设AlphaGo出现“过拟合”的问题,它可能会被“大师们的套路”所束缚,反而犯一些低级错误,甚至下不过一个刚刚学会围棋的新手。

    《天龙八部》里,逍遥派掌门无崖子创立“珍珑棋局”,难倒了一众高手。结果一个不会下棋的丑和尚(虚竹)却误打误撞破了这个千古棋局。如果AlphaGo出现了“过拟合”的情况,它倒不怕历代大师,反而怕是虚竹这种“自杀一片”的古怪棋法。

    △《天龙八部》中虚竹破“珍珑棋局”的故事一直为人津津乐道

    另一个让人担忧的,就是“盲点”问题。深度学习在图像和语音识别上独树一帜。不仅是人脸、动物、日常用品,连风景名胜都能给识别出来。但深度学习像是武侠小说里的“金钟罩铁布衫”一样,也有一个脆弱的“练门”。2014年,一项由谷歌、Facebook、纽约大学、蒙特利尔大学合作的研究项目中,发现了所有神经网络都有一个奇怪的特性,就是把输入数据做出细微修改之后,这个“人工大脑”就突然认不出来了。

    △论文“神经网络的有趣性质”(Intriguing properties of neural networks)指出的神经网络“盲点”问题

    举个例子,上图的两辆车,左边的是原图,中间的图是左图修改了几个像素点后的结果,基本看不出来有什么区别。右边的图是原图和修改过的图的像素差异(因为差异太小,把像素值都放大了一下)。研究者拿原图(左图)让神经网络去识别,能识别出来是“汽车”。但让它继续识别轻微修改过的图(中间图),神经网络竟然识别不出来了。

    研究者一开始认为,这是一个不错的神经网络测试方法,但慢慢他们就觉得事情没有这么简单。研究者们拿修改过的图(中间图)继续训练神经网络,希望它更准确。这次神经网络可以识别出来新图了,但研究者再改几个像素,发现又识别不出来了。

    会不会只是这两辆车的图片有问题呢?后来研究者们又实验了其他类型的图片:花卉、人脸、水果、人的动作、不同种类的狗等等。结果发现,识别这些的神经网络,都存在这这类“盲点”。而且是破解了旧“盲点”,又出现新“盲点”。他们很担心地提出了一个假说,会不会所有神经网络,都存在“盲点”呢?

    直到今天,学术界还在争论这个假说是否成立。深度神经网络到底有没有普遍的“盲点”,也没有一致的答案。

    最后一个困难就是,对训练数据的要求高。首先数据要连续平滑,比如像照片、语音,都有这个特征。其次数据要丰富多样,如果要识别汽车,就需要各个品牌,各个车型的数据。

    最重要的是,数据量要大。训练数据越多,精度往往越高。往往一个精美的数学模型,抵不过数据的“大力出奇迹”。谷歌、百度、Facebook在深度学习的卓越表现,很大部分要归功于它们之前的大量的数据收集。一个刚刚涉足江湖的小创业公司,根本无法拥有谷歌口袋里的数据。无论是全球各地的图片,还是各国语言的语音,还是有史以来所有在案的文字资料,谷歌、百度这种搜索引擎公司真是信手拈来。难怪机器学习界有一个谚语:“有时候,赢家不是那些算法最好的,而是那些数据最多的”。

    ■ 深度学习的未来:任重而道远

    尽管谷歌的AlphaGo击败了棋王李世乭,深度学习还有很长一段路要走。

    在深度学习的研究早期,多数研究者热衷于数学模型的探索,而忽视了它广泛的应用价值。结果是,机器学习一度置身象牙塔,不少大公司因为看不到实际价值,望而却步。

    然而机器学习的价值之高,远超过大众的想象。它在金融市场可以预测股市、评估风险;它在医疗界可以自动诊断,甚至可以自动排病号、安排病床、减少患者的医疗成本。它在制造业可以做质量管理、流程管理、温度和强度预测。它在人力资源管理中,可以建议人事任命、给雇员排工时、做背景调查。其他在数据科学、科学研究、能源、教育的应用更是多种多样。该给人干的,机器基本都能干。这里面任何一项应用发展成熟,都会给相关行业来个地覆天翻。

    但当谷歌、百度、Facebook开始投入人工智能的研究时,发现搭一个可靠的神经网络很难。一个做机器学习的研究员,不仅需要过硬的算法基础,还需要一定的数学能力(线性代数、概率图论等)。这还只是底线要求。还记得炼丹的比喻吗?深度学习的人才需要丰富的经验和敏锐的直觉,这个要求就又高了一层。最后,在模型构建上要能读懂前人的数学论文,在优化上又需要一定的硬件基础。这样的人才,那真是凤毛麟角。

    △ 杰弗里·辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者。

    这也是为什么谷歌、百度、Facebook在机器学习的部门,基本只招名校博士生。机器学习界的开拓者杰弗里·辛顿(Geoffrey Hinton)在2013年加入谷歌,斯坦福的吴恩达(Andrew Ng)在2014年加入百度。大公司们宁愿高薪聘请一个大师,也不招一群啥也不会的应届毕业生。

    高门槛、高技术的特征,决定了机器学习无法向当年移动应用、大数据那样突然爆炸式发展。有限的人才资源和漫长的培训周期,也让机器学习注定成为巨头们的玩具,而小公司们只能在一旁羡慕嫉妒恨。

    机器学习当然可以改变世界,但可惜的是,我们还得等一段时间。

  4. Anqi说道:

    戴密斯·哈萨比斯(Demis Hassabis)从4岁开始下国际象棋,并很快成为国际象棋神童。到了8岁,棋盘上的成功开始让他思索两个困扰已久的问题:第一,大脑是如何学习完成复杂任务的;第二,电脑是否也能做同样的事。

    现年38岁的哈萨比斯如今是谷歌的员工,他仍在思索这些问题,2014年年初,他将自己名不见经传的伦敦初创公司DeepMind以4亿英镑(约合6.5亿美元)的价格卖给了这家搜索巨头。

    在DeepMind演示了软件可以自学,把经典电玩游戏玩到超人级别后,谷歌马上就抢购了这家公司。而在2014年的温哥华TED大会上,谷歌的执行总裁拉里·佩奇(Larry Page)不仅对哈萨比斯赞不绝口,更将其公司的技术称为“长久以来我见过的最令人兴奋的事件之一”。

    研究人员已经开始寻找DeepMind技术可以改进谷歌某些现有产品的方法,比如搜索引擎。如果该项技术如哈萨比斯所希望,它就会改变计算机在诸多领域中所扮演的角色。

    哈萨比斯表示,DeepMind正在开发一种面对几乎任何问题都能学习的人工智能软件,这可以帮助人们处理一些世界上最为棘手的问题。他说:“人工智能有巨大的潜力,它会让人类大吃一惊。它将真正提高人类的医疗的水平,会加速解决我们在当下进展相对缓慢的事情”

    学术青年

    哈萨比斯对于了解和创造人工智能的追求引领他经历了三个职业生涯:游戏开发者、神经系统科学家和人工智能企业家。在提前两年完成高中学业之后,哈萨比斯便从英国知名游戏设计师彼得·莫利纽克斯(Peter Molyneux)那里得到一份工作。17岁时,哈萨比斯领衔开发了一款在1994年发行的经典模拟游戏《主题主园》。随后,他继续在剑桥大学修得一个计算机科学学位,并于1998年创立了自己颇为成功的游戏公司。

    但是,开发计算机游戏限制了哈萨比斯践行自己的真正的使命。最后他决定,是时候该做一些以人工智能为首要任务的事情了。

    在2005年,哈萨比斯开始在伦敦大学学院进修神经系统科学博士学位,希望通过研究真正的大脑来发现对研究人工智能有用的线索。他选择了海马体做研究对象。海马体主要负责记忆以及空间导向,至今人类对它的认知还很少。哈萨比斯说:“我挑选的这些大脑区域的功能目前尚没有好的运算法则与之对应。”

    作为一个没有学习过高中生物课程的计算机科学家和游戏企业家,哈萨比斯的表现超过了同一院系中的医学博士和心理学家。他说:“我经常开玩笑说我对大脑的唯一认知是,它是在头盖骨里面的。”

    但哈萨比斯很快就取得了成就。2007年,他的一项研究被《科学》杂志评为“年度突破奖(Breakthrough of the Year)”。在这项研究中,他发现5位失忆症患者因为海马体受损而很难想象未来事件。从而证明了大脑中以往被认为只与过去有关的部分对于规划未来也至关重要。

    发现了记忆与预先规划的交错关系后,哈萨比斯进入下一阶段的冒险――他在2011年终止了自己的博士研究,开始创立以“解决智能”为经营理念的DeepMind 科技公司。

    卓越出众

    哈萨比斯与人工智能专家谢恩·莱格(Shane Legg)和连续创业家穆斯塔·法苏莱曼(Mustafa Suleyman)一起创立了DeepMind。公司雇用了机器学习方面的顶尖研究人员,并吸引到一些著名的投资者,包括彼得·泰尔(Peter Thiel)的Founders Fund公司、以及特斯拉和SpaceX的创始人埃隆·马斯克(Elon Musk)。但DeepMind一直保持低调,直到2013年12月,他们在一次业界领先的机器学习研究大会上上演了自己的处子秀。

    在太浩湖畔的哈拉斯赌场酒店里(Harrah’s Casino),DeepMind的研究人员演示的软件令人惊艳。该软件不仅可以玩雅达利的三款经典游戏――乒乓、打砖块和摩托大战,而且比任何人玩得都好。更关键的是,这款软件并没有获得任何有关如何玩游戏的信息,提供给软件的只有控制器、显示器、得分规则,并告诉它尽可能得高分。程序通过不断的试错,最后成了专家级的玩家。

    此前从未有人演示过具备这种能力的软件,可以从零开始学习和掌握如此复杂的任务。事实上,DeepMind利用了一种最近流行的机器学习技术――深度学习,这种技术通过模拟神经元网络来处理数据。但它将深度学习与其他技巧结合,达到了不可思议的智能水平。

    加州大学的人工智能专家斯图亚特·拉塞尔(Stuart Russell)教授表示:“人们有点震惊,因为他们并未料想到我们能在现阶段技术水平下做到这种程度。我想,人们惊呆了吧。”

    DeepMind将深度学习与另一种叫做“强化学习”的技术相结合,强化学习的灵感来自于斯金纳(B.F. Skinner)等动物心理学家研究成果。它可以让软件通过在行动后接收对行动效果的反馈来学习,人类和动物通常都是这么做的。

    人工智能研究人员对于强化学习的研究已有数十年了,但在DeepMind的Atari演示之前,还没有人开发出像这种能够玩游戏的具备复杂学习能力的系统。哈萨比斯表示,其原因之一可能是他借鉴了在海马体上面的发现。那款可以玩雅达利游戏的软件学习过程就部分地牵涉到了不断重放过去经历,以便深度和提取有关将来应该怎么做的最精确提示。

    哈萨比斯说:“我们知道大脑就是这样工作的,人在睡觉的时候,海马体会把一天的记忆重放给大脑皮层。”

    一年之后,拉塞尔和其他研究人员仍对DeepMind使用的技术和其他技巧究竟如何达到如此卓越的效果感到困惑不已,并且还苦苦思索这些技术的其他用途是什么。不过谷歌却没有想那么久,在太浩湖演示一个月之后就宣布收购这家公司。

    谷歌员工

    现在,哈萨比斯领导的部门叫做Google DeepMind,其总部仍然位于伦敦,依旧把“解决智能”问题当作自己的使命宣言。加入谷歌时,公司大概有75人,哈萨比斯还打算再多招50人。其中有约75%的人从事基础研究工作。其余的则组建一支“应用研究队伍”,致力于将DeepMind技术应用于谷歌现有产品。

    DeepMind的技术可用来改善YouTube的视频推荐功能或谷歌的移动语音搜索。哈萨比斯说:“几年之后,你会看到我们的一些技术会嵌入到这类产品当中。”当然,谷歌并非是唯一个相信DeepMind的方案能赚大钱的公司。哈萨比斯也因为其工作有可能令英国经济受益而获得了英国皇家学会的穆拉德奖。

    不过相比之下,在谈到改进现有产品的算法后还将做什么时,哈萨比斯显得更加兴奋。他梦想着创造出“人工智能科学家”,那种可以在实验室提出和测试有关疾病的新假设的软件。另外,哈萨比斯还表示,DeepMind的软件还可以对机器人大有用处,而这正是谷歌最近投入重金的领域。

    他说:“目前没有更多机器人做出更多有用事情的原因之一,是机器人往往需要预编程,所以在非预期情况下或学习新东西时表现糟糕。”

    哈萨比斯在谈论人工智能应用时的不情愿或许是因为害羞,又或者可能是他的研究人员在理解如何推进公司的人工智能软件这件事情上仍处于早期阶段。但是,哈萨比斯认为一种新型强大的人工智能很快就要到来,这是因为他正在谷歌内部设立一个道德委员会,考查高级人工智能的负面影响。

    “这是我们和谷歌其他人都需要意识到的问题。现在我们还在玩雅达利游戏,”他笑道,“但是我们已经迈出第一步了。”

发表评论

邮箱地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>