简单来说,时空大数据(Spatial-temporal big data)就是典型的时间和空间有关联的数据,具体到百度而言,主要是用户的搜索、定位和移动轨迹数据。
由于百度在中国互联网行业所处的位置,专注时空大数据的百度科学家们拥有一定的优势。吴海山所带领的时空数据挖掘小组属于百度大数据实验室,所做课题旨在用大数据技术解决社会、经济等问题,具有强烈的跨界属性和现实意义。对于吴海山及其团队而言,这是他们工作的意义所在。然而,百度近期连遭舆论风暴,即便是与商业无关的科学家也会因此而承受心理压力。
作为百度一员,吴海山在朋友圈吐露的心声令DT君印象深刻:“……谷歌走之后百度一直没能在用户体验上做出出色的成绩,以及大家对网络审查的痛恨。对于后者,我们都无能为力的,但是对于前者,真心希望百度通过这次事件,能用技术、产品和运营,打造出让用户真心佩服的产品和体验来。”他希望,“通过数据和技术,来为推动国家和社会的积极变化贡献我们微薄的力量。”
自互联网诞生以来,大数据的幽灵就一直徘徊在虚拟空间的上空。无数看不见的0和1与来自真实的风沙雨雪共同塑造了我们正在生活的这个世界。如同两个互相纠缠的量子,每个互联网公民的一举一动都会跨越“次元壁障”影响到真实世界,反之亦然——这就是大数据的力量。
然而,近两年来大数据的处境可谓冰火两重天:对于普通人而言,它们好像是一团迷雾般的存在,可能一不小心就会成为信息泄露的“元凶”;在唯利是图的商人眼里,它们就只是打开滚滚财富之门的金钥匙。那么,当我们谈论大数据的时候到底在谈论什么?
也许专注于将理想照进现实的数据科学家们会带来一个与众不同的视角。在他们眼里,大数据所扮演的角色更多是改善人类生活、提升商业价值的工具,甚至可以用来改变世界。其中,聚焦于时间和空间交互作用的时空大数据,是最有潜力成为人类社会智能助理的一个类别。
为此,DeepTech深科技专访了百度大数据实验室(Big Data Lab,BDL)的资深数据科学家吴海山。他的研究方向就是“时空数据挖掘”,目前正在领导自己的小组进行一个名为MobiMetrics的研究项目。通俗来讲,MobiMetrics的意思就是说,就是用移动设备产生的大数据去测量整个社会系统。如果把系统里的每个人都看成是一个粒子,那么他的运动会对整个系统造成什么样的影响?这里蕴含着非常值得深挖的信息。
大数据背后的“中国动力学”
在吴海山看来,时空数据挖掘的工作至关重要,透过它们就可能看到一个更加真实的中国。
这位青年学者有着跨界色彩鲜明的学术背景:2011年,从复旦大学计算机学院获得博士学位,毕业后加入IBM中国研究院,进行商业数据分析与优化的相关研究;2012年底,加入美国普林斯顿大学Couzin Lab任博士后研究员,从事计算机视觉、机器学习和复杂生物系统的交叉学科研究。用他自己的话说,他在加入百度之前的主要研究的是作为复杂系统存在的鱼群、鸟群。
2014年对于吴海山而言是一个具有特别意义的年份。这一年的春运期间,百度推出了“百度迁徙”,这是业界首个以“人群迁徙”为主题的大数据可视化项目。该项目利用百度地图LBS开放平台,对其拥有的位置数据进行计算分析,实现了全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特征。
当时吴海山一看到这个项目就觉得太有意思了。在他看来,地图并不是地图,而是反映中国社会和经济发展的镜子,这正是他要研究的对象,数据只是工具。当今中国经济高速发展,社会急剧变化,大量具有社会研究价值的互联网数据产生。这就意味着,大量中国特色的问题可以通过大数据的研究来解决。
他给DT君展示了一个被称为“百度点亮中国”的项目。在百度地图上,来自用户的定位数据化为一个个亮点散落着,整个中国好像被人为亮点了一般。亮点密集度高的地方就亮一些,密集度低的地方就暗淡一些,而明亮程度也是随着时间的不同而交替变化的。以山东平原为例,春节期间由于很多人返乡,明显要更加明亮一些,反之则会变暗。
“整个中国就像呼吸一样,山川湖泊的形状都出来了,连台湾都亮了!”吴海山由衷地感叹,“在从事这项工作之前,我从没有这么看过中国;当我看到之后,自己也被震撼了。”
假如留在国外的话,是无接触到这些大数据资源的。
同年9月,吴海山加入作为百度研究院三大实验室之一的百度大数据实验室,并组建了时空大数据挖掘研究团队,其成员的专业包括但不限于计算机科学、建筑科学、交通科学、地理科学和经济学。这些跨界研究者共同致力于通过机器学习、人类动力学、计算社会学、复杂网络和计量经济学等交叉学科的融合,开展基于百度移动搜索数据和定位数据研究。
在科学研究层面上,该团队近期开展的研究就是MobiMetrics,即,尝试通过时空大数据量化世界上最为复杂的系统之一——中国。他们先后开展了中国鬼城量化分析与检测、基于外滩踩踏事件分析的人群实时预警系统、中国贫困分析和精准扶贫研究、数据驱动的宏观经济量化和对冲投资决策等。
“虽然我们的研究方向是MobiMetrics,但实际上这个课题的学术名字是China Dynamics(中国动力学)。”吴海山介绍说,“中国就是一个复杂的系统,相比其他国家,它有更加独特的动力学在里面。通过数据去洞察这个大系统背后的机制是非常有意思的。”
不难看出,时空数据挖掘团队所进行的研究均由问题驱动,具有强烈的现实意义和实用价值。这与吴海山的大数据观有直接关系。他认为,抛开问题而谈大数据是没有意义的,“好比一堆沙子,如果不用于实际建筑就仍然只是一堆沙子”。
基于这种理念,该团队最有名的研究大概要数对中国“鬼城”的量化分析与检测了。
“鬼城”之迷
起初,“鬼城”作为一个噱头性极强的概念为人们所熟知。2010年,《时代》杂志刊登一组鄂尔多斯市康巴什地区的照片:那里伫立着大量的崭新民居,还有被设计成文化地标的壮观建筑群,然而却人迹罕至,遂称之为 ghost city。自那之后,中国“鬼城”问题见诸世界各大媒体,甚至有美剧将鄂尔多斯设定成一个隐藏着不能说秘密的地方。这种现象引起了吴海山团队的兴趣。
2015年,《Ghost Cities of China》一书的作者Wade Shepard将“鬼城”定义为:一种能量严重不足的新型发展状态,一个人口和商业机构严重少于其原本所能容纳的体量的地方。从这个角度上说,住宅空置率就成为最简单直接的“鬼城”衡量标准。然而,尽管很多媒体都报道过某些中国城市的住宅类房屋空置的区域(下称“住空区”),但称这些地区为“鬼城”是不准确的,因为这类报道的结论通常以图片呈现或者统计亮灯率的方法得出,因准确率低、无法验证而备受质疑。那么,中国“鬼城”的真实面目是怎样的呢?又如何高效地进行研究呢?
吴海山团队的“利器”就是时空大数据。如今,人们广泛应用的智能移动设备都具有位置感知功能,可产生大量个人轨迹数据,可覆盖极大的时空尺度,拥有超高的分辨率。通过这些时空大数据,研究者可以从微观的角度来观察城市动力学(包括人类的迁移和区域之间的互动),也就是说,可以使用每个个体所产生的数据来感知人们的生活环境。这就“社会感知”概念的由来。
具体到这项研究上,首先要确定数据的性质:一是使用百度定位技术APP的数据,一是相关住宅区域的兴趣点(POI,Point of Interests)数据。定位数据的信息包括用户ID、经纬度、时间点。其中,用户ID全部匿名化,以保证隐私安全。POI数据包括该地点的名称、经纬度和类别(普通住宅还是别墅)。这些高精度的数据所覆盖的时间长度为2014年9月8日至2015年4月22日,每日的数据量可达数十亿;地理范围的广度为全国。这些数据特性可以在一定程度上反映出人口密集度,即该研究的重点。
然后,通过这些数据再去发现并界定住空区。这不光要看当地居住人口,还要计算两个变量:用户的具体住宅地点和住宅区的位置。在这里,吴海山他们采用了一种叫作DBSCAN的算法确认用户具体的住宅地点。同时,利用POI数据区分出房屋类别,把那些一公里内有别墅的住宅区的POI数据剔除出去,因为靠近别墅的人口密度本来就低于普通住宅楼,再加上那些别墅很有可能是刚刚建成的,本来也没什么人居住。
完成了上述两步之后,研究人员将全国划分为数个100m×100m的网格进行人口统计。具体方法是,以每个小区的POI数据点为中心,挑选出5×5个(共25个)网格,再从中挑出人口最多的6个。如果这6个网格里的人口数量之和小于300人,即推断为住空区。同时,吴海山的团队还把和的值设定为大于60,以排除新建住宅区。实际上,这些被发现的住空区就是我们平时所说的“鬼城”。
值得注意的是,这些通过大数据发现的“鬼城”并不能被称为ghost city,更确切的名称应该是ghost town。因为住空区只存在于一个城市的某些区域,并非覆盖整个城市。这项结论是吴海山团队在该研究中的一个十分重要的成果,完全颠覆了人们对“鬼城”的认知。
仅仅找出“鬼城”所在地还不算结束。那么,为什么拥有大量住空区的城市就是“鬼城”?为找到真正的原因,研究人员以山东乳山(旅游景点)和康巴什(城区)作为案例,进一步分析了当地的人口变化、住-工分离现象以及人群迁徙。这一部分揭示出的真相最终成就了该研究的另一个重大成果,即不同原因导致的不同类别“鬼城”现象。
康巴什是一个新城区,之前隶属于鄂尔多斯东胜区。2006年,鄂尔多斯市政府从东胜搬到康巴什。康巴什地区拥有丰富的煤矿资源和其他自然资源,这使得该地经济迅猛发展起来。当它越来越富裕时,政府开始雄心勃勃地建设新城区。大量资本被投入到房地产上,投资需求大大增加,远高于居住需求。因此,那里虽然一座座高楼拔地而起,却鲜有人居住。而乳山则是一个旅游城市,拥有长达21公里风景秀丽的海岸线,当地人名之为“银滩”。因此该地区的大部分房地产是季节性住宅,人们购买是为了度假。
在比较了这两类有同样巨大的住空区、成因却完全不同的两个城市的时空大数据之后,研究人员发现了一些有趣的现象。例如,康巴什的人口变化周期以周为单位,而乳山不是;当康巴什的人口下降时,乳山的人口却在增加。我们可以理解为,这两个城市的功能不同,康巴什主要是工作地点,而乳山则主要是度假地点。
此外,这些数据还凸显了“鬼城”所在地住-工分离的现实。例如,乳山银滩的工作场所明显少于市中心,相应地,居住人口也少于市中心。这也说明,一个新建的城市,尽管漂亮整洁,但并不能天然地吸引人们迁入,因为基础设施和工作机会要比建筑本身来得更加重要,那些才是留住居民的关键。正如Wade Shepard所说,建造一个新城市容易,但要让它真正运转起来则需要长久的努力。
最终,研究人员选出了20个拥有大量住空区的城市,民众可前往以下网址查看:http://bdl.baidu.com/ghostcity/。看得出,中国的“鬼城”大多分布于东部的二三线城市,具体来看,又基本都分布在城市的边缘地带或者新建城区。例如著名的鄂尔多斯“鬼城”就是一个新建城区——康巴什新区。还有天津滨海新区、郑州郑东新区、沈阳全运村等。这一类“鬼城”都是由于城市规划不合理或者过于超前造成的,还有一类“鬼城”位于旅游景区的城市,旅游淡季到来时就会出现“季节性空城”,如山东乳山、江苏如皋、海南琼海等。这两类“鬼城”的真实性也都被媒体报道或当地信源验证过。
当然,由于成因不同,“鬼城”并非一成不变。随着当地经济的发展和政府的适当引导,有些“鬼城”也能变活。例如郑东新区,如今已经通了地铁,居民也在增加。
目前公布出来的并非全部实际存在的“鬼城”,这个名单也未作排名,因为研究人员担心数据过于敏感,有可能会对房地产行业或者宏观经济投资者产生影响。据吴海山介绍,目前该研究的精度仍然不够,有些写字楼可能也会被误当作居民楼而被计算进去。在将来更进一步的工作中,研究人员会把更多数据,比如路网信息、卫星图像数据等,也加入进去,并与大学或者政府的城市规划研究类机构合作,深挖“鬼城”的成因和解决办法。
事实上,由于“鬼城”一词与西方对中国的误读有关,从这个意义上讲,百度的这项研究难能可贵,研究者希望世界看到一个更加客观真实的中国。可惜的是,国内媒体报道大多也只将目光聚焦在了“鬼城”数量上,这大概是另一种形式的“误读”。
假如有办法预知未来
诚如研究者所希望的,“鬼城”这类的研究可以对决策者有用。但对于普通人而言,“看懂中国”是一个稍嫌宏大的命题,而日常生活中与自己息息相关的时空大数据则更为重要,后者也是吴海山团队的重点关注领域。相比之下,这方面的研究更具商业和实用价值,甚至可能在某些突发性危急状况中拯救生命。
要知道,这并不是夸张。很多人应该还对2014年的12月31日发生在上海外滩的踩踏事件记忆犹新。在那场悲剧中,共死亡36人,受伤49人。事后总结,踩踏事件之所以会发生的一个重要的原因就是,原灯光秀改变场地,但人们并不知道,而且对该地的人流量、人群密度和移动方向估计错误。与此同时,相关公共服务机构也没有对可能发生的情况做出预判,毫无准备。
悲剧发生过,人们唏嘘不已。假如有办法预知未来,悲剧也许就可以避免,或者至少能够减少伤亡。
这次事件之后,吴海山带领自己的团队一直在进行人群聚集的有关研究,最新的成果就是今年3月份刚刚发布的一个全新算法,可做到提前两小时预测局部区域内的人群密集程度,并发出预警。据吴海山介绍,做这项研究的初衷是想看看如何在公共安全领域应用时空大数据,以提升公共安全服务。
对于任何机构而言,预防大规模群体性危急事件发生都是很大的挑战,它有赖于对人群动向的正确预测。尽管现在已经有研究试图通过对个人的时空轨迹建模而做出相关预测,但大多都聚焦在日常通勤的时空轨迹上。而通常大规模的人群异常是由非常规的人群聚集性活动导致的,如大型庆典、宗教集会和体育赛事等。一般人们参与这类活动是非常规的,随机性很强,彼时的行为特征与日常通勤不可同日而语。正因为如此,目前没有特别好的办法对非常规群体性活动进行预测。
这项有关人流预警的研究与众不同之处就在于,其将重心放在随机状态下人群聚集时的行为特征。百度的方法受一个日常习惯的启发,即为了规划出行路线,人们会提前在百度地图上搜索一下。这样,通过分析一个时间段内(通常是一个小时)、一个特定区域里,百度地图上的查询数与用户的定位数之间的关系,就可以推断人群密度是否超过警戒线。
之所以未采用摄像头的视频数据,吴海山解释说,是因为视频数据准确率比较低,太容易受环境影响,同时实时的视频数据也不适于预测之用,相比之下来自百度地图的数据则是“超前的”。
研究者发现,踩踏发生的那天晚上外滩出现了三个异常情况:一是四处惊跑的人群密度高于其他区域,二是人群密度高于平时,三是人流方向混乱。特别最后一种情况是非常明显的危险信号。
随后,研究者又选择了另外三个地点作为案例,以确保百度地图数据的通用性。这三个地点分别是北京工人体育馆、故宫、北京西站,其各自对应的POI数据的类别属性分别是大型公共活动举办地、地标建筑、交通枢纽。
结果证实,特定时间段内特定区域的地图查询数与定位数之间具有强大的相关性。也就是说,地图搜索行为在某种意义上是一种非常好的人群行为指示器和预测器。据此,研究者设计了一个专门针对大规模群体危急事件的预警模型,并列出了该模型的十大重要时空特征,排在前两位的分别是PN1(一小时前定位)和MQ1(一小时前查询数)。这也符合我们的直觉。
不过,对于科学家而言,自己的工作永远值得精益求精。吴海山觉得目前的研究仍然有一些缺憾。“定位数据只是采样,视频数据则可能准确测量出每平方米的人数。”他表示,“(要想准确预测)最理想的状态是,将来能够实现不同大数据来源的连通互动,例如来自政府机构的各个摄像头数据——我虽然不知道外滩具体有多少人,但我可以看到地铁站有多少人。”
全新的智能出行助理
尽管时空大数据具有无比强大的功能,能在诸多领域发挥作用,人们心里依然有一个隐忧,那就是数据安全。最常见的,就是隐私信息的泄露。在上述百度大数据实验室的研究中,最重要、也最敏感的就是定位数据,它们能否泄露个人隐私?
吴海山解释说,研究中使用的定位数据全部是匿名化的,而且是一种聚合性质的数据,研究人员并不能看到单个用户的位置信息,完全不涉及个人的身份识别,也与监控无关。此外,这些数据在百度内部的使用权限也非常之高。
更重要的是,用户可以选择是否打开移动设备的定位功能,这意味着是否要通过开放权限来获得更好的服务。从本质上看,这是一种交换关系。那么问题来了:你愿意通过这种交换获得更好的服务吗?先别忙着回答,吴海山团队曾经做过的一项有关智能出行助理的研究也许会带来启发。
我们已经知道,人们出行之前有在地图上查询目的地以规划路线或者实时导航的习惯,日积月累这些使用痕迹就会被保存在地图应用的日志里。通过分析这些数据,就能理解用户的实时位置属性,甚至可以预测将来他们是否真的会去到所查询的那个地方。为了证实由查询导向的用户活动是可预测的,研究者共采用了65亿条GPS位置记录,历时3个月。就我们所知,这是首次在如此大的规模和范围上进行的基于时空数据的出行预测研究。
研究者发现,约25%的查询目的地会在30分钟内被到访,50%会在2小时内被到访,81%会在一天之内被到访,95%会在一个星期内被到访。与此同时,超过50%的查询目的地在位于50公里以外的用户家中或工作场所,而在家进行查询的频率要高于工作地点2倍多(分别为23%和9.4%),这说明用户更倾向于在家或附近的地方开始导航。
这样的结果意味着什么呢?试想如下场景:
你在智能手机的地图应用上搜索一家新餐厅的位置,因为你计划在那里与自己的朋友会合;两小时后,你在该地图应用提供的导航服务帮助下,开车从办公室去往这家餐厅;接着,你通过在社交应用上“签到”(check-in)分享了自己的实时位置;晚饭后,你在地图上查询另外一个城市的机场和宾馆,因为假期马上到了,你可能想去那里旅游。
这其实是十分典型的智能出行助理的工作模式,目前我们可以在各个专门应用中体验到它所带来的便利。然而,当你进行每一个操作时,那些移动应用都经你允许捕获了你的实时位置信息,并提供了优质服务。假如你拒绝向服务商开放自己位置权限的话,则会是另一番场景了。这时候,再重新思考一下最开始提出的那个问题:你接受这种交换关系吗?
当然,选择权仍然在用户手中。随着大众数据素养的不断提升,不久的将来会有越来越多的人愿意把大数据看成是智能助理,把自己看作是它的主人,而不是像现在这样忧虑隐私信息的泄露。至于互联网公司的数据道德,又是另外一个话题了。
在这项出行预测的研究基础上,吴海山和他的团队正在构想一种全新的基于时空大数据的人工智能出行助理。相比目前已知的应用,这位看不见的AI集多种功能于一身,更强大,也更贴心,无需主人动一手指头,就能提前猜中他的心思,并做好所有准备。未来,它也许会带来更多你意想不到的惊喜。
目前该项目还在研发中,细节还未能公布,让我们拭目以待!
【文/DeepTech深科技(微信号:mit-tr)】
·氧分子网(http://www.yangfenzi.com)延伸阅读:
来源:vicarious.com 作者:文强
【新智元导读】Vicarious 是一家很神秘的 AI 初创公司,马斯克、贝索斯和扎克伯格都有投资。因为迟迟不出产品,却屡次在 NIPS、CVPR 这类顶会发表论文,被外媒称为“比起公司更像是研究所”的 Vicarious,在 ICML 2017 也发表了论文,提出了能够从有限的数据中泛化并学习因果关系的通用游戏攻略模型“模式网络”。Vicarious 研究人员表示,这是构成智能系统的重要因素。
初创公司 Vicarious 的使命是“建立下一代人工智能算法”。和 DeepMind 一样,Vicarious 的目标也是长期的。不仅如此,Vicarious 的投资者中不乏传奇人物,包括特斯拉的 Elon Musk,亚马逊的 Jeff Bezos,美国著名技术投资人 Peter Thiel,还有 Facebook 的 Mark Zuckerberg。
如果说 DeepMind 致力于长期基础 AI 研究,那么 Vicarious 则更是如此。多次有外媒评价 Vicarious 不像公司,更像研究所。自成立以来,Vicarious 不急不躁,不出具体的产品,但在 CVPR、NIPS 这样的 AI 相关顶会上都提交并且发表了论文。
根据《福布斯》的报道,Vicarious 的联合创始人 Scott Phoenix 认为这家公司可以贡献的最大价值是长期的,以通用人工智能(AGI)或人类智能的形式存在。同时,Phoenix 也相信会有很多其他的价值在他们创造 AGI 的过程中伴随产生。Phoenix 是一位资深的企业家,担任过 Frogmetrics 公司的 CEO,该公司属于 2008 年 Y Combinator 孵化的 AI 公司。在去年接受《福布斯》采访时,Phoenix 描述了 Vicarious 的目标——当时团队拥有 30 人——创造拥有想象力,能即兴发挥的 AI。
在即将召开的机器学习顶会 ICML 2017 上,Vicarious 也有一篇论文被接收。这也是他们继 NIPS-16、CVPR-16 之后,在学术顶会发表的第 3 篇论文。在论文中,Vicarious 研究人员提出了一种策略网络 Schema Network,能够从有限的数据中泛化,并且学习因果关系。
真正智能的表现:智能体能够理解游戏的概念性规则
人在玩新游戏的时候,首先会对游戏进行概念性的理解。假设你第一次看到像 Breakout 这样的游戏(见下)。经过几秒钟的观察,你就能根据以前的经验去诠释这款游戏。你可能会将图中移动的红色像素视为在“侧壁”上“弹跳”的“球”,并且发现下面有一块移动的“板”。你会知道,板能够让球反弹。你会观察到,当球撞到顶部的“砖”时,这些砖会消失……总之,不出的简单几帧,你就有很大的可能明白这款游戏在做什么。
理解世界的因果关系是人类智能的标志之一。正是这种能力使我们能够通过迁移(transfer)我们在其他地方获得的概念知识,快速了解新的情况,比如理解从未见过的视频游戏。
那么,问题来了——深度强化学习智能体是否理解了相关的概念、原因和结果呢?
一些看似“智能”的表现,只是简单的应激反应
为了弄清楚这一点,Vicarious 的研究人员使用 Asynchronous Advantage Actor-Critic(A3C)深度强化学习方法训练智能体玩 Breakout 游戏,最初表现很好(参见上图)。
按理说,如果智能体理解了这款游戏,理解了球、墙、砖、板之间相互作用的因果关系,那么一些微小的变化,比如将底部的板提高一点,或者额外加一块侧墙,应该不会影响智能体玩游戏的水平。
下图显示了同样的 A3C 智能体在 3 种稍微经过变化的环境中玩 Breakout 的情况。
A3C 智能体在 3 种变化的情况下玩 Breakout,表现欠佳。
很显然,A3C 智能体无法适应环境。
Vicarious 研究人员指出,这是因为 A3C 和其他深度强化学习智能体,都是将输入像素映射到动作(比如向左或向右移动),通过不断试错进行学习。A3C 智能体学会了一定的策略,但并没有对游戏动态或规则产生概念性的理解。这种深度强化学习也被称为无模型学习,智能体没有形成对世界进行预测的因果模型。
换句话说,一些常被人视为“智能”的深度强化学习行为,不过只是依赖简单线索产生的应激反应而已。
而 Vicarious 这次在 ICML 2017 提出的模式网络 Schema Network,则是一种基于模型的强化学习方法。Vicarious 研究人员表示,Schema Network 展现出了一些很强的泛化能力,这样的泛化能力一般被视为人类水平智能的关键要素。
模式网络 Schema Network,通用的游戏攻略模型
Vicarious 研究人员使用一个像 Breakout 这样的游戏,展示了 Schema Network 从一个变量的概念,迁移到另一个变量概念的能力。
Schema Network 依赖于实体状态的输入而不是原始图像的输入。本质上说,“实体”可以是任何可跟踪的图像特征,最常见的包括物体,以及物体的边缘和表面。Vicarious 的研究人员假设视觉系统负责从图像中检测和跟踪实体,他们使用 Garnelo 等人在 2016 年的工作,通过自编码器,以无监督的方式从 Atari 视频游戏中提取实体。
Schema Network 在学习有关世界的知识时,是通过一小段一小段的图模型片段学习的,这些图模型片段也被称为 schema(模式)。Schema 代表了网络学到的实体(名词)、实体的属性(形容词)和实体之间的交互(动词)。在新的情况下,适当的知识片段会自动实例化,也即生成概率图模型(PGM),让网络了解情况,从而指导智能体在游戏中取得成功。此外,规划可以被看作推理问题,并通过有效的 PGM 推理算法来解决。
Schema 是构成 Schema Network 的核心基础要素。Schema 描述了实体属性的未来值以怎样的方式取决于该实体的属性和其他附近可能存在的实体当前的值。每个 schema 都可以看作一个预测变量。这些预测变量将从数据中自动学习。
举例说,一个 schema 可能会决定在 Breakout 中,球的速度将在下一帧中根据其当前速度和砖的相对位置发生改变。另一个 schema 可能会预测当玩家采取“向左移动”的动作时,板会向左移动,而且板的左侧有可以移动的空间。
Schema 还可以预测奖励、创建实体和删除实体。Schema 产生的表征能让网络自动进行前向和后向的因果推理。
Schema Network 很好地适应了环境,在 3 种变化的情况下玩 Breakout。
Schema Network 完全由一组 schema 表征。因此,模型是高度可解释的。仔细考察每个 schema 能够了解这个 schema 对上下游的直接影响。Schema Network 相当于一个因子图(factor graph),因此可以使用不同的概率推理算法来预测,根据未来状态和当前状态会有怎样的奖励。因为模型是生成模型,相同的算法还可以用于从目标状态向后推理。
Vicarious 研究人员在他们的 ICML 论文中,展示了如何使用 Max-Product Belief Propagation (MPBP)有效找到 Breakout 中可以获得的奖励。
Schema Network 在其他类型的游戏,比如 Sapce Invaders(见上图)和 Sokoban(迷宫推箱子,详见视频)上也获得了很好的结果。与 Breakout 相比,Sapce Invaders 涉及到许多不同的机制,包括频繁创建物体(子弹),敌人的行为存在固有的随机性。
Sokoban 的特点则是奖励极为少见而且不平均,在任何位置上要得分,都需要对物体在更长的时间范围内的交互情况做出推测。Sokoban 这类的规划问题对于人工智能和人类智能都是很具挑战性的。
论文介绍:模式网络
摘要
最近以深度神经网络为基础的方法在强化学习与编程(planning)方面取得了显著进展。然而,从任务到任务迁移的进展仍然有限。为了追求高效和强大的泛化性能,我们引入了 Schema Network,一个面向物体生成的物理模拟器,能够分析事件的多种原因,并通过因果推理实现目标。Schema Network 有多种结构组成,可以直接从数据输入学习了解一个动态环境。我们将 Schema Network 与 A3C 网络进行了比较,在一系列不同的 Breakout 游戏设置中,报告了 Schema Network 的训练效率和 zero-shot 泛化的结果。Schema Network 展示出更快、更强大的学习能力和更好的迁移性能。我们认为,从有限的数据中泛化和学习因果关系,是通用智能系统的重要能力。
论文地址:arxiv.org/pdf/1706.04317.pdf
编译来源:www.vicarious.com/general-game-playing-with-schema-networks.html