微软亚洲研究院研究员郑宇博士:深度学习在时空数据中的应用

4月8日,在CCF ADL 第78期“深度学习:从算法到应用”的讲习班中,郑宇博士做了题为《深度学习在时空数据中的应用》的报告,本报告探讨了时空数据的特性,以及深度学习技术在时空大数据上的使用和设计方法,分享基于深度学习的城市人流量预测的实战案例,并介绍深度学习和深度强化学习在围棋中的应用。以下分享的是郑宇博士的报告PPT和部分视频。

微软亚洲研究院研究员郑宇博士

郑宇博士,CCF杰出会员、CCCF编委、CCF ADL工作组组长。微软亚洲研究院资深研究员、“城市计算”领域负责人,ACM数据挖掘中国分会(KDD China)秘书长、上海交通大学讲座教授、香港科技大学客座教授、人工智能国际权威期刊(SCI一区刊物)ACM TIST主编,在顶尖国际会议和期刊上发表论文百余篇(其中以主作者身份发表论文50余篇),论文被引用12800余次,Google Scholar H-Index 53(截至2017-5-5), 2016年论文单年被引用3400余次。他主持开发了多个城市大数据系统,其中Urban Air首次利用大数据来监测和预报细粒度空气质量,该服务覆盖了中国的300多个城市,并被中国环境保护部采用。他主持了城市大数据平台的设计和实施,并成功在中国大数据示范基地贵阳市部署。2013年他被MIT科技评论评为“全球杰出青年创新者”(TR35),并作为现代创新者代表登上了美国《时代》周刊。2014年,由于他主导的城市计算具有巨大的商业前景和改变行业格局的潜力,他被美国《财富》评选为中国40位40岁以下商界精英。2016年他被评为美国计算机学会杰出科学家。

大家都听过很多人工智能的报告,多半是在视频、语音以及自然语言处理方面的应用,但是人工智能怎么在城市、时空大数据里面发挥作用说的比较少。今天我就讲讲深度学习在时空数据中的应用,从而让我们的生活越来越好。

今天的报告首先介绍什么叫时空数据,时空数据的特性,以及为什么时空数据和深度学习是一个很好的结合,结合的时候会遇到哪些困难。同时报告会讲两方面的应用,一方面是在城市大数据里面,用深度学习来预测人流量,以及人在不同区域里的转移,另一方面是借用AlphaGo的原理来介绍一下深度强化学习。最后透露一点深度强化学习在物流中的应用。

什么叫做时空数据
城市里的数据越来越多,从交通流量,到气象信息,从地理信息到手机信号,都是时空数据。

时空数据的特性

根据数据结构来分,可以把城市数据分为两类:

点数据
网数据

所谓时空,就一定有时间和空间的属性,根据数据关联的是时空属性的变与不变与否,可以把数据分为纵向的三列:如下图

点数据:

时间和空间属性都不会变化的点数据,如商场、学校、车站等点数据,一旦商场建好,他的位置、面积及窗户大小等属性是不随时间改变而改变的。
空间不变,时间属性随着时间的变化而变化的点数据。比如传感器部署到某个位置之后,坐标是不会变的,传感器每个小时的读数是随时间变化的,比如气温,空气质量都是随时间变化的。
空间和时间坐标都会随着时间的变化而变化。比如摩拜单车,滴滴打车,发出的请求信号就是一个时空都变的信息。

网络数据:

时间和空间属性都不会变化的网数据,比如城市的道路结构,路网 就是一个静态的网络结构,一旦网络建好之后,他的属性不会随着时间空间变化。
空间不变,时间属性随着时间的变化而变化的网数据。把交通流量信息叠加到路网之后, 就变成一个空间不变,而它的属性是随着时间不断变化的信息。
空间和时间坐标都会随着时间的变化而变的网络数据,就是轨迹,骑车的轨迹,出租车行驶的轨迹,候鸟飞翔的轨迹,航班的轨迹,手机移动信号等都是轨迹数据,这些数据的的时间和空间都是随着时间变化的。

生活中很多的数据无非就是这六种,而其中最复杂的就是轨迹数据。

下面是关于轨迹数据的挖掘,包括轨迹数据的预处理,索引和提取,模式匹配,异常检测以及分类聚类等问题, 你只要掌握好轨迹数据处理的问题,其他几个数据的处理就会得心应手。

讲完时空数据分类,我们再看看时空数据和其他文本、图像数据的区别。
空间方面的区别:
空间的距离
空间的层次
层次和距离是空间数据特有的属性之一。

时间方面有3个属性
临近性,比如相邻两个时间段的人流量变化是平缓的。
周期性,比如今天早上八点和昨天八点的交通量很像,但是早上八点的交通流量和中午的交通流量可能很不像,这就是周期性。
趋势性,数据的周期并不是固定不变的,每一天不是严格重复性变化,而是有趋势性的上扬和下降。比如天气越来越暖和,大家上班的时间就越来越早,那么早高峰的时间就会越来越早,所以不是严格的周期性问题,而是有趋势性的上扬的问题。

时间的3个特性, 特别是周期性和趋势性,在视频和语音里边是非常不明显的,甚至是没有的。

为什么时空数据可以和深度学习很好的结合
深度学习能够给时空数据带来什么
深度学习可以很好的编译时空数据的属性
可以用深度学习融合多个不同领域的时空数据

时空数据可以给深度学习带来什么
大量且多样的数据。在时空数据里有大量的数据和异构多样性的数据,如果一个领域里数据不够大,那么深度学习很难发挥作用,医疗大数据本身非常少,很难用到深度学习,而城市里边的数据,比如交通,气象,数据量大,种类多,异构,多源,这个很重要。
时空数据在很好的计算平台里已经整理好了。视频数据虽然很多,但是很难有一家机构能够把全国的视频数据都存在一起,但是已经有好几家公司可以把全国的交通数据都存在一个云平台上面,这就给深度学习提供了一个很好的计算环境和基础设施。
应用方案的需求。我们的应用需要像深度学习这样在线计算比较快的方法。比如要对整个城市的每条路都有进行预测,规模大,并且在几秒钟中时间内返回结果,这种大尺度,高实施性的应用正好是深度学习所需要的场景,而且这种场景是传统的机器学习不能做的。

下面看一个简单的例子,深圳市出租车的GPS的轨迹数据

具体讲的话,我们可以用卷积神经网络来模拟区域之间的相关性。

进一步看,如果有多个城市数据

可以把不同的数据进行融合,最后做一个任务,比用单一数据会更好。这就是强调的为什么需要融合。

下面看看时空数据的数据量有多大,比如刚刚的例子,深圳市的出租车,公交车和卡车的数据,假设以一分钟一帧来作为一个图像数据,只考虑一个城市一年的数据的话,一个城市3个数据9tb,而120个城市是1pb。这些数据比图像数据要大很多,这只是三个小数据,而通常我们用的是七八种数据,数据量惊人大,所以说深度学习有他适合的地方。

深度学习和时空数据结合有什么难点
时空数据怎么变成深度学习模型能够接受的输入格式。
怎么能在编码单一时空数据的时候使得网络结构能够体现他的时间和空间属性。
在融合的时候,怎么设计DNN的网络结构能够使得融合有效。

下面看下具体应用。我们希望预测在一个城市里每一平方公里未来有多少人进和出,即人流量预测。
比如上海外滩踩踏事件,过多的人流涌入造成了严重的公共安全事故,如果提前知道未来会有多少人进出,什么时间达到高峰,那么政府就可以提前进行限流,限行,管控。再例如北京是可以利用这个方法预测每个地铁的未来的进站出站人数,这个关乎到地铁的运力和调度问题,也和安全有关。

这个应用已经落地应用到贵阳。
用出租车的轨迹,把城市分成一公里的格子,预测每个格子内部有多少出租车的进和出,可以用这个数据验证模型的有效性。这个模型是通用的,可以换成手机信号、摩拜单车数据,滴滴打车数据、饿了么数据等,就可以预测这个地方有多少人拿着手机进出,多少人骑车、还车,有多少出租车会进来,多少人点餐等。这个模型不仅可以用在城市安全方面,还可以用到物流行业。

微软亚洲研究院研究员郑宇博士

人流量预测跟很多因素有关,非常的困难。人流量预测的难点主要在以下几个方面:

下面看看具体操作
首先把城市划分成一公里乘以一公里的格子,再把过去一个小时收到的车的轨迹信息投影到这个区域里面,再去数每个格子里边有多少人进多少人出,这样每个格子就有一个二元组,进和出的人数,就像每个图片的每个像素都有RGB3个元素。如果有多个小时的数据,那就变成了时间序列,类似下图的视频流,再结合对应时间下面的天气等元素 ,这就构成了输入数据。这就是数据转换的问题,数据转移把问题变得更简单,又适合深度学习的输入模型,并且保留了时空信息。

用这些数据怎么做深度学习呢
首先把最近几帧的数据放到时空残差网络的模型中,把最近时间的数据输入右侧的模型,模拟相邻时间区间的交通流量变化,是个平缓的过程;对应时间的昨天、前天的数据放到中间的模型,模拟周期性;把过期一周或一个月的数据放到左侧的模型,模拟趋势性;三个模型都是残差网络结构,然后进行融合。

这三个网络的输出结果并不是同等重要,根据具体应用侧重不同。除此以外,还要与外部因素融合,像天气、事件等因素可能影响的范围更广,是全局的。
以上是捕捉时间的三个维度,临近性,周期性,趋势性。那么空间怎么捕捉呢。
通过卷积操作,可以捕捉空间的相关性,通过一次卷积可以捕捉你附近的区域与你所在区域的人流相关性。但人流不光受到周边的影响,还受很远的地方的影响,所以要通过多层卷积才能把更远的地方的信息卷进来,但是层级比较深的时候就会出现训练困难,梯度下降的问题。因此,这里引入了深度残差网络来解决这个问题。

为什么RNN/LSTM 不能解决这个问题,比如,如果用LSTM,则这个模型会变得非常复杂,很难训练。并且LSTM并没有考虑空间相关性,CNN也不能抓住很远距离的空间相关性。

WaveNet在语音序列里取得了不错的效果,但丢掉了空间属性。如果WaveNet和CNN的方法结合模拟时空数据,也是一种思路,大家有兴趣可以尝试。

回到之前讲到的模型,这是一个集成预测,一帧把未来所有格子有多少人进出一次性全部预测出来,抓住了时间空间的特性,也抓住了外部的影响。

时间临近性、周期性、趋势性的可视化
从下图可以看出,
临近性可视化:四环主路上,时间临界性的重要程度不如周期性和趋势性明显;
周期性可视化:朝阳公园的周期性很强,周末或者晚上去的多,所以周期明显;医院门口的周期性很不明显;
趋势性可视化:中关村的趋势性不明显;北京动物园的趋势性明显,比如天气暖和了动物园的人就会越来越多。

以上可视化结果告诉大家,融合的权重是不一样的。

以下是这几个方法比较的结果,对于三个时间特性以及外部因素的比较,并在两个数据上行进行了验证,北京的出租车和纽约的共享单车数据。

以上预测只是对这个地方进多少人,出多少人,并不知道这些人从哪里来,未来会去哪里。如果想进一步预测这些人来自哪里,将要去哪,则可以提前对人流进行调度。即下图中格子和格子之前的人流转移。

时空网络跟其他网络有什么不一样的地方呢
有空间节点,节点上有坐标
节点之间有距离,而且节点会随着时间的变化而变化

简单静态的时空网络就是路网。每个点都是固定的。
网络结构是可以变化的,比如传感器网,节点不变,边是变化的。车联网以及战场上士兵跟坦克的网络,节点在变,节点之间的通信也在变。

如果能预测网络与网络之间的传输,很多事情都可以解决,但是这个问题很难,复杂度更高。预测格子之间的转移复杂度高,且数据非常稀疏。更多深度学习解读:www.yangfenzi.com/tag/shenduxuexi

下面看看如何用时空网路解决数据转移预测的问题。

把一个区域的进出预测和区域之间的转移预测同时来做,这两者互相帮助,这就是multitask的思想,两个任务同时做。所以神经网络、深度学习不能一条路走到黑,应该与传统机器学习的方法进行结合。

同时预测进出和转移,在几个数据方面都比用单一的一个方法结果要好。

深度学习在人流中的预测应用很广,下面看看深度学习在AlphaGo的领域有什么应用以及带来的启示。(除了深度学习,或许我们还能从AlphaGo身上看到大数据创业机会

围棋也是一种时空数据,每个盘面都有19*19的节点,节点就是坐标,每个盘面就是时区里的一帧。

围棋的规则:围棋是19*19的棋盘,黑白相互下棋,以围的面积多少定胜负。

其中有几个重要概念:
气:如果一个棋子在四个方向都没有棋的话,叫四气,堵着一个方向少一气,全部被堵住之后即被吃掉,就要被提子,提子之后的地方禁手;
眼:由多个棋子围住的一个或两个以上的空交叉点;
活棋:至少有两个眼以上的棋叫活棋;
死棋:两个眼以下的棋为死棋,有一种特殊情况叫“双活”,即双方互围的棋子均无两个眼,双方都算活棋。

围棋的难点:
变化无穷:19*19的棋盘,搜索空间非常大;
价值判断:同样的盘面给不同的棋手判断会有不同的结果。
而AlphaGo就是突破这两点。

围棋搜索常用的方法:蒙特卡罗树搜索

AIphaGo的核心思想由三部分组成:深度学习+增强学习+蒙特卡罗树搜索

一张图看懂AIphaGo原理:

以下描述的是神经网络的一些进展,这些是算法上的进步。深度学习和深度神经网络的关系。

未来深度学习在什么地方会有巨大的突破?就是物流。有些方面怎么做都超不过人,比如自然语言,只能无限接近人,而不能超过人。而物流可以超过人,并且有很大的需求,不仅是京东,顺丰,还有饿了么、摩拜单车等,都要依靠物流的调度。谁把物流做好,就可以在行业里占有巨大优势。

总结:
时空数据是非常特别的,因为它具有空间相关性,时间临近性、周期性、趋势性。
应用,人流的预测,进出的预测,人流转移的预测,物流的应用,AlphaGo的应用。
未来,深度学习可以和其他的机器学习进行组合,与DB结合,时空导向性明确。

谢谢大家!

本期ADL讲者视频已上传至CCF官网,CCF会员点击 www.ccf.org.cn/sztsg/sp/list.shtml 登陆后可免费观看;非CCF会员可访问 mooc.ai 搜索“CCF ADL”,付费观看。

附:CCF ADL活动预告

CCFADL79《存储器件与系统前沿》

主题:存储器件与系统前沿
时间地点:2017年6月14-16日 北京

学术主任:舒继武 清华大学 、华宇 华中科技大学

特邀讲者:钱学海 南加州大学
演讲题目:Accelerating Neural Network and Graph Processing with Memory-Centric Architecture

特邀讲者:华宇 华中科技大学
演讲题目:高效检索的智能存储系统

特邀讲者:李柏晴 香港中文大学
演讲题目:On the Performance and Dependability of Large-Scale SSD Storage Systems

特邀讲者:杨庆 罗德岛大学
演讲题目:Introducing DPU – Data-storage Processing Unit –Placing Intelligence in Storage

特邀讲者:谢源 加州大学圣芭芭拉分校
演讲题目:Memory-Centric Architectures to Close the Gap Between Computing and Memory/Storage

特邀讲者:江泓 德州大学阿灵顿分校
演讲题目:Data Reduction in The Era of Big Data: Challenges and Opportunities

特邀讲者:李涛 佛罗里达大学
演讲题目:构建面向新技术和新兴应用的大数据时代下新型非易失性存储系统

特邀讲者:陈海波 上海交通大学
演讲题目:Scalable In-memory Computing: A Perspective from Systems Software

特邀讲者:舒继武 清华大学
演讲题目:基于非易失存储器的存储系统软件层优化

——————— 氧分子网www.yangfenzi.com)延伸阅读 ———————

《陈然:郑宇博士与他的Urban Computing》

2013年8月,MIT Technology Review颁布了他们评比的35 Innovators under 35,也即35个35岁以下的创新者。毫无疑问,这些人的所在从事的研究或者项目,都是当前所热门的研究方向,是对于未来可能有重大影响的项目。在其中有一位,是微软亚洲研究院的郑宇博士,他所进行的研究方向,叫Urban Computing(城市计算)。

MIT Technology Review对于他的评语是这样的:

分析城市生活中现有的复杂数据可以让城市生活更好。

试图解决北京根深蒂固的堵塞和污染问题会使每一个尝试者丧失耐心。但是这种情形却激励了郑宇,微软亚研院的一位主管研究员。

以污染问题为例。对于中国绝大多数空气质量监控系统来说,这些系统往往给出的数据是整个城市范围的空气质量。但是,空气质量会随着城市中各个点的交通、建筑密度、空气情况等因素剧烈变化。郑宇在他们的项目U-Air中考虑了这些因素。这个项目通过分析现在和过去通过监控道路网络和其他来源的数据,来推断城市中任何指定位置的空气质量。郑宇希望这个系统在最终可以提前预测1到5个小时的空气质量,以帮助人们更好地计划自己的生活,比如什么时候和去哪里慢跑,或者什么时候应该关窗户、什么时候应该带上面具。

在他早些的项目中,郑宇和他的项目组给出了一种更好的驾驶路线推荐方案——利用在线地图服务的同时把交通堵塞情况考虑进去,这比仅仅考虑最短路程可以取得更好的效果。其中关键的方法就是向北京的出租车司机学习,因为他们被迫每天都要找到最好的路线。郑宇的团队分析了来自北京33,000个出租车司机的GPS数据,并且找到了方法他们精巧的技术整合到了一个地图服务中。

那么到底什么是城市计算呢?

城市计算就是利用城市中的一切传感器来感受城市的动态,并利用所得的数据来进行分析和计算,以便解决现代城市中的问题,为城市和居民服务。

在现代城市空间中,很多传感器、设备、汽车、建筑还有人类都产生了大量的异构的数据。城市计算就是一个获取、整合、分析这些数据的过程。它旨在解决城市面对的诸多重大的问题,比如空气污染、能源消耗、交通堵塞等问题。城市计算通过连接很多不起眼和普遍存在的传感技术、先进的数据管理和分析的模型以及高级的可视化算法,来创造一个改进城市环境、提高人民生活质量和增强城市运行系统的三赢方案。城市计算同样也可以帮助我们了解城市现象的本质,甚至预测城市发展的未来

现在已有的研究成果包括:

1. 预测城市各个点的空气质量
2. 发现城市区域的功能
3. 大规模动态出租车拼车系统
4. 实时发现城市能源消耗
5. 给终端用户发现智能实时导航
6. 收集城市道路网络的隐藏问题
7. 出租车-乘客推荐系统
8. 发现城市异常事件
9. 从签到数据中重建流行线路

为什么这个方向是一个有趣的方向?

超过半数的人类居住在城市之中,城市化的进程从来没有减缓过。面对一个个庞大的城市,很多事情已然超过了控制。没有人真正了解这个城市中到底在发生着什么,没有人真正了解这个城市有多少人,有多少户,有多少个家庭,发生着怎么样的故事或者事故。我们需要信息化的方式来了解这个动态的城市。

在这个喜爱热炒概念的时代,我们已经看到了无数遍大数据、智慧城市、物联网等等字眼。媒体往往因为这些热门的关键词而高潮不断,读者却在一次次重复刺激中感到厌倦。但是无论如何,太多的基础性研究还欠缺,基础性的研究才真正在改变着这个世界。大数据与物联网需要落地,需要找到具体的应用方向;智慧城市需要解释什么是智慧。而这,都是城市计算正在试图解决的问题。通过整合城市中的各种传感器,了解城市中正在发生的事情,找到那些我们看不到的隐藏在现实背后的动态,让我们真正了解城市,改变城市。

首先我们要有数据,然后我们要懂得如何计算和分析他们,最后才能得到真正的智慧城市。

事实上,之所以现在的研究成果主要关注交通、空气质量等领域,很大的原因是因为这些数据往往是公开的,或者好获得的。我们还需要更好的方法来获取更多的来自不同来源的数据。通过整合不同来源的数据,我们可以在商业、教育、农业等方面做出更多更有意义的的结果。

·氧分子网http://www.yangfenzi.com)综合整理

氧分子网(www.yangfenzi.com)是关注互联网生态圈的科技新媒体

·氧分子网http://www.yangfenzi.com)延伸阅读:

➤ 用时空大数据量化世界:百度科学家眼中的复杂中国

➤ 新指标、新角度,搜索引擎百度通过网络数据聚焦中国经济

➤ 地平线机器人李星宇:复杂的中国驾驶场景,正是深度学习的优势

➤ 杭州发布城市数据大脑 马云说互联网没有边界、电商将成传统概念

➤ 周志华包揽AI领域会士大满贯|2017 ACM、AAAI、IEEE华人名单

您可能还喜欢…

2 Responses

  1. 微软亚洲研究院郑宇:人工智能和深度学习,怎么管好大数据下的大城市?说道:

    当一个一个超级大城市在不断增加时,应该怎么管?
      
    交通越来越堵塞,人口流动性越来越强,空气质量越来越令人担忧,噪音等污染越来越严重……数据、智能,能否给我们搭把手,在监测、预测和调控方面,助我们一臂之力?
      
    前几天,黑智(VR-2014)也报道了在今年的GMIC现场,驭势科技CEO吴甘沙和《机器学习》作者、卡内基梅隆大学计算机科学学院机器学习系主任Tom Mitchell ,就也对未来的AI如何颠覆我们的城市生活进行了讨论。甚至,他们还提到,是否可以用人工智能技术,来帮助雄安新区的规划。
      
    郑宇博士和他的团队,就是在用“城市计算”回答这些问题的人。

    郑宇博士是微软亚洲研究院“城市计算”领域负责人。他主持开发了多个城市大数据系统,其中Urban Air首次利用大数据来监测和预报细粒度空气质量,该服务覆盖了中国的300多个城市,并被中国环境保护部采用。
      
    2013年,郑宇被MIT科技评论评为“全球杰出青年创新者”(TR35),并作为现代创新者代表登上了美国《时代》周刊。2014年,由于他主导的城市计算具有巨大的商业前景和改变行业格局的潜力,他被《财富》评选为中国40位40岁以下商界精英。2016年被评为美国计算机学会杰出科学家 (ACM Distinguished Scientist)。
      
    在不久前结束的AAAI 2017上,郑宇发表了研究论文《运用时空深度残差网络进行城市人群流动量预测》,这也是全球真正把深度学习有效用在时空数据上的第一个研究成果。而人工智能在城市计算领域的进展究竟如何?郑宇在源码资本2017年码会上,进行了详细的讲解。

    口述 | 郑宇 来源 | 源码资本 编辑 | 黑智(VR-2014)

    非常高兴有机会能够跟大家分享我们在城市计算(Urban Computing)领域的工作。大家平时听到很多人工智能用于语音、图象、文本的场景。怎么样用人工智能和大数据技术改变我们的生活,我围绕这个主题探讨一下,人工智能在城市领域的进展。

    做好人工智能在城市领域的应用需要四个方面的技能:

    1、理解城市文化本身,数据科学家纯粹的理论无法代替行业知识;
    2、理解数据本身,不仅仅要了解数据的表征,也要了解数据背后蕴含了什么样的知识;
    3、掌握数据科学的模型,包括数据管理,数据挖掘,机器学习,还有可视化;
    4、懂得如何利用云平台,把算法高效部署在平台上解决问题。

    在城市领域,以上四点也有应用上的不同之处。

    可以想象,城市里面数据特别多。链家的、搜房的,从地理信息到人流量,好像千差万别上百种、上千种的数据。实际上按照数据的结构来分的话有两种数据,一种点的数据,一种网的数据。按照数据关联的时空属性来分,可以分为三类。所以总共有六种数据。这六种中最为复杂的就是轨迹数据,因为物体的位置和在每个位置上的属性都在不断的随着时间改变,而且点和点之间存在着关联。像摩拜和滴滴的车的轨迹都属于这种类型。

    我不希望来了一千种数据要建一千种模型和算法,使得系统变得非常复杂。我们希望只要定义好这个模型之后,不管你来什么数据,可以高效利用平台,利用对应的分析和挖掘算法去处理。

    城市领域有大规模的数据,多元、多模,变化非常快,这么复杂的数据怎样快速更新,以及大规模的应用?必须要有一个平台。大家自然会想到,我们就用云平台把它连接到一起。可惜的是,不管哪家商用云平台都无法做好时空大数据,对城市大数据支持的并不是很好。

    现有云平台处理城市大数据的限制,与MSRA的实践:

    1、数据结构很不一样,跟图象文本结构不一样。

    2、查询方式不一样。例如我们在找滴滴的时候,希望是找周边这个时间段内有没有空车经过,而不是关键词进去匹配一个文本出来。

    3、真正我们做城市计算的时候我们往往用到多个数据源,而不是单一数据。比如说空气质量预测的时候我们需要用到气象、交通、地理信息以及人的移动数据,怎么样把这些数据多元管理起来?这是一个难题,这个技术是缺失的。所以基于它的原因,现在已有的云平台并不能支持很好支持时空大数据。

    受限于已有云平台的现实限制,微软亚洲研究院去年在洛阳市落地了中国第一个城市大数据平台。

    它首先定义了六种数据模型,然后利用了现有微软云计算平台的存储资源。接着我们做了一层中间件,针对不同的数据结构设计了时空索引算法,并针对不同数据设计了混合式索引算法。然后把时空索引集成到Hadoop、Spark和Storm等分布式计算环境中。

    这里面不光有分布式计算环境,也有时空索引算法,两者的结合把数据的访问和管理存储变得非常高效。最后向上层的机器学习和人工智能算法提供API,使得我们的机器学习算法能够快速访问下面的一些数据。想象一下,如果没有这一层的话很多机器学习算法根本不能上线,根本不能做大规模的访问和应用。

    下面几个应用案例可以看到这个城市大数据平台所产生的实际效应。
      
    城市充电桩与广告牌布局

    我们要通过城市大数据平台,在贵阳市决定应该在什么位置放置充电桩,才能最大化覆盖整个城市的车流量。最终选取出五个路口,使得覆盖不同出租车的GPS轨迹数量最大化。
    以前做这个工作需要一天。现在我们只需要2-3秒的计算结果。我们发现在商业应用中,部署一个东西除了需要数据科学支持,还需要行业知识支持,不仅要考虑车流量最大化的问题,还是考虑周边是不是商城,有没有配套。车主充电的两小时等待时间里,周边要有餐饮、娱乐机构供人休闲。

    我们通过可视交互的分析方法实现人的智慧与人工智能的结合。人工智能先用简单的规则,用算法反馈一个初步结果让行业专家判断,行业专家认为这个点不合适可以删掉,或者保留这个点再计算,实现了一个迭代式的交互挖掘。

    这个案例体现了平台的威力,性能的威力,也体现了真正把机器智能跟人的智能结合在一起。

    除了充电桩,这个模型还可以分析商业门店选址、广告牌选址,这些案例体现出城市大数据平台的数据管理威力。
      
    房价评估

    在我们的这个城市大数据平台里,还有一个专门的数据分析层面,包含三个子层面:最普通的机器学习算法,专门针对时空数据设计的机器学习算法,以及多元数据融合算法。
    我们看一下这个例子,我们想对房屋价值进行相应的排序,并不是预测价格。也就是说北京同样一个市场,如果涨的话谁涨的比较多,如果跌的话谁跌的相对比较慢?

    在相同环境下,摒弃政策因素和环境因素。根据涨幅比将房子排序,排完序把房子排好12345等,一类房最好,五类房最差(涨的最慢,跌的最快)。李嘉诚说过,房子价值由三个方面决定,一是地段,二是地段,三还是地段。这三个地段其实可以用数据量化。
    第一地段就是周边各类设施配套水平,交通,商场,学校等等这些数据都可以从路网、POI学到。同样是学区,重点学区和普通学校对房价影响非常大,好的商场比破旧的商场对这个地段的价值拉动差距很大。

    所以有第二个地段:Popularity,比如人们出行规律非常重要。人们出行的规律已经刻划了这个地方的价值,一个地段坐公交地铁出去,另外一个地段基本上以开车打车出去,你觉得哪地段更高端一点,人的行为可以刻划这个地段的形式。

    第三个地段是房子所在的商圈,并不意味着每一个望京区域的房子都是好房子,而要用7-8种数据刻划这个地段的价值。

    从每一个数据里面可以提取出来很多的特征,再进行计算。比如说这个房子周边有几个公交车站,离他最近的公交车站多远,离他最近的地铁车站多远,然后可以把它变成排序的问题。这里面体现了不是一个简单的算法就可以解决的问题,很多特征是冗余性,并不是完全独立的,相关性非常大,而且很多特征不是线性的,因此我们要加很多的约束做这个事情。

    怎么做验证呢?用2013-2014年的房屋数据预测2015年的排序,2015年过完之后自然知道这个结果怎么样。用搜房网解决这个事情准确率非常高。NDC基本上达到95%以上,这是一个非常好的结果。

    这个技术还被应用到上海火锅店的选址以及对城市综合商业体的价值评估。中国一线城市的商业品牌,像万达以及保利商场等等,这些综合商业的评估是非常困难的,但用我们的方法来做是有价值的。2016年的数据已经显示,北京100多个综合商业体哪个涨幅最快,最值得投入,并且形成排序。这个排序也应用于银行业信贷评估,帮助银行业评估综合商业体的价值,决定以后贷多少钱,抵多少钱,通过人工智能评估长期价格增势。

    AI+共享拼车

    滴滴以及摩拜,这两个案例与AI联系非常紧密。

    先讲拼车,电召车行业做到拼车才是真正的共享化,所以拼车是最终目标。发明拼车的初衷是城市车辆过多与打车难之间的矛盾。在希望车辆总量不增加的前提下,出现了拼车的想法。为了保证用户体验,拼车必须保证满足用户希望什么时间到达目的地的要求。

    通过AI找到一辆车接这个人,并且他真正距离最小,这是一个最优的方案。但现在是不是还有别的车,可以满足乘客的到达时间,同时也要征求乘客的拼车意愿?如果可以使乘客的到达时间稍微推迟五分钟,但是可以省五块钱,你愿不愿意?在拼车方案中,保证乘客在规定时间到达,这个是关键的。

    通过对车辆距离、预期到达时间与价格之间的动态平衡匹配,最大化满足用户的需求,是一个很困难的问题。这些需求已经超过了人类自己思考可以实现,必须要人工智能后面重新调度。

    使用AI技术模拟,把出租车换成一个卡车,把一个人看成货物,上车点是取货地点,乘客下车地点是送货地点。我们把这些应用于顺丰合作,可以在不增加人员的情况把顺丰的吞吐效率提高5%-10%。

    实现了当下的优化以后,对未来的优化更加重要。这将涉及到深度学习。

    以物流业为例,未来的物流一要看预测,二要看累计最优,三要加时空索引,这三个东西要加在一起。

    假设我们把一公里分成很多格子,可以预测未来有多少人进有多少人出,可以预测未来有多少人请求摩拜,有多少人请求滴滴,有多少人订饿了么。我们在贵阳已经开始做这种预测了,在贵阳预测的是每个格子里面有多少出租车进有多少出租车出。能够预测出未来这个地方有多少人请求饿了么的订单。用这种数据来验证我模型的正确性。

    做深度学习预测人流、订单量最开始的动机来自于上海市的踩踏事件。踩踏事件发生之后我很痛心地写了一个微博,我说,这个事情可以通过人工智能做预测提前避免,如果提前两三个小时知道未来有多少人去那个地方,就可以从源头分流,不要等到大家都去了去疏解。如果政府能够提前预测量级,可以提前预备安全措施。

    类似的公共需求也适用于北京地铁,商业需求则适用于滴滴、摩拜和饿了么等。
    但是预测人流量是一个困难的工作,因为相关因素非常多。同时,时间空间数据不同于文本,空间有距离,有层次,时间有周期性,还有趋势性。

    比如说交通容量每天都有变化,我们一定要考虑到时间的周期、趋势、临近性,考虑到空间的远近性,把不同的数据进行融合,以及不同的影响因子在不同层次融合。最后得到好的结果。这个数据在北京的出租车得到印证,在美国的自行车租赁系统得到印证,现在拿摩拜进行印证,效果都比以前的方法好很多。
      
    空气质量预测

    微软亚洲研究院曾经用大数据和人工智能的算法预测全国200多个城市的空气质量。
    因为空气质量受很多复杂的影响,包括周边的楼房密度,周边的交通拥堵情况,周边的扩散情况,导致整个城市空气质量不均匀。

    我们把京津冀、珠三角、长三角城市群数据放在一起,做大尺度的系列预测和分析。有了这个信息之后,你会发现每次空气质量从好变坏过程中,你就知道哪里先变坏,哪里后变坏,知道它的传播过程。政府是明确需要知道非常细的空气质量的数据,甚至要细到宾馆级,因为有的时候我们领导人就住在某个宾馆。

    预测未来。我的预测是系列预测,空气质量预测既要看天还要看人,是个很困难的事情。如果你要看细,细到西直门、东直门怎么样?这非常困难。还有空气质量拐点的预测,我们知道当刮大风和下大雨时,空气质量从500瞬间就变成了50,这个拐点的出现对政府来说是极关重要的。

    可是,空气质量的拐点为什么那么重要呢?举例说明,政府曾经做了很多措施限流限行,关闭了河北的工厂,以北京为中心画一个圆,把圆里面所有的工厂全关掉,使得我们的空气质量保持在100以下。但如果你知道明天是拐点,明天会下降干嘛去关它?这一个决策就能够帮国家避免上百亿上千亿的损失。

    微软亚洲研究院还在贵阳落地中国第一个交通流量图。这个地方显示的是车的流量不是简单的速度,对政府的管理、规划它一定要知道有多少车经过,即流量。有了流量之后就能算出速度、油耗,每个路段上面都可以算出来,进而可以看出来每个路段实时排放的PM2.5有多少,现在能把车的尾气排放算出来,结合空气中测点的读数,我们知道空气中尾气排放和PM2.5结合在一起,我们就能够正确回答空气中汽车尾气排放和PM2.5到底占多少,这个对政府的指导具有重要的意义。
      
    做好智能城市的4个关键

    第一,要理解行业知识。如果我不懂环境,不跟环境学家交流,也不知道他们做了什么东西,那么他们行业里面也无法接受大数据的分析结果。

    最近我搞了两年多环境,现在清华大学环境学院每年请我给他们环境学院的学生研究生上课,只有达到这个程度之后,才能跟别的行业融合。

    第二,对数据的理解很重要。路面上的出租车交通轨迹不光反映了出租车交通容量,也反映了人们的出行规律。出行规律反映的是功能、经济、环境状况,如果这样想的话,你会发现我们的数据永远不缺,大数据时代我们不缺数据,缺的是心不够开放。大数据的价值把多个数据融合在一起,做到1+1大于2的结果,这才是它的特点和魅力。

    第三,深度学习。我们看到各种各样的算法不只是机器学习,有深度学习、机器学习、数据挖掘还有数据库,很多方法索引加学习加模拟结合在一起,很多是把数据融合在一块。
    第四,数据科学家。数据科学家非常难培养,培养这个人至少7-10年,很多项目只要有了这一个人,就能把这一个东西传到一块,一个好的数据科学家站在云平台上面,看问题想数据观模型,然后把模型部署到云平台上面,才能解决鲜活的问题,这才是数据科学家。

  2. 微软亚洲研究院郑宇:AlphaGo并未攻克围棋难题,人类仍有希望说道:

    5月23日AlphaGo2.0版本在人机围棋比赛中以1/4子的微弱优势战胜了柯洁,一方面继续彰显了人工智能的强大,但也让人们对AlphaGo和人工智能有了新的认识。先说出结论,再看分析。

    1.在围棋这个项目上AlphaGo目前走在了人类的前面,但并没有完全攻克围棋这项运动。它只是通过深度学习找到了一个比人类认识更优的解,但不是最优解。最优解无法找到,即便用尽地球上所有的资源。从专业的角度来讲,就是用深度学习去逼近了一个强化学习中的价值判断函数,然后再跟蒙特卡洛搜索树结合的方法(具体详解可参看《郑宇:一张图解ALphaGo原理及弱点》,不再重复)。既然人工智能和人类都不能找到最优解,现在说哪一方已经完全彻底的失败还早。

    2. 人类也是在进步的,我们也不要低估了人类后天的快速(小样本)学习能力,这点AlphaGo基于现在的学习方法还做不到。短期来看人获胜概率小,但长远来看(未来5-10年)人还有机会,因为人也有很强的学习能力,可以从少量跟AlphaGo的对弈的棋局中快速学习。而即便再给AlphaGo1亿副棋谱,再添加一万块GPU,如果还是基于现有的学习体系,它进步的速度也终将放缓,因为新增的棋谱和计算资源相对于2×10171这个搜索空间来说只是沧海一粟。我们对人脑的了解还远不如对围棋的认识,这里面还有很大的未知数。

    3. 目前人类职业棋手跟AlphaGo的差距也就在一个贴目的水平,没有大家想象的那么大。其实这个贴目的差距(按中国标准7目半),在职业棋手看来,已经是非常大的差距了。很多职业高手,进入官子阶段后发现自己还落后对方7-8目,就会主动投子认输了。很多通过数子来决定胜负的比赛,输赢往往都在1-2目之间(比如柯洁就输给AlphaGo半目)。否则会被其他专业棋手笑话,自己落后那么多都不知道,点空能力太弱了。

    要能真正客观、准确的看待这个问题急需要较强的人工智能专业知识,也需要一定的围棋功底。下面先纠正网上认知的一些误区:

    误区一:AlphaGo可以让人类顶尖棋手4个子,AlphaGo2.0可以让上一个版本4-5个子。

    要消除这个误解,首先要跟大家普及一下围棋知识:在围棋里“让对方两个子”和“赢对方2个子”有着天壤之别。这点对于下围棋的人不用多说,但我今天才意识到,很多吃瓜群众一直以为这就是一回事。难怪网上会流传以上的错误言论。

    让对方两个子: 在围棋里让2子是说让一方先在棋盘上放上2个棋子(棋子只能放在星位),然后对方才开始走。这两个子在对弈之初的价值巨大,对于专业棋手来讲,每个棋子价值至少在10目以上(这是最保守估计了)。让两子相当于至少先让出去对方20多目的地盘。由于棋盘是有限的,如果不能在后面的比赛中,在有限的空间里赢回这20多目,那就是让子失败了。而且让子数越多,被让方获得的价值不单是线性增长的,因为子力之间会形成配合,获取更大的利益。比如说,壤子,其价值就可能远不止40目了。

    赢对方2个子:是指双方下完后,赢的一方比输的一方多出2个子。如果按照吃住对方一个子算两目的方法来算,那2个子只相当于4目。AlphaGo赢了柯洁1/4子,就相当于半目棋子而已。

    所以“让对方两个子”和“赢对方2个子”不可同年而语。如果真的有围棋之神存在(既他一定能找到最优解,我们人是没有希望下过他的),一般顶尖专业棋手认为他们跟这个神的差距在让2-3子之间。由于AlphaGo可以被证明不能保证找到最优解,所以他离神还有一定的距离。因此,说AlphaGo可以让人类顶尖棋手4个子,这简直就是天方夜谈。

    误区二:AlphaGo也会下出一些明显不好的招数,是因为他自我判断形式占优,而放松了自身的要求。

    AlphaGo的搜索策略就是优先对获胜概率比较大的分支进行更多的深度搜索,这个策略在任何时候都不会改变,也不能改变。他不会觉得自己优势了就下出缓手。下得不好的时候是因为其价值判断本来就是一个近似,而且搜索空间也不能穷尽,得不到最优解,因此,有时估计还不错的棋,其实不一定是真的最好的下法,AlphaGo出现这种不稳定状况是正常的。这也是人类善存的希望所在。当然人类也有自身的弱点,如疲劳、情绪波动等,人也会判断失误。而且棋局很长,有些之前不太好的棋,经过后面的变化(包括不是预料中的变化)有可能会变成好棋。所以,不是所有的错误,都会直接影响到比赛的结果。而且现在大家似乎有点怕AlphaGo了,即便是AlphaGo下出一招不好的棋,大家更多的是怀疑自己的水平(是不是我们没看懂啊?),而选择相信AlphaGo的“深谋远虑“。

    误区三:AlphaGo可以不断自学习,从新的棋局里获取经验,快速提升自己。

    AlphaGo的系统由于参数非常多,需要大量的数据来训练,新增的几幅棋谱对提高它的棋力起不到任何作用。而且AlphaGo在做参数调整时是针对一大批数据的整体优化,也必须对很多棋谱做批量处理,训练时间非常长,不可能在很短时间内大幅提升自身的水平。即便是同一组训练棋谱,参数调整方法不一样也会训练出棋力水平差异较大的系统。其实AlphaGo是通过自我对弈来生成很多棋谱,然后利用棋谱中的(两个连续的)盘面跟最后的胜负对应关系训练出价值网络来。这里只是借用了一下强化学习的框架来训练深度神经网络的参数而已,主要贡献还是深度学习的近似能力带来的(解决了传统强化学习针对复杂环境和动作状态无法求解的难题)。因此,AlphaGo并没有大家想象的那种自我博弈就能自己不断进步的能力。

    误区四:AlphaGo会故意放水输掉一局比赛。

    这个没有可能。要想输还不能输的那么难看和明显,是一件非常难办的事情,可能比赢棋还要难。在模型训练好之后,AlphaGo能够临时改动的只有在搜索部分投入的资源多少(搜索多大的空间)可以改动。缩减的太小,几乎不会有太大变化,但如果缩减太多,就会下出一些非常低级的棋来。这点从技术角度来讲很难把握。

    误区五:计算机的计算能力一定比人强,所以不要去跟AlphaGo比计算,应该把局面简单化,避免复杂的战斗。

    AlphaGo依靠的是一种基于树的搜索算法,遇到复杂局面搜索空间变大,对未来输赢的价值判断也会变难。因此,人算不过来的复杂局面,对AlphaGo来说也很困难。如果局面太简单,机器可以非常好的计算出比较优的解,人类棋手更加没有希望。因此,把局面弄复杂,人类棋手才有希望获胜,虽然这个对人类也提出了更大的挑战。

    总结 :基于人类目前对围棋的认识和理解,现阶段仍然会输给人工智能。我并不是觉得柯洁有希望能够赢得后面的比赛,但人类也在进步,通过跟AlphaGo的对弈,人类也在重新认识围棋。只要人类的思想和文明在不断进步,人就有可能在未来5-10年里通过不断的学习赶上当前的AlphaGo。当然,AlphaGo也会进步,但它还不是围棋之神,也没有攻克围棋这个难题。如果现有的学习方法没有全面的革新,其进步的速度也会慢慢放缓。基于此考虑,人类还会有机会。当人们对围棋有了更深入的了解之后,又会设计出更好的人工智能算法。两者其实并不矛盾,相辅相成,互相促进,不管谁输谁赢都是人类文明进步的体现。人类的智能也将始终走在机器的前面,而不会被机器取代。

发表评论

邮箱地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>