人物

阿里副总裁徐子沛：普及云计算，建设指挥互联生活

by 作业本 · 2015 年 04 月 10 日

云化就是互联网化，就是推动未来企业的互联互通。未来企业的互联互通，一定是数据层面的互联互通。

氧分子网科技讯 2015年4月9日，第三届中国电子信息博览会在深圳召开。工业和信息化部电子信息司司长刁石京主持开展了新一代信息技术产业发展高峰论坛。阿里巴巴集团副总裁徐子沛发表了主题为“普及云计算：建设指挥互联生活”的演讲，讲述了云在企业、软件中发挥的重要作用。

徐子沛介绍，云化就是互联网化，就是推动未来企业的互联互通。未来企业的互联互通，一定是数据层面的互联互通。数据就是企业的支撑。余额宝依靠阿里云才能每分钟处理金额达到一万亿，才能成为是中国基金史上突破千亿的单只基金。

徐子沛认为，除了在企业层面的作用，云在软件层面也发挥了重要作用。美国的软件优于中国的软件，原因就在于美国普及了云。美国的软件是以云的速度递送给用户的，软件更新的成本非常低，因此提高了用户更新不断更新软件的可能性。

从企业和软件两个层面来看，徐子沛认为，云是盘活数据资产的根本途径，云是推动软件革命的主要推手。在中国社会落实互联网+首要的就是普及云计算。

以下为徐子沛演讲全文:

谢谢主持人，尊敬的怀部长，李院士，各位嘉宾，各位企业家，非常高兴今天来做这个分享，我们刚刚谈了很多高大上的话题，工业4.0、机器人，现在我们要从云端下来，所以我的话题是云要落地，要普及云计算，是因为我们要建设指挥互联的生活。

我们从第一款云产品到现在，已经有近十年，一开始，无论是在美国还是在中国，都有人提，说要把云作为一种基础设施，但是无论在美国还是在中国，都没有成为现实，为什么呢？我认为是我们整个社会对云的认识还不够准确，还不够全面，或者说还不够积极。什么是云？我认为云是我们信息化的一个高级的阶段，云是把整个企业的信息化搬到互联网上，我们今天谈云，不仅仅是在谈减少成本，我们今天谈云，是要谈我们的企业在云上互联互通，所有的企业，未来的互联互通一定是数据层面的互联互通，我们今天建设云，就可以让我们的企业在云上，在数据上实现互联网。

我举个例子，大家知道阿里巴巴，我们今天阿里巴巴，俗称阿里巴巴，实际上我们有两个集团，一个是阿里巴巴集团，一个是小微精集团，我们做电商，后来转到了金融行业，比如我们的阿里小贷，我们用几分钟就可以为一个小微企业发放贷款，因为这个企业的数据全部在网上。还有一个互联网金融，互联网金融的创新，很多领域都集中在借贷上，现在一些新的创新，通过去读一个企业的ERP的数据去决定能不能给你贷款，不仅仅是这样，甚至有些公司读你ERP的数据，还有你发快递的数据，他用这个数据来判断你是不是一个皮包公司。

我们知道UPS会不会免费让他查这个数据？不会的，UPS是一个商业模式，可能是按次付钱，也可能是按月付钱，但是如果这些数据不在云上，那就没可能，那就回到了传统银行的模式，实施性下降，成本上升，只有放到云上，别人才相信。我们现在经常有一句话说，云和大数据是一个硬币的两面，我认为还不全面，云是这个硬币的背面。我们还有一句话，说数据现在就是企业的支撑，要不要盘活这个资产,让它成为活的数据?7×24的数据，那就是上云，上云就是互联网。

按照这个思路，我们阿里巴巴就成立了我们智能家居生活，我们提供一个平台，我们核心的支撑就是智能云，我们向所有的硬件厂商开放，空调可以进来，冰箱可以进来，窗帘可以进来，灯具可以进来，我们是一个物联网的接口，我们可以创维也有合作。然后用一个集中的APP应用，叫阿里小子，在一个平台上可以控制你所有的东西。我们所有智能家居厂商是提供的单一的解决方案，我不可能为了装一个灯就装一个APP，所以我们提供的是云平台，不仅要达到互联互通，背后还有大数据。

我知道，我要开空调了，我知道哪一个人，一个家庭很多个成员，谁进到这个房间，我可以识别他，识别他以后可以给他提供个性化的温度，个性化的灯光，这都是我们要放到一朵云上，让它互联互通，刚才怀部长提到了上午参观我们的汽车，我向怀部长介绍的时候，在我们的汽车上不需要CD，未来汽车没油了，我们的中控平台可以告诉你，离你现在最近的加油站在哪里，它的价钱是多少。怀部长问了一个很好的问题，那如果云没有了，停了怎么办？这个问题把我问倒了，我也没有答案，但是我想起了一个故事，就是当年电普及的时候，大家用电用得很欢乐，某位社会学家问，如果突然停电了会怎么办呢？后来历史上就出现了大停电的事件，包括纽约，社会学家后来就发现，一停电，出生率就上升了，大家可以去想象，为什么停电就出生率上升了呢？停电会不会导致出生率上升？我也不知道答案，但我相信可能很快，我们的社会学家就要去研究如果网络断了，如果云没有了，我们的出生率会不会上升？

好，我们刚才讲的是智能家居，现在不仅仅是家居，不仅仅是机器，我们的人也在连上互联网，我们现在看到可穿戴设备正在成为一个热词，一个手环你戴着，你的心跳、脉搏都记录下来，未来会源源不断地传送到云端，它传送到云端之后，才可以跟医院连接起来，医院的医生拿到这个数据，就不需要再测血压，不用再把握。我的感触很深，为什么呢？我在美国生活了八九年，美国去医院第一件事情就是量血压、测脉搏，现在我们可穿戴设备之所以还没有普及，就是还没有普及，我现在来到阿里巴巴，在浙江，最近浙江发生了一件小事情，什么呢？一个打工在外的游子，打电话回家，发现家里没人听电话，非常着急，打开门发现父亲已经去世了，母亲也去世了，父亲是因为心脏病发，母亲是瘫痪在床上活活饿死了。我们会迎来一个更大规模的数据发展，我们现在的爆炸是什么呢？是微信、微博、新媒体导致的数据爆炸，接下来是机器、人体、7×24不间断产生数据导致爆炸。

我要讲云的第二个作用，被大家忽略了，就是云催生的软件很多，为什么这么讲？我们讲传统的软件是怎么样的？是在本地对不对？但是本地的软件怎么更新呢？软件服务商、开发商要派人来本地，来开发这个软件，或者把一个光碟寄给你，这样成本是很高的，导致的结果是什么呢？软件开发上就不愿意，他没有动力去更新自己的软件，这恰恰是我们中国软件界的现状。美国呢，为什么经常很多人看到美国的软件就是比我们的好一些，原因在哪？原因就在于他们普及了云，他们的软件是以云的速度递送给你的，我们大家都用WINDOWS，它是几个星期更新一次，软件更新的成本非常低，因为软件更新的成本非常低，所以它愿意不断更新，而我们把软件比喻成一种物种的话，云诞生之后，软件诞生的速度骤然增加，所以我们也要普及云。

我中午看到一篇文章，在今天的报纸上，软件是我们成为智能时代的一个核心，一个动力，举个例子，我们阿里巴巴，大家知道，刷脸，我们在不要这种密码，有调查显示一个人最多记住七个密码，我相信大家都有这种问题，保险柜要密码，银行卡要密码，我们刷脸也很难，难在哪里？难在光线，角度不一样，表情不一样，脸都不一样，我们专家也谈了，我们今天为什么能把这个技术不断地往前推进，就是因为我们今天的软件嫁接在云上。我们能不断地更新，不断地去打补丁，不断地去升级，识别率能不断地提高。

好，我讲了两点，第一，云推动了我们互联互通，未来的企业一定要互联互通，这种互联互通不是别的层面，是数据层面，是云端的互联互通，第二，云推动了软件的发展，我再跟大家说两句，我们的余额宝，余额宝是中国基金史上突破千亿的单只基金。原来每分钟只能处理一千亿，现在能处理一万亿，没有阿里云，是没办法做到的。云是怎么产生的？也是跟阿里巴巴产生的瓶颈有关的，阿里巴巴最开始是做电商的，很多平台上的客户、商店，不能处理他们的需求，一过节的时候，很多订单就来了，这些商家处理不了，ERP系统要崩溃，所以为了解决这些商家的问题，阿里巴巴开发阿里云，把这些商家放到阿里云上，完全实现了一种按需增长，弹性机制。

我们再说云有什么好处，降低了成本，弹性的成本，而且天弘基金，是一家实实在在的轻公司，它所有的数据都在云上，它今天在天津，它明天要搬到深圳来，轻轻松松。所以云不仅仅是降低了成本，它事实上是增大了企业的灵活性，一个企业变得更加灵活了，它更加专注于自己的事情。

好，我最后的结论是，数据驱动世界，软件定义世界，云是盘活数据资产的根本途径，云是推动我们软件革命的主要推手，云还降低了企业的成本，增强了企业的灵活性，我们今天要讲，在我们中国社会落实互联网+首当其冲就是普及我们的云计算。

好，我的演讲就到这里，谢谢大家！

Tags: 云计算徐子沛阿里

您可能还喜欢…

上一篇: 腾讯副总裁邱跃鹏：用云技术推进互联网+战略落地

下一篇: 工程院院士李德毅：通过大数据聚类认知发现价值

讲堂|吕岩：云计算的听说读写说道：

2017 年 05 月 04 日上午 12:31

近年来，隐于无形的云计算逐渐深入人心，然而云与端的距离却为云计算的听说读写带来了新的挑战，人与云的互动既需要人与端的交互，也需要端与云的互联。

在微软AI讲堂哈尔滨工业大学站上，微软亚洲研究院资深研究员吕岩博士分享了多媒体计算、智能计算与云计算的相互关系，并通过两个项目详细说明了如何通过多媒体计算与智能计算为云计算带来自然的听说读写能力。

下面就让我们一起回顾一下吕岩博士的演讲——云计算的听说读写。

演讲全文如下（文字内容有精简）

各位老师同学，大家好。我是吕岩，在微软亚洲研究院主要负责多媒体计算方向的研究。今天主要想跟大家分享一下如何通过多媒体技术和人工智能技术推动人与云的交互，带来一种更新的计算体验，甚至推动计算技术的演进。

我在做硕士课题的时候有一些研究成果（如上图），当时做的是面部表情的识别。大家可以看到，这些表情都非常夸张，有很多表演成分在里面。为什么这样？主要是当时的数据样本很少，采集图像的难度非常大，而我们自己又很难模拟出自然的情绪表情。而今天，因为互联网上有很多表情自然的图像，通过深度学习，已经可以极大地提高识别精度了。下面，我想跟大家分享一下识别算法背后的东西。

面部表情识别只是计算机理解人的行为的一部分，对于计算机来说，真正和人打交道的是多通道的人机交互和用户界面，也就是计算机的输入与输出。

除了传统的键盘鼠标等输入，语音和图像的输入也变得越来越普及。例如，通过语音识别，可以让机器听懂人的命令。通过视频输入，可以让机器识别人脸以及表情等，也就有了看和理解的能力，我们把这种能力称为读的能力。

前面强调的都是输入，对计算机来说，输出也很重要。计算机的输出通常指音视频的输出，例如通过语音合成技术，可以让机器具有说的能力，通过屏幕渲染，可以让机器具有写的能力。我们认为，写就是让机器输出视频，其背后可以是非常复杂的图形渲染过程。

机器的听说读写代表了自然的人机交互，而人机交互是通过用户界面实现的。用户界面对应着对音视频等多媒体数据的处理，所以可以把人机交互抽象为对音视频等多媒体数据的处理。

再来看一下云计算环境下的人机交互。人总是通过客户端与机器进行交互，客户端既包括PC、平板电脑和手机等常见设备，也包括智能电视、智能电器等其它的应用电器。云与端通过网络连接，可以实现存储与计算的共享。

存储与计算背后对应的也是数据的处理，例如计算，就是对代码和程序的执行过程。用户界面也对应于对音视频等多媒体数据的处理，而这个处理的过程，既可以在端做，也可以在云里做。所以说，云计算的听说读写，就是在云里对用户界面所涉及到的多媒体数据进行处理。大多数用户界面需要实时处理，具有低延迟的反馈，因此需要云与端的同步，而多媒体技术是实现云与端同步的关键。所以说，多媒体技术不仅仅可以给用户带来视听的享受，还可以推动计算技术的演进，甚至是一场革命。

今天主要想跟大家分享两个项目，一个是云中的屏幕，另外一个是云中的视觉。第一个，主要是把视频作为一种输出，背后的技术包括多媒体技术，还有一些图形渲染的技术；第二个项目主要是把视频当成一种输入的数据来看待。

云中的屏幕这个项目我们已经做了大约十几年了，但是我认为直到今天，相关的研究内容还是很有价值的。我们很早的时候就把这种屏幕渲染的工作拿到云端去做，把屏幕扩展成一个更广义的用户的输入与输出的数据。这样，所有的人机交互工作，我们都可以把它抽象成一种对数据的处理，也就是对输入和输出数据的处理。

这个视频实际上是微软在2020年的愿景之一。这里面有很多很多的屏幕，我们可以认为它是计算无处不在，屏幕无处不在的一个场景。

但是作为研究员来讲，我们更多的是想怎么样实现这样的技术，例如，这些屏幕从哪来？所以我们在想，能不能通过云端生成这样一个屏幕，把它投影到不同的显示设备上。它的好处就是，当我从一个房间换到另外一个房间时，所有的内容都可以跟着我走，可以跑到我周围所有的显示设备上去，这样通过云或者超强的服务器来实现屏幕渲染，即可以简化系统。

除了这些超炫的显示设备，我们回过头来看看现有的有显示功能的计算设备，如手机、平板电脑、智能电视等。我们认为这些设备通过网络连接起来，就可以建成一个私有云，或者叫做设备云，再和公有云结合起来，就形成了一个完整的云环境。

搭建这样的云环境，并不复杂，通过用户界面的虚拟化就可以实现。虚拟化的好处是可以尽量利用现有的应用。通过虚拟化，可以将包括云在内的各种设备的输入、输出等模块暴露出来并共享给其它设备使用。譬如说，我们可以将Xbox上渲染的内容在平板电脑上显示，同时将平板上的输入反馈给Xbox，这样就可以在平板上玩Xbox的游戏。这个功能目前已经在Windows系统中实现了。实现这个功能，主要是通过用户界面，特别是屏幕做虚拟化，然后对屏幕视频进行压缩和传输。

刚才提到的关键技术是设备的虚拟化。虚拟化包括计算和存储。当然，我们更关注它的输入和输出，如果我们把输入和输出虚拟化，然后对这些相关的数据进行压缩再传输，从而实现云和终端之间的同步，那么我们就可以认为这个计算可以在任何地方进行，它的显示、输入可以在另外任何一个其他的地方得到结果。

这是一个用户界面虚拟化及串流的基本过程。看似这个过程比较简单，但是挑战却非常大。通常流媒体可以允许一定的延迟，例如几百毫秒，甚至几秒的延迟。而云与端显示内容的同步要求延迟最多几十毫秒，甚至接近于0。用户界面的同步，既包括输入的同步，也包括输出的同步，所以屏幕视频的数据量极大，因此屏幕视频的压缩也是关键。

上图是一个典型的计算机屏幕图像，它和传统的自然图像不太一样。首先这里有很多文字，还有一些文字在图像上。我们当然可以用一些传统的视频压缩算法来压缩，但效率不高，也很难保证文字部分的视觉质量。

所以我们组开发了一些新的屏幕图像压缩算法，主要是对屏幕内容进行分析，对文字丰富的区域和自然图像区域采用不同的编码方法。这样不仅可以提高编码效率，还可以针对输出设备的不同，做一些增强的显示。现在，一些视频编码标准也开始关注屏幕视频的压缩，我们研究组有几项技术被国际最新的编码标准H.265所采纳。

大家想一想，如果能对图像进行内容分析，那么就可以实现更多的功能，比如一个图像显示在电视上和手机上，我们关注的重点是不一样的，我们想把它自适应地显示到所有的显示设备上，这就需要一些智能的处理，在这个里面的研究内容会非常的多。

刚才介绍的是把视频作为一种输出，实际上视频还可以作为一种输入，在几年前这个可能听起来不是那么容易理解，但是今天以图像、视频作为输入的系统已经有很多了。微软推出的认知服务，就包括了计算机视觉API等，通过上传图像到云端，就可以识别图像中的人脸，表情，年龄等，然后再返回给用户。但是要把视频作为输入，就相当的具有挑战性。如果是离线应用还好，不需要太在意延迟，但如果需要实时交互，则对视频处理的实时性要求更高。因此，我们研究的重点就是实时的、低延迟的智能视频分析。

以会议场景为例，在会议室里面如果有一个摄像头可以把周围的场景拍摄下来，它就可以做很多事情，比如可以用手势来控制演讲的幻灯片播放等。

大约三、四年前我们开发了一个采用ARM CPU的小盒子，它可以连接上投影仪和Kinect，一方面实现无线投影的功能，另一方面还可以通过Kinect实现手势控制。要知道，Kinect原本是连接到Xbox上的，在Xbox上实现手势识别，但我们做的小盒子处理器能力较弱，所以需要服务器或者云的帮忙。

在云端做识别还有一个好处，就是识别算法的更新升级可以更快。这样，就需要深度图像的压缩和传输。解压缩的图像不是为了看，而是为了识别，因此对压缩算法的设计要求就有所不同。另一方面，我们的手势有时是为了控制，有时是为了演讲的需要，因此我们可以有选择地控制采集频率。总之，在这样的系统中，需要综合考虑计算机视觉、视频压缩和多媒体通信等领域技术，使它们协同工作。

前面的应用主要是以视频作为输入，由用户来主动控制计算机，而更加智能的应用则是让计算机主动地理解环境。以会议场景为例，机器如果知道在会议室的某个角落有几个人在交谈，它可能会把一些灯光切到这个地方，或者是做一些相关的操作，比如把会议内容摘要记录下来等等，这些都需要对整个环境进行理解。

对人的理解和动作的识别，是以对人的检测和跟踪为基础的。所以，在智能视频分析上，我们重点关注的是实时的多目标检测和跟踪，特别是人的检测和跟踪。

人体是非刚体，所以人体检测通常比人脸检测更难，更具有挑战性。而深度学习和卷积神经网络的发展极大地提高了精度，但也带来了极大的计算开销。目标的跟踪是在目标检测的基础上进行的，算法的执行比较快，但算法通常很复杂，处理的情况很多。例如，当一个人被遮挡后，在重新出现时需要保持ID不变，也就需要Re-ID的技术。我们在目标检测和跟踪上都有一些核心算法。在一些公开的数据集上也有很好的排名。

那么到底应该在云里做，还是在摄像头里做？

我们针对现在的算法做了一些实验。如果在摄像头上做人体检测，在保证精度的前提下，基本上需要1秒1帧。而人体跟踪可以比较快，所以可以做到60毫秒1帧。显然，这个速度满足不了实时的要求，如果在云或者服务器端做，速度可以很快，但是把视频上传到服务器的代价也比较高，容易产生比较大的延迟。

所以，最直接的想法就是采用云和摄像头的混合方案，把关键帧送到云里做人体检测，再把结果返回摄像头继续做人体跟踪。这样，大部分视频帧是在摄像头直接完成的，减少了视频传输的开销，也减小了延迟。

当然，对关键帧的人体检测仍然会有比较大的延迟，在算法实现上还可以通过前面目标跟踪的结果加速目标检测的过程。总之，实际的算法会相对比较复杂，流程涉及到的一些小算法比较多，需要合在一起才能得到一个比较完美的结果。这也是我们组现在研究的重点。

给大家看看这个结果，这是一个人的检测算法，大家可以看到，如果我们想在高端机器上去做，结果会变得很完美，但实际上因为是在摄像头里面做的，所以有时候稍微有一些抖动，但是整体的结果还是相当棒的。

我们可以检测出人的位置，而且能把他的ID保持不变。这个位置的定位很有意思，我们是通过单一摄像头来实现的，所以也是一个简单的算法，基本上就可以把每个人的位置算出来。后面是车的检测，其实车的检测相对来说会容易很多，基本上所有的车都能检测出来，主要是因为人是非刚体。

总结一下，今天主要介绍如何通过多媒体技术连接云与端，通过用户界面的虚拟化为云计算带来智能的交互。重点讲了两个项目，云中的屏幕和云中的视觉。通过这个报告，想告诉大家我们既做基础算法研究，也做交叉学科的系统研究，包括云计算、移动计算、计算机视觉、机器学习、多媒体计算与通信等不同的领域。

我们多媒体计算组致力于推进媒体技术以帮助计算技术的演进。

这就是我今天报告的内容，谢谢！

作者简介

吕岩，微软亚洲研究院资深研究员

吕岩于2003年获得哈尔滨工业大学工学博士学位，2004年加入微软亚洲研究院，现领导多媒体计算组从事计算机视觉、智能视频分析、模式识别、视频编码及通信、自然用户界面、虚拟化及云计算等相关方向的关键技术研究，其中多项研究成果转化至微软产品如Xbox, Kinect, Windows, Office Live Meeting (Lync)，及Azure Media Service中。在顶级学术会议及期刊发表论文100余篇，拥有30余项美国专利。

回复

阿里副总裁徐子沛：普及云计算，建设指挥互联生活

您可能还喜欢…

1 Response

发表评论取消回复

推荐文章

热门推荐

推荐图文

最新文章

阿里副总裁徐子沛：普及云计算，建设指挥互联生活

您可能还喜欢…

Bright创始人爱德华多·维瓦斯

启赋资本傅哲宽：创业更看好互联网+与新材料行业

贾跃亭：互联网电视定会成为趋势

1 Response

发表评论 取消回复

推荐文章

热门推荐

推荐图文

最新文章

发表评论取消回复