HPC云化是趋势,阿里云超算背后的推手——超算技术大牛何万青

《逐云》是云栖社区的一档人物记录短视频栏目。一共10集。锁定云技术领域,每期记录1位云技术细分领域的代表专家,见证云技术先行者在时代潮流下的选择与追寻、坚持与自由。了解更多云栖专家分享,请点击云栖专家频道,当然我们也欢迎你往前走一步,成为云栖专家,与技术大牛一起“煮酒论英雄”。

本期人物:阿里云高性能计算负责人、资深专家何万青

照片背后的故事:这是2017年4月份,在北京某咖啡厅所拍。临走之前,发现他的衣服很特别,我为他拍照做了记录。PS:四月初的北京,深夜还是挺冷的。咖啡厅打烊后,我们无处可去,就站在路边接着聊了40多分钟。

我不是学计算机的

何万青是做数值计算和AI算法应用的工程热物理博士、YOCSEF荣誉AC,曾在国电电力、摩托罗拉、英特尔、360云和华为工作过。尽管他不是学计算机的,但回顾求学生涯,你会发现他在学生时代,就已经显示出大牛的潜质。

在上海交通大学读博士期间,他就开发出了能实际应用在发电厂的产品。这个产品是国内最早、最成功的产品,不仅论文今天能在网上查到,各个电厂现在也还在使用他开发的产品。由于出类拔萃,何万青很早就“衣食无忧”了——学生期间,他是那届博士中收入最高的。

1999年,何万青带着博士期间开发的产品进入国电电力,开始在北京工作。一段时间后,他跨界来到IT领域——在摩托罗拉做手机DSP软件开发。跨行做IT,在他人眼中或许是充满艰辛的一条路,但在他眼中却显得一切很自然、轻巧。他说:“底层的数学是一样的,只不过今天它是变量,另外一个是已知量而已,然后换来换去。”

虽然摩托罗拉是他IT生涯的第一站,但他在第一站就“开挂”了。误打误撞中,他对“噪声”产生了兴趣,并成功生成人造舒适的背景噪声。而这又让他获得一个专利,成为当时摩托罗拉在技术领域的又一个护城河。

技术大牛往往喜欢具有挑战性的工作,何万青亦是如此,因此他来到了英特尔。在英特尔期间,何万青带出了世界上有名的高性能团队之一,同时他也参与了Xeon Phi和天河2号的优化工作。

对于天河二号,他说这是一段非常紧张、刺激的经历。原因有两点,一个是来自时间期限,错过这个时间后,就赶不上那年的世界第一了;第二个是优化过程中,有各种“疑难杂症”需要面对和协调……经历各种挑战和困难后,他们终于将天河二号推到世界第一。这段坎坷经历之后,“何万青”这个名字后来也出现在美国人写的Xeon Phi异构计算参考书上。

HPC云化是趋势

2017年,何万青来到阿里云。对于为什么来到阿里云,他在访谈中用了四个字来形容——“机缘巧合”。

机缘巧合之下是两方面因素,一是大环境,做云超算的契机已经出现了,云越来越成熟,它让超算普惠成为可能,而这个时候阿里云也需要开发自己的超算产品;其二是个人因素,何万青在高性能计算领域浸淫已达11年,在这样的情况下,他来到阿里云也就成了顺其自然的事情。

被《光明日报》整版刊出的文章《行百里者半九十:2016中国超算大满贯的转折》中,何万青透露了更多的认知:

1.正如,超算在硬件上的竞争跨越了一定阶段之后,全世界的技术前沿都开始向高性能应用软件和支撑软件上转折发力。一个全面云化、服务化和人工智能的时代,这才刚刚开启。

2.随着大数据和人工智能技术在互联网、自动驾驶、机器人等领域的回暖,新的对计算和数据迁移的压力,使得异构混合集群更成为高性能计算的主流架构。深度学习、神经网络和量子计算的引进成为新趋势。从计算的角度,当前高性能计算技术的阶段,可以总结为一句话:“计算近乎免费,而数据移动是昂贵的。”

何万青认为接下来的技术趋势是HPC as a Service,“大数据时代深层次的分析需要靠高性能计算,下一步要做的就是高性能计算服务上云,将它平民化、普惠所有用户,从而推动中国产业和科研转型,特别是推动中国自己的ISV和软件业走出被盗版和不盈利的怪圈。”

组建团队+产品开发,仅用了半年多时间

在2017年这半年多的时间,何万青不仅快速组建起团队,也把产品——阿里云弹性HPC开发出来,上线并进行公测。上线后,在没有宣传的情况下,有几百家用户已经在估测阿里云的HPC了。

快速将超算云化,除了给阿里云带来商业价值之外,在社会不断进步——大量设计、产品和技术都需要集群开发的今天,也提供了一个非常大的平台,让超算变得更加普惠;与此同时,这也使得国产的超算软件开发有了一个非常好的平台。因为教育这件事情,光靠超算自己是没办法承担的,需要云的方式进一步推进。更多阿里云解读:www.yangfenzi.com/tag/aliyun

半年时间就把产品开发出来,除了何万青高超的技术、到位的管理和丰富的人脉资源(人才储备)之外,这也是整个团队拥有阿里速度。何万青形容这种不断开发、不断迭代的速度像是小仓鼠跑笼子,“阿里人都在拼命的跑,但谁也不会告诉你,什么是最快的。”

”究竟是什么动力,促使这些年轻人在高速运转的工作里,能一直保持这种劲头?”何万青认为是阿里设计的愿景。它能让大家看到自己在做的事情对未来的价值,其次这些看起来不可能完成的目标的挑战,也能让阿里人在特别兴奋和刺激的压力之下,使得自己的能力提升,并不断形成正循环。何万青指出:“用马云的话来说就是,在阿里可能我们想让你达到唯一的一件事是,过了几年之后,你会成为一个更好的自己。”

真正的技术高手是怎么解决问题的?

“技术上有没有遇到什么难解的问题?怎么去找到问题解决之道的?”

对于这个问题,何万青并没有直接给出答案,而是先从当下有缺陷的理工科教育说起。为什么有人说当下有些硕士、博士眼高手低,这和中国教育有关系。虽然中国教育是系统性学习,但实际上缺乏实战,学生并不知道这些知识会用在哪,再加上,学校的教育有些的确是脱离实际,学生不得不死记硬背。

“这不是以解决问题为中心,所以很多人工作之后思维模式仍然如此,只会借鉴别人是怎么走的,而不懂得触及问题的本质。”

真正的高手是什么样的?何万青说,他们一开始会把更多时间放在分析问题和问题的本质上,从问题中心往外找原因,“一开始先找差距在哪,然后从它最明显的原因,一层层往外找。”

著名经济学家,技术思想家W Brian Arthur的著作《技术本质》对技术是什么和技术的进化、创新进行了非常理性的剖析。何万青读完后,其中一个认识是,技术的提高实际上是没有什么捷径的,都需要不断解决一个又一个问题。

这对技术新人、或者想获得快速发展的人有什么启示呢?那就是不要害怕出现问题,所有问题的出现都是学习的契机。从问题本身不断分解,用直接的方法一层层求解,在这个过程中构筑自己系统的知识。何万青说,阿里很多牛人,早期也都是从P4、P5做起来也是这原因,通过问题分析和解决构筑自己的知识体系。

“很多人也在做分析问题和解决问题,那为什么他们没有成为高手呢?”

“那是因为后面他没有做总结和系统的梳理。”

管理上,要把自己变成保姆

何万青在英特尔期间,带出来了世界上有名的高性能团队之一,那么他在管理上有什么心得呢?

他和云栖社区讲解到,管理者的发展一般是两个阶段。一个是学徒到独立贡献者;另外一个是从独立贡献者,变成一个关心他人成长的经理人。也就是说,人到了一定层次后,要把位置让出来给更多的年轻人,自己跳出来去摸更高的果子。

但一个合格的经理人、leader,是不会自然而然合格或成功的,“因为这中间存在心智模式的巨大改变,是需要原子能级的跃迁。”

为什么说中间存在心智模式的巨大改变?何万青称,有些技术人之所以能成为管理,是因为技术做的熟或在项目里来得早,因此获得了升迁机会。但他的心理和领导能力都没有达到要求,没有成为一个关心他人成长的经理人。因此,很多人都走不出原先的区域。比如说,当下属做出成绩,闪闪发光时,却有点遗憾,会在内心喃喃自语:当年我做得比他还好……

“相信很多企业都有大量这样的人。”如果是这样,你就不是一个好经理,何万青指出:“这样的管理者只是想法设法保持自己的权威,没有把底下的人培养成更好的那一个——刺激他们做出认为做不到的成绩。”这是技术管理者的心理和领导能力没有达到要求,还停留在在技术上证明自己的区域,没有向前一步。

除了技术纵深之外,作为一个技术管理人员,他还应是横向的,要了解手下人的事情还能做得多好、隔壁组在什么事情,以及如何跟上面建立好信任,争取更多的资源……这要求技术Leader的心智模式必须转变,不能只留意自己的名声、成绩,要把关心别人放在最前面。

尤其是当下属做出成绩时,不管你有没有参与,不要觉得遗憾,没有荣誉感。“因为哪怕你没有参与,也会打上你努力的烙印。”所以何万青认为,一名合格的经理,要学会给大家打气,关心他人的职业生涯,让所有人受益。“说句难听话,你要把自己变成保姆,成就他人。”

“如果因为做保姆,项目和产品做得非常好,并且自己也很自豪时,说明你完成转型了。”何万青认为,这个过程会非常难,因为把“我”去掉是一个大坎。

对于有些人的疑惑,是不是说做管理之后就不需要技术了。何万青强调,管理人也可以有很好的技术。他认为,可以通过两种方法达到:第一个是,在别人看不见的时间内修行;第二个是学习底层的东西,了解它们,在更高层次上进行提升。

做技术的一定要多跨界

何万青的兴趣爱好非常广泛,除了在佛学有一定境界外,他也做科普。

对于科普,何万青说,其实是源自在中国计算机学会高性能专委会和青年计算机科学论坛(CCF YOCSEF)任职的缘故,而后彻底爱上了科普。何万青是CCF资深职业发展讲师,他在计算机协会做分享的场数曾经有一年达64场,排名第二,而紧随其后的第三名则从18场开始 – “当时吓了我一跳,想想一路上我走过来所遇到的导师和教练,我又释然了“。

为什么喜欢科普,何万青说,除了是想做点有意义的事,承担社会责任外,他自己也非常Enjoy——这种为了把艰深的数学和技术问题给青少年讲清楚所做的努力。

“科普其实对演讲者是极大的锻炼,要把任何一个算法和技术扒到底层,然后用浅显、能够打比方说透的话讲清楚,非得对这个技术点有非常透彻的认识不可。这个认识往深了说,就是必须具备‘慧’,就是看到事物之间的相同相似。”

的确如此,何万青的口才并非一开始就这么好,但科普成就了他:“工作场合做分享,底下人会给你尊重,但在计算机协会是因为思想走到一起的,没有利益关系,所以必须要能吸引人,这非常锻炼口才。”

“你在淘宝上买东西,促成交易的同时,实际上也推动了时代的发展。”做科普,不仅给何万青带来好处,也给他人带来了改变。他在微信公众号的一篇文章中描述到:“当你需要仰望星空的时候,你心里的东西和别人是不一样的,它可以使你更加成其为一个全面的人,当你操作电脑上网时,你也和别人不一样,你会知道后面发生了什么,这个很有意义。”接着他指出Enjoy科普更深层次的原因:“我觉得意义就在这里,虽然不会马上有用处,但它改变的是人的心智模式,使一个人成为更为智慧和丰富的人。”

刚刚从CCF YOCSEF总部副主席指责上”退“下来,何万青目前是CCF YOCSEF荣誉AC,他也聊到计算机学会。他说,计算机学会里志同道合的人组成的思想共同体,给了年轻人很多的机会,让他们能够在社会的各个层面,慢慢成为精英,成为有影响的人,个人、甚至背后的企业也受益于此。有的时候,员工的个人影响力会超越企业本身的PR,何万青拿英特尔的一段经历举例:有个专家对英特尔有误解,在各个场合对英特尔有一些不礼貌的言词,但是发现专家在会议上跟我有非常好的互动,于是误解就慢慢没有了。“公司形象多少有点冰冷,而个人这种活生生的形象,则能够具象地传递企业的文化。”

何万青总结,做技术的一定要多跨界。“死死咬住某个方向是执着,这是好事;但从另外面来看,它也是一种病态。”他说,现在的年轻人最大的问题是比较脆弱,而反脆弱的一个方法就是多元化,“多元化能让你在一个环境里更加抗打击。就是你有各种乐趣的时候,就不会执着一件事情的得失,会走得比较远。”

结束语:阿里云处于这个时代,是一个非常酷的事情

访谈中,我们也聊到技术趋势,他认为趋势在很大程度上是能够被预见的。就像重力一样,一滴雨点流入山谷的实际路径是无法预测的,但大方向是很显然的:往下流。因此,电话是必然的,但iPhone不是;互联网是必然的,但Twitter不是……而在接下来超算普惠化也是一种必然。

当下的超算中心因为体制问题,运营模式无法满足当下广大需求。“而阿里云是国内最大的公有云,它最有可能推动成功,从而让其他领域内的人也有更多可能。”

“中国已经是一个经济大国,一个经济大国必然是计算强国,阿里云处于这个时代,是一个非常酷的事情。”这位高性能计算牛人如此说到。(受访者/何万青,文/我是主题曲哥哥)

·氧分子网http://www.yangfenzi.com)延伸阅读:

➤ 专访国家超级计算天津中心应用研发部部长孟祥飞

➤ 女科学家卢宇彤:超级计算机到底有多快?天河二号背后的故事

➤ 阿里云赵杰辉:如何快速复制阿里巴巴的互联网架构?

➤ 李玮:云计算崛起,阿里是否会成中国版Alphabet

➤ 云计算发展十年 给商业科技带来这三大变化

➤ 王如晨:阿里财报传播为什么突出云计算业务?

➤ 阿里副总裁徐子沛:普及云计算,建设指挥互联生活

➤ 你绝对猜不到Java之父詹姆斯·高斯林为什么加入亚马逊云计算

氧分子网(www.yangfenzi.com)是关注互联网生态圈的科技新媒体

·氧分子网http://www.yangfenzi.com)原创文章

您可能还喜欢…

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>