工程院院士李德毅:通过大数据聚类认知发现价值

这种聚类是跨学科、跨领域、跨媒体的,并且已经成为许多行业的核心竞争力。

李德毅:大数据突破点在于聚类

氧分子网科技讯  2015年4月9日,第三届中国电子信息博览会在深圳召开。工业和信息化部电子信息司司长刁石京主持开展了新一代信息技术产业发展高峰论坛。中国工程院院士李德毅发表了主题为“大数据认知”的演讲,对大数据的发展前景做出了展望。

人类社会文明已经进入到了数据密集型的新时代,大数据已经成为重要的资产。在李德毅看来,大数据本身既不是科学,也不是技术,它反映的是网络时代的一种客观存在。而数据数量巨大,价值密度低,实时在线,多源异构,给人们的认知造成了很大的困扰。

李德毅认为, 人类的认知科学要想有所突破,首先就要在大数据聚类上去的突破,聚类是挖掘大数据资产价值的第一步。这种聚类是跨学科、跨领域、跨媒体的,并且已经成为许多行业的核心竞争力。人脑的认知能力不能够全部、完整、统一地形式化,但特定的情境下的认知能力是否可以先局部地形式化。

智能机器人是物联网不可或缺的端设备,一直以来都是人类关注的重点。李德毅认为,机器人既使用大数据也产生大数据,既是大数据的产物,也是大数据的推动者,机器人是大数据的认知的典型代表。人脑的认知能力不能够全部、完整、统一地形式化,但特定的情境下的认知能力是否可以先局部地形式化,而机器人就是人类的思维移植。

以下为李德毅演讲全文:

尊敬的怀部长,各位来宾,女士们,先生们,我汇报的主题是大数据认知,云计算、大数据、认知,大家知道认知是现在全球都感兴趣的话题。所谓认知,就是怎么样获取知识和技能的能力,所以我的第一个小标题是讲一下认知。

大数据标志着一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。

大数据来源于人类的测量、记录和分析世界的渴望和无尽的追求。随着信息技术,尤其是传感器、通信、计算机和互联网技术的迅猛发展和广泛应用,人类获取数据的手段越来越多,速度大大加快、成本急剧降低,层次和尺度更为精细,揭示自然现象和社会现象更加深刻,人联网和物联网又使得人人物物都成为数据源,这样一来,大数据成为网络时代人类社会的重要资产。

我想说一个观点,大数据本身既不是科学,也不是技术,我个人认为,它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战的数据。

数据量巨大,价值密度低,实时在线,多源异构,怎么办?举个例子吧!聚类,物以类聚,人以群分,这是人类几千年来认识世界和社会的基本能力,是从大数据中发现价值必须面对的一个普遍性、基础性问题,是认知科学作为学科的学科,要解决的首要问题。无论是政治、经济、文学、历史、社会、文化、还是数理、化工、医农、交通、地理、各行各业的大数据或宏观或微观的任何价值发现。

2008年XX专刊登了一篇文章,人们对小标题关注不够,这个小标题讲的PB时代的科学怎么做。大数据分析和挖掘的首要任务是聚类,这种聚类是跨学科、跨领域、跨媒体的。

聚类的挑战性很多,有人是并行计算等等,我不细讲了。我想说的是大数据聚类表现形态。

我想用几个例子来讲一讲,人类走过了几千年的实验科学、几百年的理论科学,保险是一个很传统的行业,基于概念评估的生意,保险公司对车险客户是这样聚类的:A类连续两年没有出车祸的,B类,最近一年没有出车祸的,C类过去一年出了一次车祸的,D类过去一年出了两此及以上车祸的。我从机场到深圳来,你坐飞机从北京到深圳,保险公司给你付了,我一了解,这个保险是20块钱,这个保险公司买了你三个大数据,身份证,还有你的手机号,各位企业、各位领导,各位老百姓,你们想一想。

物联网时代,当汽车成为轮式机器人,成为大数据发生器以后,就是一个大数据发生体,每一次驾驶,每一次维修,每一次行驶,甚至每一次刹车,都会记录在岸,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低,不勤开车的特定客户,给予更大的优惠,而对风险太高的客户报高价甚至拒绝,例如出租车司机跑的比老百姓多得多,总之能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式。这就是大数据聚类成为保险公司的核心竞争力,我扩张一下,就是大数据聚类成为很多行业的核心竞争力。

非大数据时代,做一个人脸的识别,我们可以提取它十个特征,第二类先结构化存起来,你想一想,如果十个特征都一样的话,两个人是不是同一个人呢?当然,这也是不可能的,但是我们再想一想,人类智能来看,它忽略了什么呢?我认为它忽略了太多,这种人脸识别仅仅是几何结构的聚类,落入集合学框架,忽略了聚类的不确定性,忽略了聚类的多样性等等。

再举个例子,大数据写诗,人们熟读众多诗词,记住了针对各种意境的大量字串。例如说李白一生写诗1010首,把他所有诗句进行机械切割。李白给毛主席诞辰100周年写一首诗,就是这样。

大数据对形式化方法的挑战是非常严峻的,在数据密集型的网络时代,任何传统学科,或者传统的行业,它的公理、原理和定理组成的语境,遇到互联网+的挑战之后,这样一来,传统的学科行业,或者是交叉学科,成为一个大数据、小模型、小定律、交叉学科的时代,模型和程序要围绕数据转。

创新,表示在创造一个新的语境,新的坐标系,在这个坐标系下研究大数据,在互联网情况下,如何创造你新的坐标系,新的语境,否则难以有新的发现。

实践中的研究,由下而上要深入,数据要胜过程序,价值要胜过知识,关联要胜过因果,更多要关注有意义的小众,把这些小众累积起来才成为大众。

通过大数据聚类即时发现价值,要充分认识大数据中的不确定性和价值的隐蔽性。

机器人如何认知是我讲的第二个问题,这七个字,可以有两种划分,一种是机器人如何认知,你要把这个弄清楚,我觉得实际上是在弄这个,机器人在想,人如何认知,智能机器人是集新材料、新工艺、新能源、机械、电子、移动通信、全球定位导航、移动互联网、云计算、大数据、自动化、人工智能、认知科学、乃至人文艺术等多个学科、多种技术于一身的人造精灵,是人联网、物联网不可或缺的端设备,是人类社会走向智慧生活的重要伴侣。

机器人既是使用大数据也产生大数据,既是大数据的产物,也是大数据的推动者,机器人是大数据的认知的典型代表,机器人时代真的来了,我们希望我们以后的黄牛退休、铁牛耕地,这个铁牛就是机器人,农民进城,机器人耕地,医疗与健康机器人,服务机器人更是上上下下,当然还有太空机器人等。

我先讲一下服务机器人,高考机器人,就是由知识的碎片化,大数据来认知,就说明我们的教育不能光是填知识,我们现在做一个报告,我们可以用机器人来撰稿,机器人导航,机器人手术等。

如果语言、文本、歌曲、剧本,都可以用虚拟机器人,训练他的形象、情感、动作、语音、语调、风格,利用大数据,发出新的歌声。

机器人革命是世界性的、时代性的,机器人换人首先不是换掉理发师之类的劳动者,而可能是产业工人、文秘人员、医生、服务员、甚至士兵,他们将升级转型成为机器人的创造者和使用者,成为懂得集成、维修、管理机器人的专业人才。跨界渗透和跨界创新诞生的智能制造也是我国抓住历史机遇的又一次崛起。

我想做一个可穿戴设备的案例,如果你能做一个人和人的衣服,动力驱动,研制一个可穿戴的机械,帮助负重、助行、转体、条约的话,不仅可以让机器人站起来走路,还可以让特种兵成为飞人、超人。

这就是这样一些机器人,可穿戴的外部增强的机器人,这是我想做的家庭服务机器人,今天企业家很多,我在这投一个标,我想做这边这一个机器人,谁能做下面的轮子,从餐厅到卧室,从卧室到书房,希望大家有兴趣能够谈一谈。

机器人还将进一步刮起穿戴风,苹果做了手表,这个手表里面有一个检查老年痴呆的,苹果发表了5个APP商家,启动全新医疗应用,我们想一想,如果有一天让手机或者手表成为医疗诊断的工具,成为用于慢性管理的医患视频互动平台,成为医疗互联网个人健康与医疗的数据发生器,成为远程诊疗的开始,成为某种流行病的社会调查,成为病友社交网络,甚至会颠覆传统看病模式,颠覆传统医学研究。

生物机器人遐想,我们人的想象中,生命的多种形象,如果器官移植越来越发达,那么移花接木就屡见不鲜。将来,谁是谁搞不清楚了,如果这个人的脸换到另一个人的身上去,怎么界定?从定制治疗到定制婴儿,改造人类胚胎DNA,会不会避免遗传性疾病?如果将人的思维移植到机器人,那么思想是不是不朽的呢?

我现在想做一个东西,我想做一个机器驾驶脑。在脑科学取得重大突破前,能不能做得出来?人脑很复杂,我跟一个美国科学院士,是个华人,在科技部开的咨询会上,他告诉我一句话,让我很吃惊,他回答我的问题,脑里要花一个脑袋功能结构图,100年都画不出,他说你看一看生命科学的书,那叫人脑的组织结构图,全球已经发现500多种脑部疾病。

科学界正把脑科学和认知科学作为当前的重大研究领域,我们热切期待生物脑的出现。

难道认知科学就是研究生物脑的自然属性吗?怎样把社会属性研究进去呢?我提出来要研究文字、文明和传承,我们各种高端生物都会有语言、文字的,因为有了文字,才有了文明。要研究脑认知的后天属性,研究脑发育、可塑性与自然环境的关系,认知也是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人脑认知的成长机制:如何创建神经元之间新的连接和新的认知。

我们想一下,人的智能,除了记忆之外,在学习和思维上,到底有什么能耐?客观地说,或者概括地说,一个是逻辑思维,一个是形象思维,形象思维最主要的是两个,一个是类比,一个是联想,主要解决的是图象。

因此我的技术观点是如果人脑的认知能力不能够全部、完整、统一地形式化、但特定的情境下的认知能力是否可以先局部地形式化,例如算术运算、简单游戏、博弈、定点开车等。

就在此时此刻,美国的一个汽车公司,真的从洛杉矶往纽约开,他要开5000多公里。我们有很多摄像头,还有汽车本身的运动参数,再一个就是我们的导航地图,还有雷达传感器,我们利用一次规划,和驾驶地图,形成一个初位化。我们认为,我们的驾驶脑主要涵盖了人脑关于驾驶行为的主要功能,长期记忆、短期记忆,还有瞬间记忆,就是感觉记忆,从感知到认知,到行动。我今天在博览会上找了好几个厂家,希望跟他们合作,X1芯片,我们能不能做出我们自己的XPA,让我们的汽车工业在智能时代到来中不错失又一次机遇。谢谢大家!

中国脑计划马上要启动了,我个人认为是要将三项研究同步进行,因为大数据三化来认识脑袋,保护脑,模拟脑,谢谢!

分享给您的好友:

您可能还喜欢…

1 Response

  1. 大数据产业进入沉浸战:“三个身位”与“一个数字中国”说道:

    5月25日,我作为特邀嘉宾参加了一年一度的贵阳大数据博览会,并且与中国大数据与智慧城市产业先行者神州控股合作,在数博会现场为广大网友带来了现场直播。这次直播取得了数百万次观看、数十万点赞的优异成绩。

    文/王冠雄

    大数据、云计算、智慧城市这些全新的产业概念正在一步步走到普通消费者的身边。因此,重新认识真实的大数据产业、了解这个关乎民生的科技赛道正在发生哪些变化与竞争,就变得史无前例地重要起来。今天我们就从我格外关注的神州控股的智慧城市之路与全新战略转型说起,聊一聊我眼中的大数据产业的全新阶段——“大数据沉浸战”。

    我的一个基本判断是,在专注智慧城市产业建设、衍生了18种大数据与云计算业务分支之后,神州控股已经在这场战役中领先了三个身位。下面就来详细阐述一下我的思考。

    【何为沉浸战?神州控股七年筑“城”只待今朝】

    如果在一个相对长时间的产业周期中来观察,今天的大数据、云计算、物联网三大产业竞赛,究竟处于怎样的历史位置当中?

    综合信息技术与移动互联网的发展周期规律,我们或许可以将这一类新技术的普及之路分为三个部分:首先是技术解决方案与产业基础铺设的生成战;第二步是产业势能正式进入应用阶段,为全社会释放产业红利的沉浸战;第三步,则是综合渠道、技术、营销与平台效应的生态战。

    经过了漫长的基础设备与能力建设以及市场心智的接受周期,目前的大数据产业已经正式进入了沉浸战的关键节点——整个市场环境需要沉浸入大数据与云计算带来的优质体验当中,将技术转化为助力国计民生的能源与真实价值。

    李总理在评价大数据产业时曾说:“今天的中国,必须利用大数据等技术为民谋利、解民所忧,促进形成公平普惠、便捷高效的民生服务体系。”其中所表达的意思,正是大数据必须由技术进入实用轨道,成为高度赋能今天整个中国经济体的科技之火。

    而这样的致用、实用、善用的大数据产业思维,也正是神州控股创始人郭为先生很早以前就认定的目标。2010年,神州控股开始全面转型进入智慧城市赛道,率先打响了大数据、云计算与人工智能技术赋能民生、富强国家的大数据沉浸战。

    这样的远见卓识,带来了此次数博会上神州控股展示的数字中国体系,同时让神州控股在接下来的产业沉浸战中,取得了三大身位的先发优势。

    【第一个身位:智慧城市是大数据的生命之源】

    我们知道,民生大数据、政务大数据以及产业大数据,是一个关系到第四次工业革命与全面数字进程的重中之重。相比于大数据、云计算产业的其他主流玩家,神州控股很早就看到了这些基本数据的战略高点和未来价值。

    在行业普遍更加重视能带来短期利益的项目时,神州控股更加高屋建瓴地意识到了“城市”这个宏大命题本身的数据价值。如果说以前的城市是由物理世界和信息化构成的,那么未来的城市将以大数据为另一个重要的循环系统。

    在这个智慧城市的循环系统之中,大数据就是万物的雨水和空气。以大数据连接现代城市的核心零部件,神州控股通过对工业制造、金融商业、政府管理、医疗健康等多个领域的数据化重构,让智能在城市生活中自由流动。

    大数据时代最重要的两大特征,就是万物互联+数据生态化。

    万物互联得以提供足够量级的数据供给智慧城市新大脑进行深度挖掘。以神州控股新型智慧城市操作系统为例,通过智能终端深度挖掘采集并分析的多重数据,将通过多种源头进入数据分析系统并整合成独立的决策建议。

    从2001年到2016年,神州控股完成了智慧城市战略布局的第一个阶段——神州控股的智慧城市服务已经在全国120多个城市展开,与40多个城市签署了战略合作协议,搭建了30多个城市运营服务平台。

    稳固的智慧城市体系与筑民生服务体系,让神州控股在大数据的来源与产业释放端上都拥有了高于行业的优势。而与民生、城市、经济产业这些基础经济捆绑在一起,也让神州控股的大数据闭环得到最大程度的加固。

    智慧城市战略的宏观价值与准确落地,让神州控股在未来大数据之战中获得了生命之源。郭为先生曾经说,7年的智慧城市实践,经历了生与死的考验。如今看来,这场试炼到了花开果熟的时候。

    【第二个身位:生态化结构是大数据的未来之钥】

    我曾经在【重创新】互联网产业方法论中率先提出过,互联网产业拼到最后拼的是生态。只有内部生态无限完整,整个产业架构有合理的生态循环体系,才能生生不息、长盛不衰。

    而在高速奔腾的大数据产业赛道上,很多玩家就忘记了生态化支撑的必要性,过于孤注一掷投入到某个端口中,忘记了中和万物的中国传统商业智慧。

    然而,我看到了神州控股这样的大数据企业并没有在高速发展变化的大数据竞赛中忘记自己的初心与生态化生存的互联网智慧。

    在大数据产业发展与落地的过程中,神州控股凭借人工智能技术创新、线上线下融合以及物联网的新趋势,打破了大数据在多源异构的处理上的数据壁垒,形成了整个内部技术端口、内生产业体系以及生态伙伴体系的三大生态架构,并对整个神州控股大数据与智慧城市生态圈进行了不断的整合与完善。

    从智慧城市解决方案上讲,神州控股的生态化,是基于核心的大数据深网挖掘技术,依托新型智慧城市操作系统的支撑,通过在多个领域构筑“数据大脑”,来实现对城市的生态化构建。

    从产业结构的生态化上来说,神州控股以智慧城市为先导,结合了智慧农业、量子计算、市民服务、人工智能医疗等等产业端口,形成了完整有序的产业生态结构。

    从生态伙伴上看,神州控股拥有大量城市政府、企业、营销与渠道网络合作伙伴资源,并且与多家国内外主流云计算、大数据公司达成了战略合作,拥有非常完备的产研、市场与应用网络。

    生态化是未来技术企业的必备之路,而很早就不断打造企业生态的神州控股,显然在这个领域又一次取得了行业领先优势。

    【第三个身位:家国情怀是大数据的创生之脊】

    着重要说的,还有神州控股以及郭为先生在思想与情怀层面为整个大数据产业带来的振动与跨越。

    很多分析者会忽略企业家的思考与情怀给企业和产业结构带来的影响,这是非常片面的。

    我们知道,在互联网与数字化时代,专业的战略观察和宏大的企业家襟怀,往往可以给整个产业带来难以估量的指数级增长。

    神州控股在争夺用户深度、市场依赖度的大数据战役中场,获得了充分而独特的先发优势。

    而在神州控股众多产业战略中,最具高度与行业启发性的,就是坚持数字中国战略,坚持企业成长与家国精神相结合,坚守未来科技与民族创生为一体的企业战略。

    诚然,大数据与云计算业务,是一个巨型市场和无数爆发机会融为一体的市场机遇。很多弄潮儿选择在其中掘金,甚至有人喊出了成为风口上的猪这种口号。但是,风口上的猪也是猪,风口浪潮退却之后行业中只留下空荡荡的无奈。我们看到大数据行业风起云涌,一批批玩家来了又走,就是因为太多人贪图风口的优越,却忘了高科技从业者应该还给社会什么,还给家国什么,还给子孙后代什么。

    经历了农业在现代化面前的暗淡,工业在环境问题面前的无力,我们共有的家国沃土急需要一种高效洁净的生产力提升来完成又一次飞跃。而大数据产业提供的动力无疑是最好的国家经济机遇。美国政府智库把大数据列为二十一世纪比石油更重要的资源,原因就在于此。

    然而,在行业向着资本与市场而生的时代,国家与民族又有何种机会获得大数据的反哺?

    这是行业的遗憾,却也是少部分有识之士的机遇与责任。我所看到的神州控股,是坚定不移与国家需求、民众福祉、地方潜力、未来生活相联系的,每一块业务的纵深展开,都归因于民族产业与国民生活的所急所需。

    神州控股的大数据之路,从第一个脚印开始,就是与我们生活的土地紧密相联的。这是神州控股相对更拙的一面,却也是它无比智慧的一面。

    与整个国民经济形成良性循环,达成科技势能与经济发展空间的高频互补,让神州控股铸造起了无比坚实的产业壁垒。无论市场风向如何,守护着家国厚望的神州控股大数据都将岿然不动。

    最好的防守就是最好的进攻,根植于民生民用、深度拥抱国家需求的神州控股,必然会在国家大力发展创新科技产业的大潮中不断上行。

    积极推进战略升级的神州控股,可以从家国战略与国民品牌中获得巨大赋能,要知道社会责任感是最好的品牌公关。而郭为先生带领的神州控股,已经在今天的行业竞争中悄然领先了这个最大的身位——情怀与坚持换回的雨露同泽。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>