【编者按】6月15日,在第二届“强网论坛”上,中国工程院院士陈鲸作了题为《未来互联网+大数据时代数据科学发展与应用》的主题报告。陈院士从对未来大数据的认识和理解出发,分析了当前互联网大数据发展现状和新应用业态,提出了加强数据科学发展与数据科学学科建设的建议,研判了大数据未来面临的挑战和发展趋势。本文由《网信军民融合》杂志根据现场演讲整理。

一、对未来大数据的再认识

大数据已经渗透到当今各行业和业务功能区域,成为一个重要的生产要素,主要表现为以下几个方面:一是未来企业之间的竞争就是数据的竞争;二是 未来的时代不是 IT 时代,而是DT 时代;三是未来大数据的价值越来越显著,作用也越来越重要;四是未来大数据技术的战略意义在于对那些含有意义的大数据进行专业化处理。此外,未来大数据的重要意义还在于提高对数据的加工能力,实现数据的“增值”。

陈鲸院士

人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。另外,大数据在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业中存在已有时日,却因为近年来互联网和信息行业的发展而引起人们更大关注。

数据正在迅速膨胀并变大,它决定着企业的未来发展。虽然很多企业可能并没有意识到数据爆炸性增长带来的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。特别是大数据时代已经降临,在商业、经济及其他领域,决策将日益基于数据和分析而作出,而并非基于经验和直觉。这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。

大数据到底有多大?一天之中,互联网产生的全部内容可以刻满 1.68 亿张 DVD ;发出有 2940 亿封邮件之多,相当于美国两年的纸质信件数量;发出的 200 万个社区帖子,相当于《时代》杂志 770 年的文字量;卖出 37.8 万台的手机,高于全球每天出生的婴儿数量37.1 万。国际数据公司(IDC)的研究结果表明:2008 年全球产生的数据量为 0.49ZB,2009 年的数据量为 0.8ZB,2010 年增长为 1.2ZB,2011 年的数量更是高达 1.82ZB,相当于全球每人产生 200GB 以上的数据。而到 2012 年为止,人类生产的所有印刷材料的数据量是 200PB,全人类历史上说过的所有话的数据量大约是 5EB。IBM 的研究称,整个人类文明所获得的全部数据中,有 90% 是过去两年内产生的。而到了2020 年,全世界所产生的数据规模将达到今天的 44 倍。每一天,全世界会上传超过 5 亿张图片,每分钟就有20 小时时长的视频被分享。然而,即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。(数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至 ZB(1024EB=1ZB)级别。)

未来,大数据将带给我们三个颠覆性思维变革。第一个思维变革是利用所有的数据,即不是随机样本,而是全体数据。第二个思维变革是接受数据大体方向,即不是精确性,而是混杂性。第三个思维变革是不必接受研究对象的现象背后的原因,即不是因果关系,而是相关关系。 

“互联网 +”战略已经从第三产业渗透到国计民生的所有行业里面。“互联网 +”战略更多的是跨界联合,是现在的重要课题,特别是“互联网 +”工业、车联网、物联网。如果说未来世界是万物互联的物联网,肯定是对的,但如果只是物和物的连接,没有人和人的连接,就会死气沉沉。未来应该是人和人的连接,人和物的连接,物和物的连接以及人和服务的连接。未来应该是DT 的时代。从信息化变成大数据,因为信息化只是一个符号,变成大数据以后才能真正成为一个活的数据,为企业决策提供支持。过去讨论的“互联网+”大多是关于模式,现在更关键的是技术创新,技术创新要跟模式结合在一起。

二、当前互联网大数据发展现状分析

随着互联网用户激增,手机已经实现了数据化、宽带化,数据在以指数级的速度增长,而具有资源优势的运营商正好位于大流量、大数据信息“金矿”上。目前,大数据应用相对其他产业比较成形的就是互联网企业,这些握有大量数据资产的互联网企业正急于如何将大数据信息转化为商业价值,提升用户体验,进行精细化运营,提高网络营销效率。

互联网企业以及运营商拥有下面五类数据 : 一是基础数据,如用户账号;二是协议类型数据,如套餐服务得到的用户消费能力;三是业务类型数据,如用户选择的游戏、阅读、音乐类,代表个人兴趣、爱好的数据;四是访问的URL,即用户经常看的网站、搜索关键词等;五是终端信息,每个终端能力、特征不同,最终使用的业务也会不同。基于以上五类数据,通过大数据分析手段,找到最合适和满足用户需求的产品特点,从而指导产品设计开发,业务上线后持续跟踪分析用户的在线订购、使用问题等,为优化业务策略提供数据支持,提高业务质量和客户体验,最终达到精细化网络营销,提高客户满意度和销售效率。

此外,互联网大数据应用日益得到人们的认可,越来越多的行业开始关注、开发应用互联网大数据。医疗保健、零售商、制造业等传统行业已开始积极挖掘互联网数据带来的商业价值。

根据国务院印发的《国务院关于促进信息消费扩大内需的若干意见》规划,截至 2015 年,中国信息消费规模超过3.2 万亿元,年均增长 20% 以上,带动相关行业新增产出超过 1.2 万亿元,其中基于互联网的新型信息消费规模达到2.4 万亿元,年均增长 30% 以上。按此推算,信息消费的增量部分规模将占到GDP 增量部分规模的 12% 左右,每年为 GDP 增长贡献大约 1 个百分点,并且可以带动全国相关产业的发展,这将极大地促进中国经济持续、平稳地发展。《大数据产业发展规划(2016-2020)》提出,到 2020 年,大数据相关产品和服务业务收入突破 1 万亿元,年均复合增长率保持 30% 左右,大数据在创新创业、政府管理和民生服务等方面广泛深入应用。

陈鲸院士在第二届“强网论坛” 上作主题报告

三、数据科学发展与数据科学学科建设思考

数据科学的主要研究对象包括数据采集、数据存储计算能力和提取数据价值的能力,这也是大数据应用的三大要素。因此,采集、存储计算以及数据价值这些方面我们应该重视。数据科学涉及数据的全生命周期,包括数据采集、分析管理和可视化以及在各行各业中的广泛应用,包括电子商务、金融、医疗、生物技术、教育、旅游、交通和农业等。无论是工业界还是学术界,越来越多的国内外专家和学者已经意识到数据科学技术的研究和应用是推动和引领经济和社会新常态的关键因素,他们相继开展了大量的相关研究,也取得了许多有价值的研究成果,依然存在很多问题亟待解决,但大数据分析是大数据价值发现的关键,也是辅助决策的基础。

当前,数据科学与大数据技术专业的三大技术方向分别为:一是数据挖掘、数据分析和机器学习,二是Hadoop 大数据开发,三是大数据运维和云计算。大数据技术体系应包括大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘和大数据可视化 5 个类别。数据科学与大数据技术专业的课程体系包括通识教育课程模块、学科基础课程模块、专业核心课程模块、集中实践课程模块。数据科学与大数据技术专业是国家大数据战略规划的新兴交叉型本科专业,高校应以行业需求为导向、以学科交叉基础为支撑,以满足实践应用需求为目的,设计科学前瞻的课程体系,为社会经济发展培养高素质的复合型应用人才。

总体而言,数据科学与工程作为大数据时代的新兴交叉学科,主要的知识结构还是来源于计算机科学、应用数学以及信息系统和信息管理这三个学科,但是其具体的细节和这三个学科具有很大的不同。大数据时代下,计算机软件工程学科在人才培养和知识结构体系方面过于老化,不符合市场发展的规律和趋势。数据科学和工程的重要的特点是综合性强,需要学生融会贯通地学习,构建一个基本的系统框架,具备专业的知识和能力素养。

关于数据科学发展中大数据人才培养问题,数据科学与大数据技术专业强调培养具有多学科交叉能力的大数据人才。重点培养具有以下三方面素质的人才:一是理论性人才,主要是对数据科学中模型的理解和运用;二是实践性人才,主要是处理实际数据的能力;三是应用性人才,主要是利用大数据的方法解决具体行业应用问题的能力。

四、未来互联网大数据带来了新的机遇和应用

大数据不仅帮助企业优化运营绩效,更重要的是,互联网大数据给企业带来了业务创新的机遇和应用,在互联网大数据助推下进行的商业模式创新及业务的延伸。

未来全球电子商务一定是社会化的,阿里巴巴通过打造商业的基础设施,吸引卖家、快递等各方公司参与,通过这种商业创新模式将各行业企业连接到生态圈里,进而打造全球电子商务的一体化。

现在有很多大数据的应用范例。比如说刷脸入住、机器人送餐送物,打造无人智慧酒店;5G 虚拟课堂,全息投影、VR 等新技术手段与教育教学深度融合;智能语音输入,让医生问诊时同步生成电子病历等。

大数据背景下还有一种重要的业态就是数据存储空间出租。当前,企业和个人有着海量信息存储的需求,只有将数据妥善存储,才有可能进一步挖掘其潜在价值,具体而言,这块业务模式又可以细分为针对个人文件存储和针对企业用户两大类。数据存储空间出租主要是通过易于使用的 API,用户可以方便地将各种数据对象放在云端,然后再像使用水、电一样按用量收费,可重复使用。

未来,随着大数据技术的发展和应用,或许会从所有流程由一个企业完成,转化成每一环节都由单独企业来完成的一整条产业链。其中,第一类企业为数据采集公司,这类公司对应于现在商业中的原材料生产商,专门负责原材料(数据)的采集与储存;第二类为数据挖掘公司,这类公司相当于现在的加工企业,从数据采集公司里采购原材料(数据),然后加工出数据关系,再出售给最后的数据应用公司;第三类为数据应用公司,这类公司对应于现在最多的代理商,这些一二级代理商,会通过收购来的原材料(数据)的质量(反映规律的程度),以及商业应用程度(业务与规律结合得更好)来形成竞争关系。

互联网与大数据的价值最好的体现在于对已有行业潜力的再次挖掘,用互联网思维和大数据思维去重新提升传统行业,使得信息透明化、对称化,对产生的大数据进行整合利用,也使得资源得到最大化利用。随着互联网的快速发展产生大数据,反过来加速推动互联网各种各样应用的演进。相信在可预见的将来,通过对大数据的全面挖掘将产生更多新的应用,促使产生更多的新业态,将给人类生活带来更多的便利和惊喜。

五、未来大数据时代面临的挑战与发展大趋势

大数据挑战和机遇并存,大数据在未来几年的发展将从前几年的预期膨胀阶段、炒作阶段转入理性发展阶段再到落地应用阶段,大数据在未来几年将逐渐步入理性发展期。未来的大数据发展依然存在诸多挑战,但前景依然非常乐观。

目前大数据的发展依然存在七大方面挑战:一是业务部门没有清晰的大数据需求导致数据资产逐渐流失;二是企业内部数据孤岛严重,导致数据价值不能充分挖掘;三是数据可用性低,数据质量差,导致数据无法利用;四是数据相关管理技术和架构落后,导致不具备大数据处理能力;五是数据安全能力和防范意识差,导致数据泄露;六是大数据人才缺乏导致大数据工作难以开展;七是大数据越开放越有价值,但缺乏相关的政策法规,导致数据开放和隐私之间难以平衡,也难以更好地开放。

虽然大数据发展仍在起步阶段,存在诸多挑战,但未来的发展依然非常乐观。未来大数据的发展将呈现八大趋势:第一大趋势是数据资源化,数据将成为最有价值的资产;二是大数据在更多的传统行业的企业管理落地;三是大数据和传统商业智能融合,行业定制化解决方案将涌现;四是数据将越来越开放,数据共享联盟将出现;五是大数据安全越来越受重视,大数据安全市场将愈发重要;六是大数据促进智慧城市发展,是智慧城市的引擎;七是大数据将催生一批新的工作岗位和相应的专业;八是大数据在多方位改善我们的生活。

六、结束语

坚持创新发展,顺应融合趋势,共同把握好数字化、网络化、智能化发展机遇,共同应对大数据发展在法律、安全、政府治理等方面的挑战,必能开创美好未来。

万物皆可数字化。大数据技术将万物整合成数字编码,连接万物、变革万物,为发展物联网、人工智能等提供了重要基础。大数据技术是推动人类文明进步的共同财富。当前,大数据技术、大数据产业在世界范围内蓬勃发展,信息化、数字化浪潮席卷全球。大数据的未来,需要各国共商共建共享。探索大数据广阔发展前景的同时,也需要密切关注数据安全、隐私保护。建立牢不可破的安全体系,正是推动大数据产业发展行稳致远的应有之义,也是大数据技术应用的牢固根基。

本文刊登于《网信军民融合》杂志2019年6月刊

声明:本文来自网信军民融合,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。