引言:2019年10月8日,美国商务部声明出于国家安全考虑,将我国八家企业包括科大讯飞、旷视科技、商汤科技和依图科技在内的人工智能公司列入实体清单,并禁止与美国企业开展业务往来,人工智能开源平台作为全球人工智能产业加速发展的重要驱动要素,再一次受到了全球的关注。CIE智库围绕人工智能开源平台的专用芯片、算法模型、基础数据三大要素对国内外人工智能开源平台进行对比分析,总结我国人工智能开源平台的优势与差距,为我国人工智能产业发展政策制定提供参考。


开源文化可追溯到20世纪60年代,至今已有半个世纪的发展,逐步增多的开源事件表明,开源可推动研发速度加快、节约成本、效益最大化,是推动全球人工智能技术创新和产业发展的有效路径。人工智能开源平台的核心框架主要由专用芯片、算法模型、基础数据三大要素构成,在全球范围内,人工智能开源平台领先的国家主要有美国、中国和其他发达国家。美国在深度学习框架和大部分应用领域均处于领先地位,拥有数量最多、应用最广的人工智能开源平台。近年来,我国在计算机视觉、智能语音、中文自然语言处理、无人系统等领域的开源平台已在国际上占据了一席之地。通过研究了国外谷歌、微软、亚马逊和Facebook为代表的各大巨头推出的TensorFlow、CNTK、MXNet、Torch和Caffe2等人工智能开源平台,以及我国百度、腾讯和京东相继推出的PaddlePaddle、Angle等平台,学术界中科院计算所的Seeface、复旦大学的FudanNLP等国内外知名人工智能开源平台,中国电子学会对国内外人工智能开源平台进行了对比分析,得出相关结论如下。

图1 全球人工智能开源平台地域分布

数据来源:中国电子学会整理

图2 美国人工智能开源平台主要技术类型分布

数据来源:中国电子学会整理

一、国际企业在人工智能专用芯片领域具有先发优势

发达国家凭借领先的技术优势持续创新。在当前人工智能专用芯片市场中,美国占据90%市场份额,处于绝对优势。英特尔、谷歌、英伟达等科技巨头公司都有人工智能芯片,其中,英特尔市场份额约71%,Nvidia约16%。随着前端嵌入式感知系统的完善,海量的结构化的数据需要更强、更快的训练能力,对人工智能专用芯片的尺寸、位置、功耗要求的多样性以及计算能力持续提出更高的要求。作为芯片巨头的英特尔,一方面探索量子计算和神经拟态计算,另一方面也在探索超异构计算形态,提前布局人工智能超级芯片。

我国企业围绕多样应用场景开发定制化芯片逐渐破局。人工智能专用芯片的技术架构由通用类芯片逐步发展为全定制化芯片,技术创新带来的蓝海市场吸引了我国大量的领军企业和初创企业进入产业。我国人工智能芯片企业聚焦多样化的应用场景,围绕智能手机、安防监控、可穿戴设备以及智能驾驶等领域,构建更为定制化、低功耗、低成本的嵌入式产品和解决方案,在应用上已与国际同步,但在基础技术层面尚落后发达国家两代(约40个月)以上。

表1 全球人工智能芯片构架

数据来源:中国电子学会整理

二、深度学习的智能化趋势为我国算法模型弯道超车提供巨大契机

开源化和生态化促使人工智能算法模型呈现垄断竞争态势。目前在深度学习开源平台领域,已经形成了谷歌的TensorFlow和脸书的PyTorch两家独大的格局,全球90%以上开发者都在这两个开源平台的生态体系之内。以谷歌、亚马逊、Facebook、微软等代表的国际互联网科技巨头,凭借自身的数据、技术和资本等优势,持续在人工智能基础开源生态领域发力,当前已经占据了人工智能开源平台的技术和规则主导权。

我国有望在智能化技术的推动下实现与全球并跑。相比国外科技巨头,国内公司在开源平台方面的积累十分薄弱。国内完全自主研发的深度学习算法框架屈指可数,以百度的PaddlePaddle为最主要代表。目前深度学习系统过于复杂,对研究人员和产业人员都带来了很高的学习和使用门槛,不利于技术的进一步规模化推广,自动化和智能化技术将逐步着力于对计算模型进行自动优化。在ImageNet上的实验结果表明,旷视基于Brain++平台的AutoML(模型自动化搜索)技术已超过了谷歌的水平,成为人工智能算法模型设计领域的领先成果。

表2 全球主要开源深度学习框架比较

L:支持,但效能较差  X:不支持

数据来源:业内典型企业评价,中国电子学会整理

三、坚实的数据基础推动我国向国际先进水平看齐

发达国家发力边缘智能生成结构化数据。随着技术能力的日益成熟,国际科技巨头和创新企业持续围绕在靠近数据源的设备节点侧或网络边缘侧来就近提供边缘智能服务,逐步能够将视频图像等非结构化数据实时转化为便于进行决策分析的高质量结构化数据,不仅有效减轻海量原始数据的传输、计算及存储压力,且大幅提升数据的整体分析效率,更为迅速地形成与需求匹配的智能化解决方案,显著增强了人工智能开源平台面对现实世界问题的实时响应能力。

我国万物互联的快速部署造就海量数据。我国网民数量超过8亿,移动电话用户突破14亿,均居全球第一,使得我国是世界上产生和积累数据体量最大、类型最丰富的国家之一。预计到2020年,我国物联网连接量将达到60亿个,终端连接基数将大幅提升,无处不在的感知节点也为人工智能开源平台在云、边、端对物联网的赋能提供了坚实的基础。国内用户较高的智能终端使用水平和技术水平,为我国人工智能开源平台的发展奠定了良好的用户基数和数据基础。

图3 2017-2020年中国物联网连接数量

数据来源:艾瑞咨询,中国电子学会整理

(凌霞)

声明:本文来自CIE智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。