在竞争日益激烈的国际环境下,自主可控和开放合作是发展科技产业的双翼,同等重要。自主可控让我们无后顾之忧;开放合作则允许我们充分开展全球分工与合作,获得竞争优势。只有从源头开始的基础性技术创新才可能真正做到自主可控,并享有国际分工与合作的好处;而智能计算机正是我国发展自主可控和开放产业的一个机会。

发展科技产业,自主可控和开放合作矛盾吗?

全球分工与合作是和平时期发展科技产业的标准模式。各个国家的产业,一方面参与全球分工与合作,节省研究与开发成本,提升竞争力;另一方面,相互开展竞争,力争成为产业链的上游,乃至规则的制定者,巩固和加强本国民用产业和国防工业的生存能力和竞争优势。

一个科技产业通常会形成两到多个全球相互竞争的体系,例如大型民用航空工业包括波音和空客两个体系。不幸的是,由于知识产权壁垒森严和垂直分工的体系,信息技术产业没有发展出相互竞争的体系。

目前,美国主导的体系是信息技术产业规则的绝对制定者。即使在和平时期,某些领先国家的决策者一旦认为产业或者整个经济遇到事实或者潜在威胁,自由市场和自由贸易的原则就可能被放弃,贸易战一触即发,从而导致内部协作分工瓦解,弱势的一方可能被逐出体系,付出惨痛的代价。信息技术产业缺少竞争体系的局面加剧了这种风险。

图片源自网络

为了应对这种风险,我国乃至德国这样的发达国家早已意识到发展自主可控的信息技术产业的重要性。例如:

  • 我国互联网产业开展了多年的“去IOE(IBM、Oracle、EMC)”运动,目标是以成本效益更高的Intel x86 平台和开源软件取代以IBM 小型机、Oracle 数据库和EMC 高端存储所组成的IT 技术架构。

  • 中国科学院计算技术研究所(简称“中科院计算所”)胡伟武研究员领导的龙芯团队付出了艰苦卓绝的努力,目标是用MIPS 处理器架构(通过购买商业许可证获得)和Linux 操作系统(开源和自由软件)取代Windows-Intel 架构。

  • 德国柏林理工大学教授Volker Markl 研发大数据流处理器系统Flink,旨在和美国加州大学伯克利分校研究的Spark展开竞争。

可以清楚地看到,这些不同程度的自主可控系统也是部分建立在全球分工与合作基础之上。以“去IOE”运动为例,在软件方面借助了全球协作分工的开源软件运动,而x86 是Intel 的商业产品。显而易见,应对某些领先国家可能发起的科技战和贸易战,“去IOE”运动无法做到真正的自主可控。

另外一方面,美国主导了信息技术产业,实现了真正意义上的“自主可控”,同时充分利用全球分工与协作来节省研究与开发成本。由此可见发展科技产业,自主可控和开放合作并不矛盾。

对于科技产业,尤其是在知识产权壁垒森严和分工协作紧密的信息技术产业,只有从技术的源头或者主干开始创新,才能做到自主可控;相反,仅仅是全盘复制,或在枝干或旁枝末节处进行技术改进,不可能做到真正的自主可控。

智能计算机是中国建立自主可控和开放产业的机会吗?

神经网络加速器:智能计算机的复兴

当代智能计算机本质上是基于神经网络加速器和通用计算部件建立起来的计算机系统。它的复兴取决于3 个条件:

  • 深度神经网络理论体系的完善;

  • 计算能力的快速增长和专业领域数据的积累;

  • 通用计算机体系结构发展遇到技术障碍。

现代神经网络的数学基础是统计学。在统计学的学习方法(Learning Method)基础上,现代神经网络发展为成熟的非线性建模工具。通过统计学的标准数学方法,可以获得大量可以用函数来表达的局部结构空间,这比依赖领域专家编写if-then 规则进行逻辑推理更容易,成本更低。

计算力的增长使得复杂神经网络计算成为可能。实际上,在20 世纪90 年代已经出现了大量的神经网络加速器的工作。然而,受制于当时有限的计算能力和匮乏的专业领域数据,神经网络的成功应用乏善可陈,神经网络加速器缺少足够的市场需求,未能获得发展。

图片源自网络

通用计算机体系结构发展遇到的技术障碍也为神经网络加速器的发展创造了条件。2017 年,图灵奖获得者John L. Hennessy 和David Patterson 指出通用计算机体系结构发展遇到巨大技术障碍,如芯片的性能增长比摩尔定律预测的缓慢;串行程序的并行遇到结构化的限制;芯片散热受到物理极限因素的制约。在这些条件的综合约束下,针对特定领域应用开展软件和硬件的协同设计成为国际学术界的共识。

深度学习在图像识别、语音识别等众多领域取得成功,甚至在单一问题上超过人的平均能力。与此同时,基于深度学习的应用领域越来越广。如药物筛选、疾病诊断等。有理由相信,在深度学习加速器(所谓智能芯片)、智能系统、算法和行业应用基础上有希望发展出一个大规模的智能计算产业。

智能计算机是我国建立自主可控和开放产业的机会

尽管智能芯片通常以加速器(PCI-E卡)的方式依附于通用计算机部件,独立性受限,但是以智能芯片、系统、算法和行业应用为代表的智能计算机产业仍是一个难得的产业机会,至少为我们提供了在特定应用领域建立自主可控和开放产业的机会。

通用计算机发展遇到了巨大的技术障碍,在特定领域做软硬件协同设计是国际学术界的共识。人工智能和大数据有融合的趋势,无论在端(IoT)、数据中心、高性能计算机,还是在最新涌现的边缘计算(edge computing),应用的深度和广度都在增加,而我国在智能计算领域有一批和国际同行齐头并进的企业和研发机构。

  • 中科院计算所的“寒武纪”是大规模深度学习加速器的国际先行者。

  • 国际开放基准测试委员会(Bench Council)联合国内外领先机构研究与开发了面向IoT(端)、Edge(边缘)、数据中心和高性能计算机的人工智能和大数据测试标准BigDataBench,将为产业的良性竞争提供评价依据。Bench Council 在2019 年发起了人工智能实验床“泰”计划,为人工智能等新技术的评测、模拟、验证、教育、培训和推广提供统一的平台,有望成为智能计算产业的加速器。

  • 我国不少企业也积累了海量的应用领域数据和针对特定领域应用优化的深度学习算法。

我国在超级计算机领域有着深厚的积累,智能计算又为这个领域夯实了基础。例如,在高能物理、天气预报、宇宙学,基于深度学习的算法提供了新的计算途径。智能超级计算机将成为新的增长点。

智能计算机整体上仍然依赖于通用计算机体系结构,我们不需要重起炉灶,可以借助整体计算机产业的发展;而智能计算机作为一个重要的主干分支,可以相对独立发展,获得完整的知识产权体系。

随着对智能计算这个领域有着更深地理解,我们会发展出更通用的计算抽象,从而研发出能适用更多应用场景的相对通用的计算系统。例如,我们最近的工作将大数据分析和机器学习算法(深度学习是其中一个分支)统一为8 类基本计算单元,包括矩阵计算、图计算、逻辑计算、变换计算、采样计算、集合计算、排序计算、统计计算,而每一个大数据分析或者机器学习负载都可以认为是一个或者多个计算单元的组合。在这个工作基础上研究的计算机系统有望适应更多的大数据和人工智能应用场景。这样的研究努力旨在避免为每一类应用单独设计一个加速器。不难想象,如果在一个通用计算部件上增加大量不同类型的加速器,必然给资源共享设置技术障碍。

综合以上原因,有理由相信我国有机会在此基础上发展一个相对自主可控并兼顾开放的产业。当然,我国在产业基础上仍然存在显著不足。例如,在智能系统上,我们依赖于TensorFlow 等开源系统;而在算法上,我们依赖于大量的开源项目。考虑到Google 等公司申请了大量的专利,这些可能成为先进国家出口管控的依据。据中美两国执业律师金依依的分析,这些国家已经发布了征求意见的管控草案。另外,智能芯片以PCI-E 卡的方式存在,依赖于现有通用计算机系统。一旦通用芯片和系统被管控,仍然会出现“卡脖子”现象。然而冰冻三尺非一日之寒,我国如果无法建立有竞争力的应用科学技术体系,只能全盘复制,或在枝干或旁枝末节处改进已发展好的成熟技术。

基于这些理由,Bench Council 联合相关方于2019年6 月将共同主办BenchCouncil 2019 国际智能计算机大会,以研讨、展览和路演智能芯片、系统、算法、脑科学、智慧医疗、金融、社会治理、教育、产业互联网为目标;并同期举办Bench Council 国际人工智能系统大赛,在Bench Council 人工智能实验床上举办“寒武纪”、RISC-V、X86 系统竞赛以及算法竞赛,培养人工智能后备人才。

如何建立有竞争力的应用科学技术体系?

对于物理和数学等基础学科来说,开展重大理论研究摘取科学皇冠是毋庸置疑的目标。以计算机学科为代表的应用科学,如何建立有竞争力的应用科学技术体系?作者认为,殊途同归,最终的目标都是建立有竞争力的教育和科学技术研究体系。这需要我们改变应用科学评价体系,改变头重脚轻的学科布局,重视知识产权、建立公平竞争环境,并充分利用国际智力进行分工与合作。

改变应用科学评价体系

美国计算机学界建制派在学科评价方面的观点认为,计算机学科评价分3个层次。

  • 在第一个层次,对助理教授的评价以论文为主,强调一定数量的高质量论文。些论文通常发表在本领域竞争最激烈的会议上。助理教授通常难以获得较多资源,不可能建立较大规模的团队,对他们的评价聚焦于新概念和原型系统是合理的,这些工作通常也需要大浪淘沙。

  • 在第二个层次,则以对整个社区交付的独一无二的系统和工具作为主要的评价指标。例如,俄亥俄大学计算机系的D. K. Panda 教授,近20 年都关注于如何实现高性能计算机编程工具MPI。MPI 最新的功能通常由他的团队首先完成,Top 500 超级计算机排名上,不少机器直接使用他的工具,全球几千个单位下载他们的系统。Rice 大学的John Mellor-Crummey 教授(ACM Fellow)近十几年来一直孜孜不倦的研发高性能计算的性能分析工具,被美国数量众多的国家实验室用于优化大规模的并行应用性能。这两位教授都是卓越的学术界代表,直接向国际社区交付具有独一无二价值的工具,所有的研究都围绕这些工作展开,而团队1 年通常需要数百万美元经费的支持。

  • 在第三个层次,则更进一大步,关注对整个人类社会基础设施的核心贡献。像前文提到的Unix、Linux、安卓、MIPS、RISC、ARM 正是这样的工作。

而我国目前应用科学的评价基本还停留在第一个层次,以SCI 论文或者分档的会议论文数量及引用作为主要的评价工具。有抱负的研究人员不敢轻易放弃论文这个“紧箍咒”。

例如,在作者参加的一个会议上,一个著名高校的助理教授分享了他在系统领域研究工作,大家觉得工作非常有价值,问他为什么不把这些工作贡献给Linux 社区。他回答道,论文压力太大了,没有十几篇中国计算机学会(CCF)A 类会议论文,不能评副教授。

长此以往,我国学术界只能产出价值相对较低的论文和概念系统,难以向整个国际社区或者人类社会提供有独特价值的系统、工具和核心基础设施,难以为产业提供从源头或者主干开始的基础性技术创新。

改变头重脚轻的应用学科布局

头重脚轻的学科布局体现在2 个方面:

1. 在体系结构和系统等基础学科方面投入的科研人员极少,大部分科研人员投入在应用方向。以论文为主的评价体系导致人才评价、奖励和人才流往应用方向倾斜。以论文发表数目为例,一些应用方向年度发表的论文数目是体系结构和系统等基础学科的近百倍。而在人才评价方面,以所谓顶级会议论文的数目或者论文的引用数作为主要指标进行评价。长此以往,我们就无法在基础学科方面积聚足够多的科研人才,研究人员也无法像美国一流学者那样做出更高、更远的追求,企图实现自主可控显然是奢侈的愿望。

有人也许会认为,在美国等先进国家,投入在体系结构和系统等基础学科方面的科研人员比应用领域的也要少。本文认为需要澄清2 点:① 美国人已经建立起了自主可控和开放的产业体系,不需要在基础学科投入那么高比例的人才。② 美国投入人才的比例悬殊没有我们这么大。例如,在美国从事体系结构研究的高校数目远远高于中国相应的数目。

2. 在美国等研究生教育发达的国家,以导师实际科研需求为依据制定研究生招生计划,而我国则以计划经济的模式制定研究生招生计划。这导致北大、清华和中科院等科研资源相对较多的机构一个老师每年只能招收数量极少的学生,而在科研资源较少的一些大学,一个老师却能招收较多数量的学生。这种不合理的研究生资源配置方式也对人才的培养和学科的布局造成了不利的影响。

重视知识产权,构建公平竞争环境

从Unix、Linux、安卓、MIPS、RISC 和ARM 等基础性技术创新的发展过程可以看出,小团队的力量起着至关重要的作用。从一个概念的提出,到系统原型的实现,再成为整个产业的关键一环,知识产权保护起着至关重要的作用。没有知识产权保护,小企业和小团队的生存必将受大公司和大团队的威胁。下面以某智能芯片初创公司A 和某大公司B 的合作为例阐述知识产权保护对构建公平竞争环境的重要性。

图片源自网络

B 和A 合作,获得A 的知识产权,然后在此基础上发展自己的技术,B 的技术成熟后,再弃用A 的技术。在一个充分保护知识产权的体系里,A 可以通过出售许可证的方式获得商业成功(ARM 就是以这样的方式获得成功),成为一个更大规模公司。而事实上,由于知识产权缺少保护,在与B 合作的领域,A 已经成为弱者,没有竞争力。A 只能开展新的产品线研发,走上更艰难的征程。

缺少知识产权保护,小的初创公司或者小的团队处处受到生存的威胁,更无力从事类似于Linux、安卓、MIPS、RISC 或者ARM 这样的主干创新,因此打造自主可控的产业体系里缺少了一支活力四射的生力军。

充分利用国际智力进行分工与合作

在Linux、安卓、MIPS、RISC 和ARM 的发展过程中,充分利用国际智力开展分工与合作非常重要。

  • Linux 和安卓都是以开源软件运动的方式开展国际分工与合作。

  • MIPS 和RISC 的发展体现了学术圈和产业界在国际范围内合作分工的重要性。

  • ARM 的发展更是初创公司吸收国际学术界精英研究成果的典范,ARM 起步后,在国际上展开了广泛的产业链分工与合作。

在一个封闭的小体系里打造自主可控的产业是不持久的,因为封闭的小体系一方面无法充分利用外部智力,另外一方面也难以分摊研究与开发的巨额成本。我国发展自主可控的技术体系,一定要充分利用国际智力。

从技术源头和主干开始的基础性技术创新才能真正实现自主可控

信息技术产业有着垂直分工的体系,从底到上包括芯片、操作系统、编程系统、数据库、行业应用等基础部件。经过几十年发展,每一个基础部件从最初的技术源头或者主干开始,都形成了错综复杂的竞争与合作的分工体系。

只有从技术源头和主干开始的基础性技术创新才能真正实现自主可控,并充分享有国际分工与合作的好处。芯片和操作系统是信息技术领域2 个最基础和最核心的部件,以下通过分析移动芯片ARM 和移动操作系统安卓(Android)来阐述这一观点。

ARM芯片

手机芯片在架构设计、集成电路设计、制造、封装和销售方面有着细致的垂直分工体系。来自英国的ARM 公司是移动芯片体系的主角,ARM 将设计的芯片授权给世界绝大部分移动芯片产商。

根据2018 年市场份额统计,美国的高通(Qualcomm)和苹果、中国台湾的联发科(MediaTek)、韩国的三星以及中国的华为海思是智能手机芯片市场的主要玩家,但ARM 授权的技术是中国台湾的联发科(MediaTek)设计的芯片、三星Exynos、高通“骁龙”、苹果Apple A11、华为“麒麟”等芯片的基础。

图片源自网络

以联发科为例:

  • RM 公司负责架构和指令集设计,相当于书的章节和核心思想;

  • 联发科购买ARM 的授权进行芯片IC 设计,相当于书本内容的完善;

  • 台积电进行生产制造和封装,相当于书的印刷。

在ARM 发展史上,采用精简指令集RISC 架构这一决定起着至关重要的作用。RISC 架构是20世纪80年代美国的斯坦福大学和加州大学伯克利分校的实验性处理器架构,2017 年图灵奖获得者John L. Hennessy(负责MIPS 项目)和David Patterson(负责RISC 项目)是主要的贡献者。采用精简指令集RISC 的处理器通常比采用复杂指令集CISC 架构的处理器更为省电、成本更低。ARM 公司在RISC 处理器的主干上发展了低功耗的移动芯片架构。在产业链上,ARM 公司聚焦芯片架构的设计,而将其他下游产业交付给国际分工和协作。需要指出的是,RISC 的项目的另一个分支SPARC 芯片也曾在服务器芯片市场获得成功,而斯坦福的MIPS 项目是国产龙芯CPU 的技术源头。

在2019 年爆发的中美经贸摩擦中,美国对华为进行出口管控。根据BBC 报道,ARM 已经要求员工必须中止与华为合作。ARM 声称,它的相关产品设计当中包含了“美国原产技术”,可能是指MIPS 等相关技术。因此,该公司认为将受到美国政府贸易禁令的影响。据中美两国执业律师金依依分析,ARM 认为其提供给华为的技术中美国原产技术的价值超过该技术总价值的25%,因而暂停与华为的合作。这也充分地说明ARM 在主干上进行创新,能实现一定程度的自主可控(实际上仍然受到出口管控的约束),并享有开放分工与合作的好处。而在产业链下游创新,则更难以实现真正的自主可控,只有在和平时期的非管控状态下才能享有国际分工与合作的好处。华为是业界公认的5G技术领袖之一,这也意味着美国的公司不能获得华为5G 产品和技术的许可。

从Unix 到Linux 再到安卓

Unix操作系统由Ken Thompson和Dennis Ritchie负责研发,他们由此获得1983 年的图灵奖。据称,开发Unix 的初衷是运行一款计算机游戏—— Space Travel,使一台计算机能同时为多个用户提供交互性好的服务,即研究开发分时操作系统以取代笨拙和用户体验差的批处理操作系统。1970 年,贝尔实验室开始向美国大学提供非商业的许可证,由此产生了大量的Unix 变种,包括加州大学伯克利分校的BSD、SUN 公司的Solaris和IBM 的AIX 等。

由于美国贝尔实验室改变许可证,将Unix 作为专有产品销售,用户在法律上不允许修改Unix。美国人Richard Stallman 和芬兰裔美国人Linus Torvalds 先后发起了自由和开源软件项目,开发出与Unix 完全兼容的软件系统——Linux。Linux 是Unix 操作系统主干上的变种,在服务器操作系统市场占据主导地位。

Linux 操作系统包括Linux 内核和Linux 系统工具/库。1991年10月5日,芬兰裔美国人Linus Torvalds 首次发布Linux 内核。Linus Torvalds 同时发起了Linux 基金会(Linux Foundation)维护该项目。1983 年,Richard Stallman 发起GNU 计划,负责提供Linux 系统工具/库。Linux 系统工具/库由自由软件基金会(Free Software Foundation,FSF)维护。Linux 基金会和自由软件基金会均注册在美国,根据美国联邦法律,属于501【c】非营利性组织。

Linux是最成功的开源软件。Linux GNU 采用通用公共许可证(General Public License,GPL),最新的许可证是GPL 3.0。GPL 保证任何个人和机构可以自由地使用、修改和再发布软件。GPL强制要求包含GPL 源代码的项目必须开源。Linux 项目集中了全球程序员的智慧。根据中科院计算所徐志伟对2016年和2017年Linux Kernel Development Report的分析,Linux内核2 000 多万行代码由全球开发者社区开发维护,中国(未包含港澳台地区数据,下同)贡献者和贡献比例均不到1%,中国华为公司贡献了0.3%,但社区核心志愿者“Greg”一人贡献量超过华为,接近中国。

安卓是在Linux 内核和其他开源软件基础上开发的。在移动操作系统市场,安卓占据主导地位,苹果的iOS 远远地落在第二位。2003 年,初创公司Android Inc 在美国加州创建了安卓。2005 年Google 收购Android 公司。2007 年,Google 联合84 家软硬件公司和电信运营商成立联盟,负责改进安卓。随后,联盟发布了安卓的源代码,安卓的核心源代码称为Android Open Source Project(AOSP)。开放安卓源代码的计划加速了安卓的普及,安卓随之逐渐拓展到平板电脑及其他领域。

图片源自网络

Google 将安卓许可证修改为Apache 免费开放源代码许可证(Apache License)。该许可证与GPL有着显著不同,不再强制要求开源在安卓基础上开发的软件(开源软件的衍生品)。Apache 软件基金会和自由软件基金会达成了协议,承认Apache 2.0 许可证是自由软件许可证。这意味着分别采用GPL 3.0 和Apache2.0 许可证的开源软件可以一起使用。这些协议的签署扫清了法律上的障碍。

Google借助开源的力量改进了安卓,然后在安卓的基础上开发了专有产品,包括Google Chrome 浏览器、搜索引擎、电子邮件Gmail、应用商店和地图导航。这些Google的专有产品通常预装在手机上。同样,Google公司遵从美国出口管控条例,限制华为使用安卓系统。中国所有智能手机几乎都基于安卓系统。由于安卓被认为是开源软件,Google迅速采取的行动引起了中国科技界的震惊。

据西方媒体报道,Google对华为的限制具体如下:华为仅仅可以使用安卓开源版本,不能访问Google 的专有应用和服务。Google指出已经拥有华为智能手机的用户不受影响,服务可以继续。市场分析师又进一步指出用户可以自行在安卓平台上下载Google 专有应用和服务。这些举动和措施可能会影响华为手机在海外市场的增长。

詹剑锋 中国科学院计算技术研究所研究员、博士生导师,中国科学院大学岗位教授,国际开放基准测试委员会(Bench Council)执行主席,IEEE TPDS副主编。

文章改编自:

詹剑锋. 论中国如何发展自主可控和开放的科技产业. 中国科学院院刊, 2019, 34(6): 657-666.

声明:本文来自中国科学院院刊,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。