2025年1月,备受瞩目的开源大模型DeepSeek被曝存在严重的数据库安全漏洞,超百万条敏感信息面临泄露风险。这一安全事件再度为开源AI应用企业敲响警钟。相关企业在享受开源技术红利的同时,还应加强开源AI治理体系建设,以确保技术创新的可持续发展。

一、从软件到AI,开源的变与不变

从开源软件到开源AI,开放性与可复制性等开源精神在新一代技术浪潮中持续传承、不断革新。随着数字时代的到来和全球互联的加深,DeepSeek等开源AI应运而生。不同于传统软件的源代码开源,围绕人工智能相关技术的开源实践已推动形成了涵盖模型框架、模型代码、参数权重、工具链及训练数据等内容的多维开放生态。同时,从开源软件到开源AI,可复制性概念也由仅代码层面的复用和修改扩展到模型训练、参数调优和知识迁移等多个维度。

从开源软件到开源AI,开源应用风险不断演进、升级。技术本质和应用模式的根本差异,使得开源AI的应用面临更加复杂多元的风险挑战。传统开源软件的应用风险主要集中在代码安全和知识产权方面,而开源AI相关应用风险则扩展到模型偏见、数据隐私和模型滥用等多个维度,具有多元弥散性、演化交替性、显现不均性和生成渐进性等突出特点。

二、开源AI的典型应用风险

安全层面,开源AI应用主要面临信息系统安全风险及算法安全风险。一方面,较之于闭源AI,开源AI代码等信息公开可获取,使得信息系统可能面临更高入侵风险。同时,开源AI的开发和部署通常依赖于大量第三方软件包和依赖库资源,依赖项中的安全问题将可能通过供应链攻击的方式迅速影响到整体信息系统。如国内360、腾讯等企业安全团队曾多次发现TensorFlow、PyTorch等开源深度学习框架及其依赖库的安全漏洞,攻击者可利用相关漏洞造成任意代码执行、拒绝服务攻击、信息泄露等危害。另一方面,AI算法开源易引发对抗性攻击和反向工程。攻击者可通过获取、研究公开算法,设计输入数据以误导模型算法输出错误结果。此外,相较于闭源AI对攻击者的黑盒输出,基于开源AI的应用极易继承白盒对抗性攻击的安全漏洞,从而引发严重的安全风险。同时,开源AI的公开性也使得攻击者更易通过分析或复制模型算法来盗用知识或进行模型复制。

合规层面,开源AI应用面临多重监管要求和法律规制。一是开源AI数据合规风险突出。开源AI的训练数据主要包括开放数据、自采数据、商业数据、使用者输入的信息、其他模型输入的数据等,数据的多样性和敏感性使得合规管理异常复杂。以自采数据为例,此类数据多通过爬虫技术爬取,若不加以人工干预,相关爬虫技术可能违反网络爬虫排除协议(robot协议)等声明文件要求,导致知识产权侵权、不正当竞争等法律问题,情节严重者还可能触犯刑法。此外,训练数据本身在收集、处理的过程中可能存在无法准确反映现实或含有系统性偏见的问题,进而导致人工智能输出结果存在歧视和偏见,加剧社会不公,带来法律及伦理上的风险。二是开源AI生成物侵权风险复杂。开源AI在数据输入和内容输出阶段皆可能涉及知识产权侵权问题。同时,若大模型生成物未经授权使用他人特定形象、声音或其他个人特征,可能构成对他人肖像权、姓名权或隐私权等人格权利的侵犯。此外,若AI生成物中包含贬损、侮辱或诽谤他人的信息,还可能构成名誉权侵权,情节严重者甚至可能构成刑事犯罪。三是开源AI许可协议种类繁多,适用潜藏多重合规风险。开源许可协议是是下游应用者使用开源AI的权利来源,未遵循相关使用条件应用开源AI,将可能构成知识产权侵权。以DeepSeek为例,DeepSeek的代码和模型分别采用MIT许可协议和自建许可协议(OpenRAIL类许可协议),若未履行相关声明义务或不满足许可协议下的责任限制,相关使用行为将可能构成对DeepSeek知识产权的侵犯。

应用层面,开源AI可得性的增加将可能加剧大模型的不当使用风险,对社会发展带来不良影响。目前,人工智能滥用案例时有发生,开源模式更是进一步降低了人工智能技术的恶意应用门槛,利用有害语料库对开源AI进行再训练,并专门用于网络犯罪、诈骗等非法行为的非法大模型也数见不鲜。如基于开源语言大模型构建,并去除安全和道德限制的非法大模型 FraudGPT 支持自动化编写欺骗性短信、钓鱼邮件和钓鱼网站代码,并提供高质量诈骗模板和黑客技术学习资源,使得人工智能技术武器化和民主化。

三、开源AI应用风险应对策略

开源AI应用风险影响广泛、复杂关联,企业应构建统一的开源AI治理体系,统筹开展开源AI风险防控工作。

(一)构建开源AI治理组织

企业应构建多角色、跨部门的专业协同治理组织,以确保开源AI应用的合规性、安全性、高效性和创新性。该组织应包括以下角色:

一是开源AI治理委员会。治理委员会负责制定开源AI的使用策略、合规标准、风险管理政策等,并监控相关政策实施情况,进行定期修订。治理委员会一般由企业高管、法务专家、技术专家等关键角色组成,以确保决策的全面性和权威性。

二是技术部门。研发团队主要负责开源AI的引入、定制开发、 性能优化等工作,该团队相关人员需具备深厚的技术背景和创新能力,以确保开源AI应用满足业务需求。运维团队主要负责开源AI的部署、监控、故障排查和性能调优,该团队人员需要具备丰富的运维经验和快速响应能力,以确保模型稳定运行。

三是安全和合规部门。安全团队主要负责对开源AI进行安全评估、漏洞扫描和应急响应,保障模型的安全性,此外还需密切关注安全动态,以及时应对潜在的安全威胁。合规团队负责审查开源许可协议条款,确保企业使用开源大模型符合相关法律法规和内部合规要求。合规团队人员还需关注开源社区的动态和法律法规的变化,及时调整企业的合规策略。

四是其他相关部门。根据实际需求,企业还可配备相关角色开展内外部培训宣传、推进企业与开源社区的联系与合作。

(二)建立开源AI治理机制

企业应明确开源AI治理的规则和原则,包括:

一是制定开源AI治理政策与合规框架。企业应制定明确的开源AI使用政策,明确开源AI的选用标准、使用范围、贡献流程、风险评估及合规要求等。同时企业应明确开源AI的合规性审核流程,确保企业使用行为符合相关开源许可协议的义务要求,且不违反相关法律法规和企业内部规定。

二是构建风险管理机制。在安全风险管理方面,企业需对开源AI进行定期的安全风险评估,识别并修复潜在的安全漏洞。在供应 链风险管理方面,企业需审查开源AI依赖的第三方组件和库,确保其安全性和稳定性。在应急响应方面,企业应制定针对开源AI安全事件的应急响应计划,确保相关紧急安全事件发生时能够迅速应对。

三是开展技术治理与运维。首先,企业应使用版本控制系统管理 开源AI的版本更新,确保代码的可追溯性和可管理性。其次,企业应实施CI/CD流程,自动化构建、测试和部署过程,提高开发效率和代码质量。此外,企业还需对开源AI的运行性能进行实时监控, 并根据实际情况进行优化调整。

四是参与社区活动与贡献。企业应明确开源社区贡献机制,鼓励 员工积极参与开源社区,与开发者交流、分享经验,共同推动开源大AI的发展。

五是加强知识产权管理。在使用开源大模型时,应进行必要的专利检索和审查,以避免侵犯他人的专利权。此外,在对外贡献时,企业应确保对开源AI的修改和分发符合开源许可协议以及相关法律规定。

六是建立健全培训与文化建设。企业应提供开源AI主题技术培训和风险防控培训,提高员工使用、维护开源AI的能力及风险防控意识。此外,在内部积极倡导、推广开源文化,鼓励员工积极参与开源项目,形成开放、协作的工作氛围。

声明:本文来自CAICT可信开源,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。