文/中国民生银行 虞刚 牛博强 雷彪 彭晓川

当前人工智能技术正在引领数字化发展新浪潮,其中大模型被视为人工智能的一项重大突破。金融业是数智化的先行者,有望成为大模型技术落地的最佳领域之一。但大模型技术在快速发展的过程中也面临数据泄露、虚假信息、有害内容等安全风险与挑战,使大模型安全问题成为行业的关注重点。

中国人民银行《金融科技发展规划(2022—2025年)》中明确提出要抓住全球人工智能发展新机遇,以人为本全面推进智能技术在金融领域深化应用,强化科技伦理治理。国家网信办、网安标委发布的《生成式人工智能服务管理暂行办法》《生成式人工智能服务安全基本要求》等政策制度中明确指出将大模型安全作为AI应用的必要条件。在行业监管、国家标准的指引下,中国民生银行(以下简称民生银行)开展了“大模型安全风险管理及应用评估能力体系建设”项目研究,旨在加强金融行业大模型应用的安全性和合规性保障,提升大模型安全风险应对能力。

项目创新点

该项目围绕大模型安全合规应用提出了保障机制、风险评估、能力体系等方面的建设,提出了可复制、可迁移的方法论框架并在大模型应用场景上实践,努力实现理论科学与应用科学的衔接,做好新技术应用风险与安全管理的衔接,以及加强创新安全技术与新技术应用实践的衔接。整体来看,本项目技术特点主要体现在如下几个方面。

1. 面向大模型新技术快速建立保障机制

在大模型应用初期,民生银行已搭建了企业级模型风险管理体系,覆盖包括大模型在内的全行各类模型应用,同步开展了大模型生命周期管理。发布了《中国民生银行模型风险管理办法》《中国民生银行模型风险评估实施细则》《中国民生银行大模型数据安全管理细则》《关于加强AI应用保密管理的通知》,建立了大模型安全跨部门协同管理的敏捷团队。

2. 面向新兴技术快速开展安全风险评估

民生银行开展了大模型安全风险评估体系方法论建设,包含了6类风险评价主体,3类基础安全评价指标和5类高阶可信评价指标,采用了内容合规性审查、模型对抗测试、模型安全有效性验证等方式进行评估,从而提升大模型产品的竞争力和合规性。

3. 面向大模型新技术快速构建安全能力

民生银行构建了大模型保护、检测和评测的安全能力,推动机密计算技术实现动态数据的机密性和完整性保护,使用AIGC安全护栏拦截有害输入输出内容,验证大模型应用安全措施的有效性。

主要研究内容

金融行业在使用大模型时多采用预训练—微调的训练范式,即在大量未标注的数据源上进行预训练,再根据预训练模型进行微调,或采用检索增强生成(RAG)技术或调整Prompt直接面向场景推理应用。训练过程和结构的复杂性,使大模型应用面临的安全风险程度高于传统应用。例如,面向大规模训练数据集的攻击、基础模型的安全会影响到下游模型的安全性、微调过程使用的数据集存在安全风险隐患。同时,传统的安全管理和安全技术与大模型安全之间仍缺乏有效衔接,或需要安全管理机制的优化,或需要安全技术的演进升级,或需要从理论科技到应用科学的转变。基于以上背景,民生银行开展了大模型安全风险管理和评估的研究与实践,创新性提出了大模型安全风险管理体系“123”,其中包括了大模型安全风险评估体系建设、大模型安全应用流程建设,以及大模型安全能力建设。

1. 大模型安全风险评估体系建设

大模型安全风险评估体系是大模型安全风险管理体系“123”中的1个体系,该体系演化了大模型风险管理框架和安全管理框架。

在风险管理框架方面,重点关注大模型风险主体、大模型风险评估、大模型风险管理流程等8个要点(如图1所示)。民生银行将大模型风险作为一个独立风险类型进行管理,建立大模型风险管理的三道防线,明确各部门职责分工,规范整个大模型生命周期各个环节的子流程,提出大模型风险评估的方法和要求。

图1 大模型风险管理框架

在安全管理框架方面,重点关注大模型安全保障机制、大模型安全目标、大模型安全风险评估、大模型安全应用流程、大模型安全能力建设等要点(如图2所示),充分识别出数据、模型、内容等风险主体在大模型设计、开发、训练、部署和应用过程中的安全风险,全面指导安全保护、安全检测和安全测评,满足金融业务应用大模型技术的安全性和合规性要求。

图2 大模型安全管理框架

2. 大模型安全应用流程建设

大模型安全风险管理体系“123”中的2个流程是大模型风险全生命周期管理流程和大模型安全应用关键流程。

大模型风险全生命周期管理流程有效支持了全行模型分类、分级的差异化管理,具体包括了大模型需求、开发和优化、投产前验证、大模型审批、大模型上线、大模型使用等环节,对可能产生的风险进行充分的识别、评估、监测、控制和报告,将大模型风险控制在可接受的范围内。该流程对大模型应用的业务领域和场景进行需求评估和使用评估,避免大模型误用产生风险,同时也能结合大模型风险评估结果设置审批和上线权限,兼顾风险和效率。

大模型安全应用关键流程的各环节分别映射到大模型应用的需求分析、开发设计、模型训练、正式上线、运营维护和系统下线6个阶段。在需求分析阶段,主要评估法律法规监管要求,以及揭示不同风险主体的潜在风险点。在开发设计阶段,主要对大模型架构和对应的控制输出进行要求,面向数据、模型、内容等主体构建审查架构。在模型训练阶段,主要对模型进行渗透测试、模型逆向工程测试与压力测试等,并出具相应报告。正式上线阶段,开展系统环境部署和外部监管对接的相关工作,建立持续的工作对接渠道,配合相关审查。在运营维护阶段,主要开展实时风险监控与制定应急响应流程。在系统下线阶段,制定详细的数据销毁流程,建立检测机制,并向监管报备。

3. 大模型安全风险评估关键能力建设

大模型安全风险管理体系“123”中的3个能力包括了大模型安全保护能力、大模型安全检测能力和大模型安全评测能力。

安全保护能力主要是构建大模型数据安全基座和大模型安全护栏。数据安全基座基于机密计算核心能力,通过隔离、内存加密、远程证明、数据封装等技术对数据、模型和应用代码进行机密性和完整性保护。安全护栏则是保障大模型实时生成内容的合规性,对大模型输入输出内容进行过滤,屏蔽涉及政治、暴力、色情、歧视等违反社会主义核心价值观的回答,具备抵抗提示词攻击的能力。

安全检测能力主要面向大模型应用开展渗透测试。由于大模型与传统的检测目标有所不同,存在重训练、轻研发的特点,其攻击方式和攻击结果都与传统渗透测试有所区别,除了存在传统的注入漏洞、反编译逆向分析,还增加了大模型特异化漏洞,例如,针对大模型的服务器请求伪造、API拒绝服务攻击,RAG隐私泄露攻击等,这些特异化漏洞会导致未经授权的访问、敏感数据泄露等风险。

安全评测能力则是根据大模型应用场景开展安全合规性评价和安全有效性验证。民生银行面向数据、模型、应用和组件4个评测实体,进行了鲁棒性、可解释性、公平性、无毒性等指标的评测,采用自动化和人工结合的评测方式。储备了5大类约3万条的多语种评测集,在政治敏感、价值观不正确、歧视偏见、提示词注入、提示词越狱等内容安全和攻击对抗维度进行打分,形成风险雷达图。对于低于规定阈值的大模型,通过专家论证语料库进行特定性的强化,提升大模型在该风险类别下的能力。

应用效能

民生银行在代码大模型场景运用大模型安全风险管理体系整套方法论,对代码大模型进行全面安全风险评估。通过部署“事前、事中和事后”风险监测点、扫描和测试近14万行生成代码、限制超出代码大模型职能边界的提问等系列活动,实现了安全能力与作业环节的联动。在代码大模型功能评估和运行评估的基础上,重点开展安全评测,形成了1000余条特定专业评测集,覆盖OWASP、CVSS、CVND等漏洞定义和级别分类,不仅对生成代码质量进行把控,也防止恶意生成后门漏洞或具备攻击性质的代码。

应用价值

大模型安全风险管理的体系设计和实践能够更好地满足国家法律法规和监管对于大模型技术应用的要求,有效防止对大模型能力的无序滥用和过度依赖,降低大模型应用带来的潜在风险,提升大模型应对未知风险的能力,进一步缓解新技术应用在风险管理和安全管理上的滞后性。

(此文刊发于《金融电子化》2025年6月上半月刊)

声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。