可信数据空间数据智能体技术展望

随着《可信数据空间技术架构》（TC609-6-2025-01）等相关标准的发布，可信数据空间作为国家数据基础设施的核心载体，已在身份认证、数字合约、使用控制等维度建立起跨主体数据流通的信任底座。由于传统可信数据空间交付的是“受控的数据”，这限制了数据交付的灵活性，为复杂场景下的实际需求带来了诸多不便。数据智能体技术以自然语言为交互入口，可自主完成需求拆解、规划执行与洞察交付，将其引入可信数据空间，有望在安全合规的前提下，提升数据交付过程的智能性，最终实现数据的安全、智能流通。

数据智能体技术概述

传统数据集成工具（ETL引擎等）基于预定义规则与确定性流程执行操作，开发者须显式指定每一步的数据转换逻辑、依赖关系和异常处理路径。这种刚性编排在结构化、稳定数据源场景表现良好，但面对非结构化数据、动态Schema变更或需要语义理解的场景时灵活性严重不足。

数据智能体在传统数据集成工具基础上引入“感知-规划-执行”的自主决策闭环，将自然语言意图转化为结构化操作。其输入为大规模、动态、异构的原始数据，输出为可直接支撑决策的数据产品与洞察。数据智能体技术实现可归纳为四个关键环节：

第一是环境感知与数据接入。系统可对接企业多源异构数据资产，涵盖关系型数据库、数据仓库及本地文件等多类数据源，并基于元数据探测与采样完成对Schema结构的上下文理解。

第二是任务规划与意图拆解。面对自然语言提出的分析需求，智能体将其转化为可执行的子任务序列，并支持人工审核与修改。

第三是代码生成与可信执行。数据智能体通过生成Python代码或SQL语句完成数据计算，并将代码生成、执行、迭代、反馈的全过程透明地呈现。这种机制避免了直接依赖大模型预测结果带来的幻觉风险，确保分析结果可复现、可追溯。

第四是交互输出与过程透明。系统最终交付结构化查询结果或可视化数据分析报告，支持图表交互。用户可基于自然语言进行多轮追问，对数据进一步分析。

基于上述技术特点，当前数据智能体的核心能力集中体现在三方面：一是覆盖数据管理、数据准备与数据分析的全生命周期；二是多智能体协作，分工完成复杂流水线任务；三是错误抑制机制，依托代码执行校验、过程透明化与关键节点的人工监督，控制级联风险。

数据智能体引入可信数据空间的价值

传统可信数据空间交付的是“受控的数据”，其技术体系中数字合约的刚性限制了数据交付的灵活性。比如数据提供方对其内部数据表构建了一条查询语句，封装成API的形式，与数据需求方签订数字合约，由需求方调用API来完成数据交付。如果需求方想要变更查询内容，即使变更幅度很小（比如给SELECT语句增加一个查询条件），也必须由数据提供方封装一个新的API，供需双方重签合约，之后才能继续交付。此外，现有的可信数据空间体系中，数据使用方获取到的都是数据本身，如果想要获取分析的结果或是对数据的洞察（比如“分析华东区第三季度销量下降的原因”），便只能自己对获取的数据进行分析。数据使用方难以直接获得可决策的分析洞察。

引入数据智能体之后，上述交付过程便可改进为：数据使用方用自然语言提出数据分析需求->数据提供方智能体动态生成SQL语句查询->实时返回执行结果。避免了繁琐的API封装与重签合约，降低了双方的沟通成本、运维成本与接口迭代成本。同时，数据使用方的智能体在接收到数据提供方发来的数据之后，可以运用大模型的能力对数据进行分析，为其业务人员呈现可视化的分析报告。

总体而言，将数据智能体引入可信数据空间后，可以在原有可信数据空间能力基础上，扩展出以下六方面新能力。

一是交付物形态从“静态数据/计算结果”扩展到“动态智能分析服务”。传统模式下，数据提供方交付脱敏数据或计算结果数据，使用方拿到数据后自行分析。引入数据智能体后，数据使用方通过自然语言驱动分析，由智能体自主完成数据理解、规划执行与可视化报告输出，最终交付可交互的分析洞察。

二是执行方式从“预定义算法/应用”扩展到“自然语言驱动的自主规划与透明执行”。传统模式下使用方预先开发固定算法，在沙箱中运行既定程序。数据智能体将自然语言需求拆解为可编辑执行计划，生成Python/SQL代码在受控环境中执行，每一步代码与结果均可查看。

三是服务周期从“单次合约，单项交付”扩展到“持续交互与长期记忆”。传统流程中，一次数字合约对应一项数据交付，若需深化探查则必须重新申请。数据智能体可持续沉淀业务术语、分析偏好与指标定义，形成跨会话的长期记忆。数据使用方可对同一数据产品进行多轮追问。

四是业务流程从“人工合约协商”扩展到“Agent辅助/自动化合约协商”。传统模式下，供需双方人工完成合约协商与签署。引入智能体后，各方Agent可基于平台策略模板自动协商数据合约条款。对于探索性分析场景，Agent还可动态申请临时授权。

五是价值释放从“被动查询响应”扩展到“主动洞察推送”。传统方式由使用方主动发起申请、被动接收数据。数据智能体可持续监测数据变化，主动识别异常、预测趋势、生成归因结论，并向授权使用方推送洞察。

六是协作模式从“单一主体分析”扩展到“多Agent可信协同分析”。引入数据智能体之后，数据提供方Agent、使用方Agent及第三方服务方Agent可围绕同一业务目标协同规划、分工执行，联合输出分析结论，且原始数据不出域。

可信数据空间数据智能体技术方案

如何在可信数据空间框架内保障安全合规的前提下，实现智能体的自主规划与洞察交付能力，是可信数据空间引入数据智能体需要回答的核心问题。合理的方案是在原有的可信数据空间服务平台与连接器处分别增加数据智能体的相关能力，总体系统架构如下图所示：

（一）可信数据空间服务平台——新增：数据智能体服务层

该层在现有可信数据空间服务平台身份管理、数字合约、使用控制等既有模块的基础上，面向自然语言驱动的跨域数据分析场景，添加下列模块：

智能体目录：Agent能力的注册与发现中心。登记各连接器侧Agent的能力描述。

智能体引擎：跨域复杂分析任务的编排与合规审核中枢。面对跨域复杂分析任务，将业务意图拆分为可并行子任务，管理跨连接器依赖关系，对抽象执行计划进行合约符合性合规性盲审。

知识库：跨空间语义对齐基础设施，解决同词异义的问题。维护跨空间通用指标语义，行业分析框架。

大模型服务：平台级公共推理中心，集中部署DeepSeek等满血开源模型，承担连接器本地模型处无法胜任的复杂认知任务。

（二）接入连接器——新增：数据智能体能力层

该层在现有接入连接器功能架构基础上进行扩展，遵循原始数据不出域、平台可知结构不可知内容的核心原则。

智能体交互层：业务人员与数据智能体的直接交互入口，承担意图本地化与人机协同职能。

智能体执行环境：Agent生成代码的本地运行沙箱，是原有可信数据空间数据使用环境部分的Agent化扩展。

本地大模型（可选）：由于部署满血开源大模型成本较高，连接器侧可以视自身情况选择本地不部署大模型、部署轻量大模型、或部署满血大模型。对于数据敏感度低而结果精度要求高的大模型推理工作，可交由服务平台处的大模型服务来执行。

总结

可信数据空间与数据智能体的融合，标志着跨组织数据流通正从交付刚性数据迈向交付智能洞察。数据智能体以其自然语言交互、自主规划执行与数据分析整合能力，有效弥补了可信数据空间在消费侧的体验断层，虽还将面临合约如何从静态承诺走向弹性治理、攻击面从数据层扩展到指令层与模型层、架构落地的硬约束等问题，但其使业务人员得以在数据不出域的前提下，直接获取可决策的数据洞察。这一融合并非简单的功能叠加，而是对数据流通价值链的重塑，即将交付物从直接数据交付升级为动态分析服务，协作模式从单次合约交易演进为持续智能交互。虽然制度弹性、安全边界与工程可靠性等问题仍需在实践中逐步解决，但技术方向已日趋清晰。随着标准体系的完善与产业实践的深入，“安全、智能的数据流通”将从愿景走向常态，可信数据空间亦将从数据内容的刚性流动管道演进为数据价值的智能流通引擎。

作者：

刘琛 | 业务研究所

审核：

李征 | 业务研究所

声明：本文来自中移智库，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

可信数据空间数据智能体技术展望

Agent Skill七阶段生命周期与六个治理组件

物理隔离也能传数据？揭秘苹果Find My网络的隐蔽数据通道

40倍降本、0.05%拒绝率：Anthropic新一代Constitutional Classifiers解读