一.概述

据绿盟科技星云实验室统计,在2025年3月至6月期间,全球范围集中爆发了多起与大模型相关的重大数据泄露事件,导致大量敏感数据外泄,包括模型训练数据、企业源码、Onedrive中的个人隐私数据等。这些事件不仅揭示了企业在AI应用中的安全短板,更凸显了"AI原生风险"的威胁。本文将抽取4个典型事件,并通过时间线梳理、泄露数据分析、攻击路径还原及MITRE ATT&CK框架对标,系统剖析AI技术落地的安全盲区。

二.大模型数据泄露事件分析

事件一.

国内某大学重点实验室向量数据库存在数据泄露风险

事件时间:2025年3月

泄露规模:数百条AI应用知识库/训练数据

事件回顾:

2025年3月,绿盟科技创新研究院发现一个部署在阿里云上的Qdrant向量数据库服务,且未存在任何有效访问控制和认证机制。任意互联网用户,包含恶意攻击者,可以通过Qdrant的Restful API对其中的向量数据、源数据进行任意访问。暴露向量数据库中包含了数百条用于构建、训练AI应用的向量数据。

图1. 疑似国内某大学重点实验室向量数据库数据泄露截图

研究员通过技术手段定位到该镜像仓库的归属组织机构为某大学重点实验室后,第一时间将此情报通报给相关单位进行治理。

事件分析:

Qdrant是一款向量相似性搜索引擎和向量数据库。它提供了一套可直接投入生产环境的服务,配备便捷的API,用于存储、搜索和管理带有附加载荷(payload)的点—即包含额外信息的向量。Qdrant能够有效支持各种基于神经网络或语义的匹配、分面搜索(faceted search)以及其他应用场景。

由向量数据库引起的数据泄露主要有3种方式:通过RestfulAPI泄露、通过管理工具泄露以及通过API调试文档泄露。

1. 通过RestfulAPI泄露:部分向量数据库部署完成后会对外暴露一些Restful API,这些API打通了LLM应用训练、推理的全流程。然而,笔者调研的多款主流向量数据库的默认部署方式下(容器部署方式)的原生RestfulAPI均不包含任何访问控制机制。“暴露的API”加“未授权访问”给向量数据库带来了严重的数据安全威胁,攻击者可以通过极低的成本(如一个简单的Get或Post请求)来获取其中的数据,造成数据泄露。

2. 通过管理工具泄露:向量数据库的Web管理工具若存在未授权访问也可能导致数据泄露事件的发生。例如,向量数据库Milvus的Web管理工具Attu、MilvusWebUI都有可能存在默认情况下的未授权访问。攻击者可能通过这类Web管理工具窃取向量数据库中的敏感数据,进而造成数据泄露。

3. 通过API调试文档:一些向量数据库为了方便开发者进行调试,在特定的endpoint下自动生成了在线API调试文档,且同样不具备任何访问控制机制。攻击者能够通过对在线API文档进行调试,对后端的向量数据库进行查询等操作,进而造成数据泄露。

导致此次Qdrant数据泄露风险事件的主要原因为Qdrant开放的RestfulAPI存在未授权访问漏洞。开发者在部署完Qdrant服务后,未配置有效的访问控制机制,且对服务的访问也没做合理的限制。Qdrant向量数据库服务的“互联网暴露”加“未授权访问”最终导致了此次数据泄露风险事件的发生。

VERIZON事件分类:Miscellaneous Errors(杂项错误)

所用MITRE ATT&CK技术:

事件二.

GitHub MCP漏洞影响深远,或引发供应链安全危机

事件时间:2025年5月

泄露规模:影响多个GitHub公开仓库及私有仓库,涉及企业私有代码、敏感数据包括物理地址、薪资详情等高度敏感信息

事件回顾:GitHub的模型上下文协议(Model Context Protocol,MCP)服务器被曝存在严重安全漏洞,攻击者可通过恶意提示注入(prompt injection)手段获取私有代码库数据。该漏洞影响所有使用GitHub MCP集成的代理系统,如攻击者可通过在公共代码库/私有代码库中创建包含隐藏提示注入载荷的恶意issue,当用户使用AI代理审查代码库issue时,这些恶意提示会劫持AI代理(如Claude Desktop、Cursor等),迫使其执行恶意操作,如:

1. 利用 MCP 已授权的 OAuth 权限,越权访问组织内(Organization)所有私有仓库;

2. 窃取私有代码、HR文档、薪资数据等敏感内容;

3. 自动创建公开 Pull Request 并粘贴窃取数据,使攻击者及公众可直接查看。

实测中,Claude 4 Opus 模型在受控环境下泄露了用户搬迁计划、薪资信息及私有项目名称,证明漏洞具备实际危害性。

事件分析:此次事件根因为Github MCP架构设计缺陷导致,可总结为以下三方面内容:

1. 过度特权访问:MCP 持有宽泛 OAuth 权限(默认可跨仓库读写);

2. 不可信输入通道:接受公开 Issue/PR 评论等未过滤的用户输入;

3. 数据外泄出口:支持创建公开 PR 等对外输出机制。

三者结合形成攻击链,AI代理被恶意输入操控,滥用合法权限泄露数据。

同时我们也可以看出,此次事件并非代码缺陷,而是架构设计导致的问题,并且也与模型无关,所有接入Github MCP的AI助手都会受到影响,并且修复难度较高,单纯补丁无法消除风险,并且攻击门槛也较低,攻击者仅需在公开仓库提交一个issue就会引发数据泄露风险。

VERIZON事件分类:Everything Else(其他项)

所用MITRE ATT&CK技术:

参考链接:https://mp.weixin.qq.com/s/BIvPDIFTaoBIvfsnezG3xw

事件三.

微软OneDrive被曝向AI聊天机器人开放用户文件完全读取权限

事件时间:2025年5月

泄露规模:数百万用户 OneDrive用户的云盘数据

事件回顾:2025年5月,Oasis Security研究团队发现微软的OneDrive File Picker的 OAuth 实现存在严重权限过度问题,会暴露用户的整个OneDrive内容。OneDrive File Picker是微软提供的用于上传或共享OneDrive中存储文件的工具。报告指出,如果用户使用该工具将文件上传至第三方服务,如ChatGPT、Slack、Trello和ClickUp等AI聊天机器人或其他应用程序,这些工具将获取对OneDrive所有文件的访问权限。Oasis研究团队估计有数百个应用程序受到影响,意味着数百万用户可能已经授予这些应用程序访问其OneDrive的权限。Oasis指出这个缺陷可能会产生严重的后果,包括客户数据泄露和违反合规法规。微软已确认该问题,表示将在未来版本中作出改进。

事件分析:此次事件的问题根源是OneDrive File Picker 缺乏细粒度 OAuth 范围,导致“上传单一文件”流程默认获取整个驱动器读权限;再加上 token 存储不安全,OneDrive File Picker要求开发者自行处理身份验证,通常使用微软身份验证库(MSAL),并且可能使用授权码流程:

1.MSAL默认将访问令牌以明文方式存储在浏览器的sessionStorage中;

2.授权码流程通常还会返回一个Refresh Token,该token可被用来持续刷新访问令牌,使攻击者能够长时间内访问用户数据;

因此,第三方应用可在用户不知情的情况下读取大量敏感数据,甚至持续监控。若 token 泄露,风险更上升至远程持续窃取。

VERIZON事件分类:System Intrusion(系统入侵)

所用MITRE ATT&CK技术:

参考链接:https://cybernews.com/security/onedrive-file-picker-exposes-user-data/

事件四.

黑客利用微软SharePoint 版 Copilot AI 漏洞窃取密码及敏感数据

事件时间:2025年5月

泄露规模:SharePoint站群中存放的成千上万份文档与内部资料

事件回顾:

2025 年 5月,安全机构PenTest Partners在报告中揭示攻击者可利用Microsoft CopilotforSharePoint代理避开传统日志监控去深度索引和获取SharePoint站点中的敏感信息,包括密码、私钥、API密钥、测试报告、内部文档等。(SharePoint是一个支持协作工作和信息共享的微软平台。它们的工作方式类似于包含图形和文本的常规Intranet页面,但它们也提供了存储和管理文件的位置。值得注意的是,当文件和图像在MicrosoftTeams上共享时,SharePoint会自动为它们创建一个站点。)代理方式有两种:微软预先构建的默认代理和由组织构建的自定义代理。

图2. 疑似微软Copilot代理聊天泄露信息1

通过这些代理,攻击者可以在短时间内检索和浏览大量数据集,还可以帮助攻击者快速理解内部术语、首字母缩略词和其他行话的含义。通过向代理解释需要的内容,它可以帮助攻击者准确计算出攻击者想要什么,并将这些内容反馈给攻击者,且不会显示访问日志和痕迹。

图3. 疑似微软Copilot代理聊天泄露信息2

事件分析:

导致该安全事件发生的核心原因在于Microsoft 365 SharePoint中默认启用的Copilot AI Agent存在访问控制不严格、行为不可审计、以及提示词可被滥用等设计缺陷,导致攻击者可以通过合法界面绕过权限限制并获取大量敏感数据。

  • Default Agents 滥用:Copilot Default Agent 默认安装在所有 SharePoint 站点里,具有访问站点内容的能力;使用特定prompt(如“请扫描此站点并列出密码、私钥、API密钥”),无需显式下载即可提取敏感信息,包括文件内容和链接;Agent提供文档内容摘要,但不会记录为“最近访问”,从而绕过日志监控。

  • 绕过权限限制:即使用户处于“Restricted View”(仅浏览权限),Copilot也能提取文件内容,例如“Restricted View” 权限下,攻击者仍可获得 Passwords.txt 中的密码明文。

  • 规避访问日志记录:通过Copilot访问的文件不会被标记为“已打开”或“最近访问”;常规监控手段无法发现 Copilot 的访问行为。

  • 自定义Agent滥用:攻击者可注册自己的AI Agent;自定义Agent可配置更高访问权限,甚至跨站点;可在Agent Prompt/训练数据中预嵌后门,或用于数据存储。

VERIZON事件分类:System Intrusion(系统入侵)

所用MITRE ATT&CK技术:

参考链接:https://mp.weixin.qq.com/s/NNi6hwYeIcQtrOhVWkRyNw

三.大模型数据泄露防护建议

3.1

向量数据库加固

  • 建立有效的访问控制机制:开启向量数据库自身的认证机制或引入外部的访问控制机制,避免向量数据库服务的互联网暴露及任意用户的未授权访问。

  • 及时对向量数据库进行安全更新:及时更新向量数据库至安全版本,避免N Day漏洞的利用。

  • 增加对向量数据内容的审计机制:定期对向量数据库中的内容进行安全审计,避免数据投毒攻击对其他服务的影响。

  • 自动化监控及响应:建立自动化监控及响应机制,及时捕捉、响应向量数据库发生的异常操作。

3.2

AI代理系统架构修复

  • 权限最小化OAuth范围精细化,强制限定AI代理权限(如GitHub MCP仅允许访问特定仓库,禁用跨库读写)。

  • 采用动态权限审批机制

  • 敏感操作(如创建PR、访问驱动器)需用户实时授权,禁止默认自动同意。

3.3

针对AI代理的行为管控

  • 强制访问控制,权限继承机制,AI代理仅能访问用户显式授权的文件,且权限不超过用户自身(如Restricted View用户无法通过代理提取文件内容)。

  • 敏感操作拦截,检测高风险Prompt关键词(如"列出密码"、"私钥")

四.总结

本文分析了2025年3-6月大模型数据泄露典型安全事件,系统性探讨了事件成因,包括主流云攻击手法和配置错误等人为因素。为了更清晰地描述云上数据泄露的攻击路径,我们引用了MITRE ATT&CK模型中的攻击手法并进行了说明,有助于读者更好地理解这些攻击机制。

绿盟科技创新研究院在云上风险发现和数据泄露领域已经开展了多年的研究。借助Fusion数据泄露侦察平台,我们已监测到数百万个云端暴露资产存在未授权访问的情况,包括但不限于DevSecOps组件,自建仓库、公有云对象存储、云盘、OLAP/OLTP数据库,以及各类存储中间件等,具体研究内容可参考《2023公有云安全风险分析报告》[1],《2024上半年全球云数据泄露风险分析报告》[2],《全球云上数据泄露风险分析简报》第一期至第六期[3,4,5,6,7,8]。

Fusion是由绿盟科技创新研究院研发的一款面向数据泄露测绘的创新产品,集探测、识别、泄露数据侦察于一体,针对互联网中暴露的泛云组件进行测绘,识别组件关联的组织机构和组件风险的影响面,实现自动化的资产探测、风险发现、泄露数据分析、责任主体识别、数据泄露侦察全生命周期流程。

图4 Fusion能力全景图

参考文献

[1]《2023公有云安全风险分析报告》

https://book.yunzhan365.com/tkgd/qdvx/mobile/index.html

[2]《2024上半年全球云上数据泄露风险分析报告》 https://book.yunzhan365.com/tkgd/cltc/mobile/index.html

[3] 全球云上数据泄露风险分析简报 (第一期) https://book.yunzhan365.com/tkgd/sash/mobile/index.html

[4]全球云上数据泄露风险分析简报 (第二期) https://book.yunzhan365.com/tkgd/bxgy/mobile/index.html

[5] 全球云上数据泄露风险分析简报 (第三期) https://book.yunzhan365.com/tkgd/xyih/mobile/index.html

[6] 全球云上数据泄露风险分析简报 (第四期) https://book.yunzhan365.com/tkgd/xbin/mobile/index.html

[6] 全球云上数据泄露风险分析简报 (第五期) https://book.yunzhan365.com/tkgd/rpyc/mobile/index.html

[6] 全球云上数据泄露风险分析简报 (第六期) https://book.yunzhan365.com/tkgd/fzbu/mobile/index.html

内容编辑:浦 明

责任编辑:吕治政

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

声明:本文来自绿盟科技研究通讯,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。