近日,一份来自卡内基梅隆大学(CMU)和东北大学研究人员的最新论文对AI数据安全和隐私研究领域发出了“灵魂拷问”:我们是不是一直都搞错了重点?
研究者们认为,绝大多数(高达92%)的AI隐私研究都过度集中在防范数据“记忆”和“泄露”上,而忽视了大型语言模型(LLM)在日常使用中如何收集、处理和推理信息的巨大风险。这种研究上的“认知错配”,正让企业和用户在面对更微妙、更难察觉的隐私侵犯时,几乎“不设防”。
92%的研究跑偏
研究团队系统性地回顾了2016年至2025年间发表的1322篇AI与机器学习隐私相关的论文,结果令人震惊:
92%的研究集中在两个狭窄领域:训练数据泄露(即模型“记住”并复述出它学过的数据)和防止直接的聊天内容暴露(如数据库被黑)。
仅有8%的研究触及了其他关键风险,如推理攻击(AI通过零散信息推断出你的秘密)、LLM Agent(智能体)导致的上下文泄露,以及大规模数据聚合(AI将公开信息整合成详细的个人档案)。
这种极度的不平衡意味着,当下的隐私防护措施可能只是一面“马奇诺防线”。论文作者指出,隐私问题贯穿LLM的整个生命周期,从数据收集、处理、训练到最终部署,而不仅仅是训练阶段。我们正对那些更难检测和控制的“隐形”隐私侵犯束手无策。
为何“跑偏”?专业人士的“技术茧房”
为什么学术界会对近在眼前的风险视而不见?
CMU助理教授、论文共同作者Niloofar Mireshghallah直指背后更深层次的系统性障碍:
1. 政策永远“慢半拍”:“安全与技术研究,同政策制定之间,总是存在着一道持久的鸿沟。政策往往在技术浪潮之后才蹒跚而来,这导致了监管真空。”
2. 技术圈的“文化偏见”与“技术茧房”:Mireshghallah一针见血地指出,技术研究社区内部存在一种鄙视非技术因素的“文化病”。“那些涉及‘人为因素’(human factors)的隐私工作,经常被斥为‘非技术性’或‘不值得认真对待’。许多技术专家将这些担忧视为‘别人的问题’,甚至将问题归咎于用户,而不是反思系统性的设计缺陷。”
3. 严重的“筒仓效应”(Silos):研究在孤岛中进行。AI、政策和人机交互(HCI)这几个本应紧密协作的领域,彼此之间却“老死不相往来”。“LLM的研究者很少去关注其他相关领域的出版物,”Mireshghallah说,“再加上学术和行业激励机制的缺失,导致这种跨学科工作无人问津。所有这些因素共同作用,为这些关键隐私风险的被忽视,制造了一场‘完美风暴’。”
AI泄密的五大关键风险
研究人员提出了一个包含五类隐私事件的分类法,其中后三类是目前最被忽视的:
训练数据泄露(最受关注):模型复述出训练数据中的文本。
直接聊天泄露(较受关注):存储的对话因策略不善或基础设施受损而暴露。
间接上下文泄露(被忽视):通过工具或Agent集成导致的信息泄露。
间接属性推理(被忽视):模型从普通数据中推断出用户的敏感特征(如健康状况、地理位置、政治倾向)。
直接信息聚合(被忽视):AI系统将来自多方的公开信息整合成详细的个人档案。
后三类风险的可怕之处在于,它们根本不需要发生传统意义上的“数据泄露”。例如,用户可能只是上传了一张图片或写了一段简短的文字,AI就能推断出其背景或位置。当系统开始聚合网络上关于你的所有公开信息碎片时,风险会进一步放大。
AI行业盛行“欺诈式数据采集”
报告特别强调了当前LLM生态系统的数据收集实践是多么具有“侵略性”。
“选择退出”(Opt-out)的控制选项通常被深埋在菜单中,或者根本无效。更糟糕的是,“反馈”功能(比如你给AI的回答点了个“赞”或“踩”)可能会触发长期的数据存储,即使用户认为自己已经选择了“退出”。
研究人员发现,一些LLM服务现在会将用户数据存储长达数年。法律要求或安全标志(如系统判定你的对话涉嫌违规)可以凌驾于用户的删除请求之上,导致用户实际上无法控制自己的数据。
作者将这种模式描述为 “伪装成选择的隐私侵蚀”(privacy erosion disguised as choice)——系统的设计和政策,在系统性地偏向数据收集。
对于企业的CISO(首席信息安全官)而言,这敲响了警钟:必须严格审查供应商的数据保留实践,并真正理解用户的每一次互动是如何被处理、标记和存储的。
智能体和RAG:正在浮现的新“攻击面”
随着LLM进化为连接了检索(RAG)和智能体(Agent)能力的复杂系统,新的隐私“攻击面”正在浮现。
检索增强生成(RAG)系统会从数据库、API和各种外部来源抓取信息,而这些来源本身就可能包含敏感或专有数据。
自主智能体则会放大这些风险。它们可以组合权限、访问外部系统,甚至曲解用户的意图。研究指出,即使用户本意并非作恶,他们也可能在不知不觉中暴露私密数据,因为他们根本无法看到或控制智能体在“幕后”是如何收集或共享信息的。
指望用户自己去监督这些系统是不切实际的。当Agent高速处理海量数据时,人类的监督根本无法有效捕捉到隐私侵犯。
打破“技术茧房”:重塑研究、政策与问责
如何走出AI安全研究“跑偏”的怪圈?
Mireshghallah认为,必须在研究、资金和监管层面进行结构性转变:
在研究层面:资助机构应明确要求跨学科合作。技术、社会和政策领域的专家必须共同参与,这应成为获得资助的先决条件。
在监管层面:监管者必须“倒逼”企业。“我们需要建立一个能为数据收集制造‘摩擦力’(friction)的监管框架, 迫使企业在‘绝对必要’(need-to-know)的基础上证明其收集和保留数据的合理性。” 这可以与激励措施(对隐私保护实践的奖励)和惩罚措施(对违规行为的罚款)相结合。
在激励层面:改变学术界和工业界的“指挥棒”,奖励那些真正解决了这些复杂的社会技术挑战的跨学科工作,而不是将其视为“边缘问题”。
东北大学助理教授、论文共同作者Tianshi Li总结道:“我们现有的隐私框架,是为管理‘机构责任’而建立的,而不是为了管理智能体正在放大的‘人与人之间’的风险。这正是我们开始看到的范式转移(paradigm shift)。”
归根结底,这项研究呼吁我们停止将保护隐私和数据安全的重担单独压在“用户选择”上。相反,提供LLM的人工智能技术厂商和政策制定者必须承担起责任,建立跨越技术和组织层面的、明确且可执行的隐私保护机制。对于评估AI隐私安全而言,只检查数据保留和加密标准,已经远远不够了。
参考链接:
https://arxiv.org/abs/2510.01645
声明:本文来自GoUpSec,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。