大模型治理人工智能谣言的风险挑战研究

文 | 国家互联网应急中心张扬；中央网信办数据与技术保障中心王志伟*

人工智能（AI）技术在文本生成、图像创作与合成等网络内容生产的迅速普及，使得AI谣言的生产也越来越容易。面对AI谣言的日益泛滥，不少互联网平台企业不断寻求更有效的治理策略。引入大模型“以技术管技术”，成为治理AI谣言的新探索。本研究聚焦于借助大模型治理AI谣言的策略、技术推广过程中存在的问题，以及相应的改进建议展开深入分析。

一、引入大模型应对AI谣言

近年来，AI技术的发展成果被不当利用，导致网络谣言形态由单模态拼接迅速转变为多模态融合，其生产由“人工拼凑”转变为“一键生成”，且在传播过程中呈现出跨平台、破圈层以及个性化推荐的显著态势，这极大地增加了AI谣言识别与治理的难度。依靠传统的人工辟谣和权威消息发布进行辟谣，已呈现出明显的滞后性，辟谣效果大打折扣。在科技迅猛发展的当下，技术带来的负面影响理应借助技术手段予以消除，引入大模型治理AI谣言成为具有积极意义的新尝试。

（一）AI谣言治理面临诸多难题

不同于传统的通过断章取义、张冠李戴制造的单模态拼接式谣言，生成式AI的介入使网络谣言实现了多模态融合，通过图像生成模型、语音生成技术以及在此基础上的视频理解与生成算法实现了图像与音频的完美结合，产生了更加难以鉴别的AI谣言。随着大模型的普及，AI谣言制造门槛低、扩散速度快、迷惑性强的特点更加凸显，对网络舆论环境构成了严峻挑战，增加了事实核查与治理的难度。对于互联网平台企业而言，谣言治理面临诸多难题。例如，在时效性方面，对热点议题的处置节奏落后于扩散速度，后续澄清谣言的边际效用迅速递减，辟谣成效显著降低。在准确性方面，谣言所运用的多义词、隐喻表达与剪辑拼接手段，对内容审核环节提出了更高要求。在可解释性与公信力方面，平台企业面向网络用户与社会大众，需清晰阐释“谣言判定的依据以及证据的来源”。

（二）传统单一的辟谣手段效果不佳

以往谣言治理高度依赖人工，平台企业在初步研判一些快速发酵的网络热点信息时，往往依靠治理人员的经验。抖音、微信公众平台、微博、快手等多个平台设立了专门的辟谣账号，定期针对传播范围广泛的谣言内容开展辟谣工作。一般需等待媒体报道或机构发声提供辟谣线索，再由运营人员将谣言信息录入数据库，进而回溯查找并下架相关内容。然而，AI谣言门槛低、识别难、传播快、影响大的特点，使得传统的人工举报、关键词比对以及单模态审核等手段难以发挥有效作用，也迫使谣言治理的基本逻辑和应对思路发生根本性转变，即采用技术手段应对技术挑战。2025年，中央网信办组织开展“清朗·整治AI技术滥用”专项行动，聚焦AI换脸拟声侵犯公众权益、AI内容标识缺失误导公众等AI技术滥用乱象，要求重点网站平台积极履行主体管理责任，加强AI技术滥用源头治理。在治理AI谣言方面，事后查处只是其中一环，构建提前发现、及早治理的机制则更为关键。

（三）大模型治理AI谣言效果初显

随着技术的发展，平台企业不断借助计算机识别技术由事后辟谣下架向事前提示过渡。例如，抖音于2025年年初推出“辟谣卡、科普卡”，在搜索与热点页进行前置展示；2025年9月，抖音升级上线“AI抖音求真”功能，探索“以AI治理AI”的模式，通过引入大模型技术，增强对谣言的识别、研判与处置能力。该功能依托谣言治理大模型与资讯大模型协同运作，构建智能体对画面、音（视）频、文字等内容进行拆解，通过多模态感知与对齐模块识别口播、字幕与画面之间的不一致性和矛盾点，对音画伪配、旧素材翻用、标题与正文不符等再包装迹象进行检测，同时与权威媒体和政务来源构建可检索索引库，并结合人工协作，实现对AI谣言的规模化发现与精细化处置。当用户浏览疑似不实视频或检索相关事件关键词时，抖音以“求真卡”形式集中呈现事件信息、澄清要点以及权威信源，对谣言类或存疑信息进行重点标注，形成“发现—判定—处置—呈现—反馈”的闭环治理路径。相较于人工处理谣言的方式，该方式在全网信息研判与回查处置方面的效率更高。根据抖音公布的数据，大模型的识别准确率达到85%。这不仅转变了依靠外部反馈发现谣言的治理思路，还将单例谣言的发现和处置时效从以“天”为单位缩短至以“小时”为单位，使“发现即管控”更为精准、高效。

二、大模型治理AI谣言推广普及面临的风险与挑战

尽管通过大模型能够使得平台企业明显提高识别、处置AI谣言的效率和精准度，但在更多网络平台推广该技术仍面临着诸多挑战。不同地域所产生的多元语言和文化信息，以及不同平台产生的AI内容标识和数据信息溯源标准的不统一、不规范，将给治理谣言的大模型带来技术适配性风险。不断训练、完善大模型需要对用户使用信息数据进行收集利用，不可避免地会涉及数据安全和用户隐私问题。随着大模型的普及，确保其科学合理使用，避免因滥用而限制用户网络表达，也成为亟待探讨的网络伦理问题。此外，谣言治理大模型的持续迭代升级与维护，还会增加平台企业的技术资源投入和经济成本。这些都是大模型治理AI谣言过程中不可回避的风险与挑战。

（一）技术适配性风险

随着抖音引入大模型技术以治理AI谣言，尽管平台在识别和处置虚假信息方面取得了显著成效，但要大规模推广应用仍存在技术适配性风险。大模型在处理不同类型谣言时，可能面临因准确识别和判断不同语言、文化以及地区差异所带来的价值规范适配问题。例如，在多语种和跨文化背景下，AI算法或许未能精准识别某些本地化表达，进而将其误判为虚假信息。在境外社交网站上，曾出现将中东地区某网民帖子里的“早上好”误译为“攻击他们”，进而触发内容有害警报的情况。诸如此类大模型的偏差与误报问题，可能导致真实内容被误判为谣言，进而影响用户体验和平台声誉。此外，不同平台在技术标准、内容标识、数据类型等方面也存在差异，AI技术的复杂性和谣言治理的多样化需求，使得对大模型的持续优化成为提升谣言治理效果的关键因素。

（二）数据安全与隐私风险

在抖音推行“AI抖音求真”功能时，为了提高内容治理的精准度，大模型需要收集用户的互动数据、浏览历史、情感反应等大量个人信息，用户数据的收集和处理不可避免地会涉及个人隐私保护的问题。如何保障这些数据的安全、避免信息泄露和滥用，成为平台面临的重要问题。对于青少年用户和高风险群体，平台需要采取更加严格的数据加密与匿名化措施来防止用户的隐私被泄露或被滥用。如果平台未能有效处理用户数据，可能要承担法律责任，还会对品牌形象和用户信任造成严重损害。近年来，网络隐私泄露和数据滥用事件屡见不鲜，平台企业训练谣言治理大模型时需要考虑建立健全隐私保护机制，确保技术在使用过程中不会侵犯用户的个人权益，避免引发公众不满和法律诉讼。

（三）技术限制与自由表达界限失衡风险

抖音的“AI抖音求真”功能虽旨在打击谣言，但在如何平衡技术介入与人们自由表达方面也可能面临伦理风险。大模型治理AI谣言的过程中，平台需明确区分“事实辟谣”与“内容审查”之间的界限，避免因过度干预而侵犯用户的表达自由。例如，平台可能因算法误判或对某些敏感事件的处理不当，导致用户被误导或表达受限而引发争议。与此同时，AI技术对信息的过滤与审查，可能会引发关于“虚假信息”与“真实信息”界限的伦理讨论。平台企业在推动谣言治理大模型技术发展的同时，也要考虑如何确保技术不被滥用而侵犯个体的知情权和表达权，需要在虚假信息治理和保障网民内容表达方面保持适度平衡。

（四）技术资金投入增加企业盈利风险

平台企业通过技术手段治理谣言，既契合政府管理部门的要求，又有助于提升网络内容的可

信度与用户体验。然而，这项技术的应用也必然伴随着技术投入与运营成本。大模型的开发与维护需要大量的技术资源与计算能力，平台企业一旦采用该技术路径，为确保技术的稳定性和准确性，可能需投入更多资金进行持续优化，这种高技术成本可能对平台的盈利模式产生影响。同时，内容治理与内容创新发展则是一对矛盾关系，如何在有效治理的同时保持持续创新，以实现长期盈利，是平台企业作为市场主体必须深入研究的重要课题。

三、大模型治理AI谣言的改进方向

引入大模型治理AI谣言，不仅是AI技术正向应用的新突破，而且依赖于管理手段与社会力量的支持。上述谣言治理大模型发展过程中存在的风险与挑战，在可预见的时期内既是亟待突破的阻碍，也为未来技术的发展明确了方向。治理AI谣言需借助技术找准痛点、解决难点，同时还要依靠政府管理部门、社会力量以及产业整合提供保障。只有多措并举，才有可能更好地实现AI技术正面发展和负面治理的总体平衡，进而最大程度地发挥AI技术的积极作用。

（一）通过技术标准统一，解决大模型适配性难题

目前，平台在处理不同类型谣言时的技术能力、数据标准和算法模型仍存在差异。为了有效解决适配性问题、提升治理效果，可由政府管理部门牵头，联合相关行业组织，推动制定统一的技术标准，该标准应涵盖内容识别、舆情监测、谣言追踪等多个维度。例如，平台需定期公开大模型识别的关键技术指标（准确率、误报率和抗篡改能力等），并通过第三方机构开展独立评估，以判定谣言识别与处理能力。同时，制定标准化的内容标注规范，确保图片、音频、视频、文本等多模态内容都能遵循统一的标识规则，从而有效促进平台间的技术协同，提高谣言治理的精准度和处理效率。此外，针对大模型在应对不同语言于不同语境下的解读难题，应强化语言模块，必要时引入人工二次研判环节进行干预。

（二）通过强化第三方监督提升大模型透明度，保障个人隐私和创作自由

大模型治理AI谣言不仅依赖平台，还需要社会多方力量参与。鉴于此类大模型在发展过程中不可避免地会收集用户数据、影响内容创作，仅靠平台企业单方面承诺保护个人隐私和创作自由，难以构建稳固的信任关系。在推广发展的过程中，可以整合政府、平台、行业协会以及第三方机构的力量，构建“信用榜单”，将履行合规责任的平台企业列为“良好案例”，对屡次违规的平台予以公开披露。与此同时，鼓励第三方独立机构为用户和监管部门提供非平台自身的数据检测结果，以避免陷入“自证清白”的困境。通过社会多元监督与市场化约束相结合，逐步提高行业整体透明度，压缩不良行为的生存空间。

（三）通过技术共享，推动平台管理责任加快落实

根据2025年9月施行的《人工智能生成合成内容标识办法》，平台需要承担管理责任，但头部平台与中小型平台在技术能力、资源投入等方面存在差异。为更高效地在行业内达成监管要求，政府管理部门可针对不同规模的平台，精细化制定分阶段的合规要求。对影响力较大、技术与资金实力较强的大平台，短期内要求其落实实时标识、全量溯源和合规报告等治理要求；对用户量较小、技术与资金实力较弱的中小平台，可设置过渡期，并提供技术支持与合规指导，分阶段达成管理要求，最终确保各平台在平等的前提下履行监管责任。同时，引导大型平台共享大模型治

理AI谣言的技术工具，以“技术共享”推动全行业合规升级，通过“公共平台+技术共享”的模式，在降低中小主体合规成本的同时，推动全行业合规能力的整体提升。

（四）通过AI产业规范发展，为技术的持续进步提供资本支撑

不可否认，AI合成技术本身具有巨大的产业发展潜力，在教育、广告、影视、医疗等领域都有广阔的创新应用空间。然而，该技术被不当应用后引发了各类AI谣言，产生了诈骗、虚假新闻、低俗内容等高风险问题。引入大模型治理AI谣言并非完全扼杀人工智能深度合成应用，而是为了更好地保障该行业实现可持续的健康发展。为避免过度监管导致产业萎缩，政府管理部门应充分发挥引导作用，构建“合规白名单”，明确可运用深度合成技术的应用场景以及相应的技术标准。以“AI抖音求真”为代表的谣言治理大模型，应成为推动深度合成技术产业化健康发展的合规支撑。只有平台企业在该产业中获取收益，才具备持续开发和完善大模型的资本，进而通过技术更有效地支撑网络内容治理。

四、结语

随着AI技术以及各类大模型在互联网领域的迅速普及，可以预见，引入大模型开展谣言治理必将成为平台治理的方向之一。然而，这一技术治理模式的发展尚不成熟，既面临着各类互联网产品技术标准不统一、内容标识不完善等基础性障碍，又需应对互联网内容本身的复杂性、创作自由伦理以及产业投入产出平衡等问题所带来的挑战。因此，若要在整个互联网平台达成将大模型作为治理AI谣言的标配，还需要政府、企业、社会等各方力量协同合作，朝着“以技术管技术”的目标迈进。（王志伟系本文通讯作者）

（本文刊登于《中国信息安全》杂志2026年第2期）

声明：本文来自中国信息安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

大模型治理人工智能谣言的风险挑战研究

多智能体系统安全风险分析

提示注入安全改写防御的不可能三角：连续性、实用性和完备性

面向大语言模型的自动化渗透测试