近年来,随着人工智能技术的飞速发展,数据标注产业作为数字经济发展的重要支撑而崭露头角。在我国,数据标注行业虽然发展迅速,但多处于相对零散、自发的状态。今年初,四部委联合发布《关于促进数据标注产业高质量发展的实施意见》,国家层面首次对数据标注这一新兴产业进行系统谋划,行业迎来重磅利好。未来,伴随“东数西算”工程推进及生成式AI爆发,行业将加速向自动化标注、专业化服务与全球化协作转型,成为支撑我国人工智能全球竞争的关键基础设施。
一、国外数据标注产业发展情况
根据Grand View Research数据显示,2023年全球数据标注和服务市场规模达140.7亿美元。其中,美国的市场规模达42亿美元,全球占比近30%。欧洲为37.2亿美元,占比26.4%。根据QY Research调研统计,2030年全球数据标注和服务市场销售额预计将达到1171亿元,2024—2030年复合增长率达8.3%。
美国是全球数据标注行业的领跑者,产业发展呈现出“全产业链布局与政府战略协同”的特点。美国数据标注产业已形成了成熟完备的生态,涵盖专业标注公司、基础标注工具开发商、标注众包平台、第三方质量控制机构、标准化组织等主体,各环节协同配合,形成了完整的产业链。政策层面,2016年,美国商务部发布《数字经济战略》,明确数据标注作为AI发展的基础环节,推动联邦数据开放与共享。2019年,发布《联邦数据战略2020年行动计划》,通过三个“强调”加速构建美国健全高效的数据服务体系,这对美国的数据标注服务及产业的高质量发展产生了积极的影响。2024年,发布《为AI准备的政府数据资产开放》,提出AI能恰当便捷地访问数据,确保数据从“机器可读”优化到“机器可理解”,强调了提供高质量数据集的至关重要性。企业层面,据MarketsandMarkets(美国市场研究机构)统计,美国有18家数据标注服务提供商位列全球前三十名,占比达60%。例如,ScaleAI、Lionbridge等一批专业的数据标注公司,还有谷歌、亚马逊、微软等科技巨头的内部标注中心。技术研发层面,美国保持领先优势,除已实现商业化应用的人工智能辅助标注、众包分布式标注平台、主动学习算法等技术外,近年来还涌现了联邦学习标注、少样本学习标注、合成数据等新兴技术与解决方案。同时,借助标注工具开源、云计算、人工智能大模型等手段优化标注流程。
欧盟通过构建“欧洲共同数据空间”和推动数据相关法案,试图构建欧洲统一数据市场并大力发展数据标注产业。欧盟数据标注产业在垂直领域深耕、合规性、技术创新等方面具有全球标杆意义。产业生态层面,德国、法国和英国是欧洲数据标注市场的领跑者,这得益于其强大的技术基础设施和坚实的工业基础。欧盟数据标注企业以中小型科技公司为主,聚焦垂直领域。例如,德国Mindy Support为汽车行业提供高精度3D点云标注服务,其标注的LiDAR数据被宝马、大众用于自动驾驶模型训练。政策法规层面,欧盟出台了GDPR和《非个人数据自由流动条例》等一系列法规,旨在通过构建全面的数据治理框架,促进数据的高质量生产和使用,同时保护个人隐私和数据安全。又如,《数据治理法案》鼓励公共部门的信息开放,并设定了高价值数据集的标准。欧盟的一系列政策性举措在推动建设高质量数据,促进更多类型的数据资源被纳入标注业务范畴起到了重要作用。技术创新层面,欧盟企业在“主动学习+联邦学习”领域取得突破。例如,德国Siemens利用AI标注工具分析工厂设备运行数据,优化预测性维护模型,标注效率提升30%。英国牛津大学孵化的Diffblue公司,开发基于语义技术的自动化标注工具,可自动生成软件代码标注。
二、国内数据标注产业发展现状
市场规模方面,根据中商情报网数据显示,2023年中国数据标注市场规模达60.8亿元(详见图1),较上年增长19.7%。据预测,2025年中国数据标注市场规模有望突破100亿元。
图1:2021—2025年中国数据标注产业市场规模趋势
数据标注产业链主要由上、中、下游构成(详见图2)。上游集聚了非结构化数据的采集和整合,包括公共数据、企业数据、互联网数据、图像、语音、文本等多种类型的数据源。同时,软硬件技术服务商也是产业链上游的重要组成部分,为数据标注提供必要的技术支持。中游汇聚了数据标注厂商,是产业链的核心。他们负责将上游采集的数据进行加工处理,转化为满足机器学习训练要求的结构化数据,包括数据存储、处理和分析工具等技术服务、数据标注和管理平台服务、数据集的交易和管理服务和人力服务等。这些厂商通常拥有专业的标注团队和完善的标注流程,能够根据客户需求提供定制化的数据标注服务。下游为数据标注服务的需求方,涵盖科技企业、AI企业、科研机构等。这些需求方聚焦于大模型训练、自动驾驶研发、智慧工业转型、智能安防升级等多元场景,是在各行业领域中开展AI算法研发、推动技术落地的核心主体。另外,在整个数据标注产业链条中还有通过标准应用、人才培养、生态培育、数据安全等多方面赋能数据标注核心产业的配套支撑方。
图2:数据标注产业链
政策布局来看,呈现国家战略为牵引,区域梯度协同的特点。一是国家层面,从国家战略的系统性布局到专项政策精准发力。2022年,《“十四五”数字经济发展规划》首次将数据标注纳入数据要素市场化配置范畴,提出“培育数据标注等社会化数据服务机构”,明确数据标注作为人工智能产业链基础环节的战略定位。2023年,《关于构建数据基础制度更好发挥数据要素作用的意见》进一步强调“推动公共数据、企业数据、个人数据分类分级确权授权使用”,为数据标注的合规性提供制度保障。2024年5月,国家数据局确定成都、沈阳、合肥、长沙、海口、保定、大同7个城市为国家级数据标注基地。这些基地已形成医疗、工业、教育等领域的335个高质量数据集,标注规模达17282TB,带动相关产值超83亿元。2025年1月,四部委联合发布《关于促进数据标注产业高质量发展的实施意见》,成为数据标注产业的首个国家级专项政策。其中提出,到2027年,产业规模年均增长超20%,并部署13项具体任务,包括公共数据标注目录编制、智能标注工具研发、数据标注国际标准制定等。
二是地方层面,多地政府积极出台数据标注相关政策文件(详见表1),培育壮大数据标注产业。地方政府围绕本地产业特色形成差异化政策定位,主要在产业集聚、企业培育、技术创新、人才引育、安全保障等方面全力支持数据标注产业发展。例如,大同通过打造高质量数据集,结合当地产业特色,深度挖掘能源、文旅、交通等行业数据资源。成都推行“数据+场景+资本+供应链”协同的招商新模式,构建以平台企业为引领、专业企业为骨干、创新企业为发展的数据标注企业集群。
表1:地方层面数据标注产业相关政策汇总
时间 | 地区 | 政策名称 | 重点内容 |
2025.4 | 河南省 | 《河南省数据要素市场培育行动方案(2025—2027年)》 | • 支持省级数据标注基地先行先试,加快开展数据标注产业生态构建、能力提升和场景应用,做大做强数据标注产业。 |
2025.3 | 沈阳 | 《沈阳市数据标注技术创新指导意见》《沈阳市人工智能数据标注产业发展研究报告(2025年)》《沈阳市数据标注产业图谱》等五项创新成果 | • 沈阳高度重视数据标注产业发展,发布五项数据标注创新成果; • 未来,沈阳市将以国家级数据标注基地建设为依托,持续深化数据标注产业创新,集聚产业优势,构建产业生态,全力打造“数字沈阳”新标杆。 |
2025.3 | 合肥 | 《合肥数据标注产业发展规划(2025—2027年)》 | • 到2027年底,合肥将实现多语种标注和语音标注能力国际领先,构建超11个行业高质量数据集,标注数据规模达3000TB,产业规模突破30亿元,带动相关产业形成千亿级体量; • 通过“一核引领、两区支撑、多园协同、区域联动”的空间布局,高新区将打造全球领先的数据要素核心引领区,蜀山与新站两大区域形成产业集聚区,各县(市)区建设特色“数据标注+”产业园区。 |
2025.3 | 长沙 | 《长沙市关于推进国家数据标注基地建设的若干政策(试行)》 | • 从培育数据标注产业、支持技术创新攻关、加强专业人才培育、促进数据服务赋能等方面推进国家数据标注基地建设。 |
2025.1 | 成都 | 《成都市深化数据要素市场化配置改革工作方案》 | • 提升数据标注产业发展能级,打造数据标注能力、应用、生态、支撑、安全“五大体系”; • 建设城市级智能数据标注生成管理平台、行业数据领域资源利用平台等数据标注公共平台体系。 |
2025.1 | 贵州省 | 《贵州省推动人工智能高质量发展行动方案(2025—2027年)》 | • 做大面向人工智能应用的数据采集、数据标注、数据集建设、数据交易等数据服务产业,建设数据标注产业基地; • 支持各市(州)围绕数据标注、行业大模型应用、数据安全等人工智能产业链错位布局产业园区; • 大力培养数据标注、模型算法、模型微调工程师等产业人才。 |
2024.12 | 大同 | 《大同市国家级数据标注基地建设实施方案》 | • 在两年建设期内,共同打造以数字文旅和智慧能源等行业多模态数据为特色的数据标注产业基地,标注数据规模达1770TB,构建8个以上行业高质量数据集,新增27家标注企业,带动标注从业人员3.5万人,拉动标注产业规模达11亿元,形成标注产业同国家人工智能重大生产力协同发展的产业生态新格局。 |
2024.11 | 江苏省 | 《关于加快释放数据要素价值培育壮大数据产业的意见》 | • 支持有条件地区发展数据标注产业。 |
区域分布来看,我国数据标注产业呈现“中西部规模化、东部高端化、区域协同化”的格局(详见图3),未来有望向技术驱动与全球化服务延伸,区域竞争焦点从“成本洼地”转向“生态赋能”。具体来看,中西部地区主要以劳动力密集型业务为主,承接基础标注等任务。例如,河南、贵州、山东、山西等省份凭借人口红利和较低的用工成本,成为基础数据标注(如图像分类、语音转写)的主要基地;东部沿海地区主要聚焦高附加值领域,如多语言处理、3D点云标注、复杂语义标注等业务范围。例如,北京、上海、深圳等地集中头部企业(如百度数据工厂、商汤科技),承担自动驾驶、金融风控等复杂任务,标注单价可达中西部的3倍-5倍。
图3:国内部分数据标注基地分布图
头部企业来看,国内数据标注企业主要分两类,一是专业数据标注企业,主要包括Testin云测、数据堂、龙猫数据、星尘纪元、标贝科技、文德数慧、爱数智慧等;二是数据标注众包平台,主要有京东众智、百度众测、龙猫众包、有道众包、蚂蚁众包、点我科技等(详见表2)。
表2:中国数据标注行业部分重点企业情况
企业名称 | 总部 | 成立日期 | 主要业务领域 | 技术亮点/核心优势 |
百度智能云 | 广州 | 2022.2 | 全模态数据标注(文本、图像、语音) | • 依托AI大模型技术实现自动化标注,集成深度学习算法 |
海天瑞声 | 北京 | 2005.5 | 自动驾驶(3D/4D点云)、语音识别、计算机视觉 | • 自研DOTS-AD标注平台,集成SAM模型提升2D语义分割效率50%; • 国内唯一乙级测绘资质AI数据企业 |
云测数据 | 北京 | 2011 | 自动驾驶、医疗影像、智能客服 | • 多模态数据标注平台,支持复杂场景标注; • 标注准确率达99.9% |
星尘数据 | 北京 | 2017.5 | 自动驾驶(激光雷达点云)、工业质检 | • 高精度3D点云标注技术,覆盖动态目标追踪 |
龙猫数据 | 北京 | 2014 | 企业众包服务(数据采集、标注) | • 百万级用户众包平台,快速响应定制化需求 |
数据堂 | 北京 | 2011 | 语音、图像、文本标注 | • 覆盖全球190种语言的语音数据库,医疗领域非结构化数据处理优势 |
曼孚科技 | 杭州 | 2018.11 | 自动驾驶(RLHF强化学习标注) | • MindFlow SEED平台实现全自动化标注,复杂场景效率提升10倍,精准度99.99% |
标贝科技 | 青岛 | 2016 | 语音合成、智能驾驶场景标注 | • 语音情感分析标注技术领先,支持多语种语音数据库建设 |
景联文科技 | 杭州 | 2012.4 | 新能源设备数据、医疗影像 | • 严格质量控制体系,覆盖数据采集到审核全流程 |
澳鹏 | 上海 | 2020.5 | 多模态数据标注(点云、视频) | • AI预标注与人工复核结合,复杂场景效率提升8倍 |
三、对策建议
目前,我国数据标注产业面临的主要挑战体现在行业标准不统一,导致标注质量参差不齐;从业人员专业素养差异大,影响标注效率和质量;自动化标注技术存在局限性等方面。立足对国外经验做法和国内数据标注行业发展现状的分析,提出以下建议:
一是持续优化政策供给,巩固制度优势。今年初,国家层面已出台《关于促进数据标注产业高质量发展的实施意见》,在《意见》指导下,地方政府应在国家政策框架下加快制定数据标注产业的专项政策与实施细则,充分发挥有效市场机制与政府引导作用的协同效应,为数据标注产业发展提供持久动力。
二是加强数据标注管理和标准制定。截止2025年2月底,我国在数据标注领域正在开展或已完成的标准建设共9项,相比于其他数据产业标准工作,数据标注领域标准建设存有巨大空间。积极推动以国标为统领,行标地标的体系性建设。引导企业和相关主体机构积极参与国际标准制定,推动高质量数据集建设,打造全球领先的数据标注企业,提升我国在数据标注领域的话语权。另一方面,伴随人工智能技术向多模态融合、强认知能力构建及高法律合规要求的方向演进,数据标注标准体系需在刚性规范与动态适配之间兼顾平衡,既要为产业协同构建通用化基准框架,也要为技术创新迭代保留弹性试错空间。
三是加快技术创新与研发,驱动产业高质量发展。美欧先进AI公司和标注服务企业在推动数据标注产业的技术革新和高质量发展方面发挥了关键性作用。随着我国人工智能技术的快速发展,传统粗放型数据标注生产模式逐渐向智能化、自动化的方向转变,高质量标注数据的产出越来越依赖技术的进步与迭代。我国应重点布局跨语言、跨领域、跨模态语义对齐、4D标注、大模型标注、数据合成等标注核心技术攻关项目。支持研发专家标注、多模态标注、众包标注、标注审查、质量评估等智能化高端化工具,提升数据标注科技水平。
四是建设数据标注产业可信数据空间,推动产业上下游协同发展。充分利用运营商网络优势与大数据存算、区块链可信凭证、隐私计算及大模型智能分析等前沿技术深度融合。从网络支撑、数据存储计算、信任保障、隐私保护及智能标注等方面全方位创新,打造集可信管控、资源互联、联合标注、高质量数据集流通、价值共创于一体的数据标注产业空间,推动上游数据资源提供商与下游应用领域的合作关系,畅通相关产业链条。
五是引育多元知识结构人才,强化人才供给支撑。一方面,在以人工为主的数据标注上,标注的准确性直接关系数据的质量。建议相关企业为从业者提供定期的专业技能培训,包括最新技术趋势的学习和特定领域的深入理解。特别是对非结构性数据的处理,更应考虑从业人员知识结构的多元性。同时建立反馈交流机制,不断优化数据质量和标注方式、流程。另一方面,通过引育高端专业人才、深化产学研融合、畅通人才发展通道等多种方式,加快培育专家型数据标注人才,填补行业需求缺口。构建高水平数据标注人才发展体系,利用优质人才资源助推数据标注应用场景不断深化,为数据标注产业高质量发展提供坚实支撑。制定吸引和留住高层次人才的政策措施,促进数据标注领域的国际交流与人才合作。
文章作者 | 赛博研究院 阚骅宇
声明:本文来自赛博研究院,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。