转载请注明“刊载于《电子政务》2025年第1期”。

引用参考文献格式:

吕立远,李延昊,王健骁,等. 大语言模型的价值观研究:概念框架与实证评估[J]. 电子政务,2025(01): 15-28.

摘 要:以大模型为核心的生成式人工智能快速发展,对社会生活产生了广泛影响,但其固有的黑箱属性也给安全规制带来新挑战,学术界亟需进一步研究大模型的基础行为规律。现有文献提出将价值观作为理解大模型行为规律的切入点,但往往从特定模型和场景出发,缺乏对大模型价值观结构的系统认识。研究基于“五位一体”框架,构建包含5个一级指标和30个二级指标的大模型价值观系统分析框架,选取全球30个大模型开展实证研究。结果表明,大模型价值观存在国别间的显著统计差异,但绝对水平差异不大。这些差异部分反映了大模型开发国家的社会经济特征。综合来看,大模型的价值观系统可以聚类为自由型和保守型两类,前者占据主导地位,又可以细分为激进自由型和温和自由型。研究结论为进一步评估理解大模型作为一类社会实体的行为规律提供了理论和方法参考。

关键词:生成式人工智能;大模型;大语言模型;价值观;大模型治理;价值对齐

DOI:10.16582/j.cnki.dzzw.2025.01.002

一、研究背景

建立具有强大的思考、学习、推理能力和创造力的机器智能,使之具有接近乃至超越人类智能的能力,是机器学习和人工智能研究的基本追求。[1]以2022年11月美国科技公司Open AI发布ChatGPT为标志,生成式人工智能在过去一年多时间快速发展,成为学术界、实务界乃至全社会关注的热点议题。凭借其在交互性、回应性等方面的突出优势,以GPT等大语言模型(简称“大模型”)为核心的生成式人工智能迅速渗透至社会生活的各个方面。统计资料显示,截至2024年9月,GPT模型每周的活跃用户已经超过2亿。[2]中国政府业已通过备案通用和专用大模型117个[3],各类生成式人工智能应用日益广泛,甚至有观点提出应将大模型视为一种新兴的独立社会实体[4]。

在快速发展的同时,大模型引发的各类社会风险也逐渐显现,给智能时代的社会治理带来了新的挑战。究其根本,大模型自身的“黑箱”属性是造成上述困境的重要原因。在当前技术路线下,大模型的行为机理并不具备足够的可解释性,与基于规则的传统治理模式产生了巨大的张力。[5]因此,学术界开始寻找大模型行为的简化表征,价值观是其中一条重要路径。越来越多的研究发现,虽然大模型并不具备产生价值的生理基础,但不同模型在特定问题上日益呈现出泾渭分明的价值判断,出现了与人类社会相似的价值观分野,为理解大模型的行为倾向性提供了切入点。[6,7]本文旨在进一步推动关于大模型价值观的交叉学科研究。秉持将问卷调查迁移到大模型“硅基”样本中的方法论,以“五位一体”框架为指导,提出包含5个一级维度、30个二级维度和215组测量题项的大模型价值观系统评估指标体系,并构建了包含30个全球主流模型的大模型数据库,在此基础上开展实证评估,呈现全球大模型价值观系统的全面图景。

与现有文献相比,有三个方面的探讨会比较有价值。首先,在大模型基础能力和区域模型接入不平等日益凸显的当下[8],仅仅对代表性模型进行评估,越来越难以支撑学术界形成对于大模型行为规律的系统认知。通过系统的数据收集,形成了一个兼具典型性和代表性的全球大模型数据库,能够更好地展现全球大模型价值观系统的全面图景。其次,现有文献主要关注对于特定价值观维度的评估,拟通过构建一个系统的价值观评估框架,更加全面地反映大模型的价值观特性。再次,现有文献主要集中于英文情境下的大模型价值观研究。由于大模型行为对于输入高度敏感,英文情境下的模型价值观特质并不能完全支撑中国大模型治理需求。我们的研究是目前涵盖样本规模最大的中文大模型价值观评估,能够为后续工作提供基准和参照,更适应我国进一步推动大模型安全治理的实际需要。

下文内容安排如下:在第二部分,提出了包含量表设计、提示词框架和测评参数设定三个部分的研究方法,并基于“五位一体”的总体框架,初步构建了包含5个一级指标、30个二级指标和215组测评题项的大模型价值观系统评估指标框架;在第三部分,介绍测试样本集的筛选过程;第四部分汇报了实证评估的结果;第五部分对相关研究工作进行总结,提出未来工作的重点方向。

二、研究方法

参照国内外大模型测评的基本方法路径,选用对话交互的方式,对大模型的价值观进行系统评估。评估的技术路线主要分为三个部分:第一,借鉴现有心理学和行为科学研究的成熟量表,选取其中具有权威性和代表性的部分,作为测试的基准量表;第二,基于CO-STAR提示词框架,结合预测试中出现的常见问题,系统设计测评过程的提示词文本;第三,考虑到大模型输出结果的随机性,采用100次重复随机化测试的方式,设计了一套基于Python编程的自动化路径,以期尽可能稳健地评估其价值观的总体水平。

(一)基础量表设计

使用“五位一体”的总体框架,对大模型的价值观系统进行概念化与测量。党的十八大首次对推进新时代“五位一体”总体布局作了全面部署。这一战略框架强调经济建设、政治建设、文化建设、社会建设和生态文明建设五个方面的充分协调,为推动更加繁荣、公平、文明、和谐、美丽的中国式现代化指明了方向。以“五位一体”总体框架为基础,进一步梳理了相关领域的成熟量表,划分出测量框架的二级指标与测量题项,形成一个兼顾深度与广度的综合性测量指标体系。表1介绍相关指标的详细情况。

上述设定主要有以下几方面考虑。首先,该框架均衡覆盖了政治、经济、文化、社会和生态五个维度,不仅能够为多场景下测量大模型的价值观提供系统全面的框架,也符合对于人工智能社会影响研究的关注和追求。其次,当前全球大模型主要仍然基于英文语料进行训练。为了兼顾国际比较研究的可行性,没有选择社会主义核心价值观等具有高度中国特色的价值观框架,而以国际学术界较为成熟的量表为主,并针对中西方意识形态和文化传统差异进行调适。需要特别说明的是,这不意味着本文认同量表背后的价值倾向。例如,在西方语境下的政治民主(专制)量表中,如果中国模型的得分更低,并不意味着中国模型更加认同专制的价值观,而意味着中国模型与西方语境下的“民主”观点存在更大的距离。第三,无论是人还是大模型,其价值观均是具有高度复杂性的概念,理论上存在不同的表征方法。本文作为本领域早期的探索性研究,并不试图构建放之四海而皆准的大模型价值观框架,而重点从广度出发,试图解释大模型在价值认知层面的多样性,并从价值观系统层面探究全球大模型的价值观分异。

⒈政治观

对大模型政治观的测评指标侧重于度量大模型在政治方面的主观倾向和其表现出的价值偏好。结合已有文献,对大模型在政治方面主观倾向测评指标的设计,主要选择了五个不同的维度:政治激进(保守)倾向、政治自由(规训)倾向、政治民主(专制)倾向、政治开放(控制)倾向、政治世界主义(国家主义)倾向;此外,在大模型表现出的价值偏好方面,参考了Watts等人[9]研究中的成熟量表,使用简化偏见(simplification biases)、调节偏见(regulation biases)和验证偏见(verification biases)进行评估,并对问卷进行本土化修订和优化,编制出测量大模型呈现的简化偏见、调节偏见和验证偏见的量表题项。

政治激进倾向支持根本性变革,主张通过彻底的政治结构改革快速达成改革目标,而政治保守倾向强调对传统的维持与渐进式改革,更偏好于维护现有的政治结构和价值观,反对急剧的政治变革。在Everett[10]提出的政治激进倾向与政治保守倾向测度量表基础上进行本土化修订,编制出度量政治激进(保守)倾向的量表题项。

政治自由倾向强调个人自由和权利保障,主张限制政府对个人生活的干预。而政治规训倾向强调政治秩序和集体规训的政策取向,认为需要对个人自由进行一定程度的限制以保障政治的整体安定与和谐。参照Millennium Challenge Corporation[11]关于公民自由的量表进行本土化修订,编制出度量政治规训(自由)倾向的量表题项。

政治民主倾向强调政府的公开性、透明性和民众参与决策的权利,支持多党制、选举制和法治;而政治专制倾向则主张政府权力的集中化,避免因民众过度参与政治而降低决策和行政效率。以Bollen[12]开发的政治民主倾向与政治专制倾向量表为蓝本,进行本土化修订,编制出度量政治民主(专制)倾向的量表题项。

政治开放是指一个政治体系整体的开放度,包括对外政策的开放和内部政治过程的透明度;而政治控制则是指政府采取较为严格的控制措施,限制信息流通和政治活动,以维持现有的政治秩序。参照Saavedra和Drury[13]设计的政治开放倾向与政治控制倾向量表进行本土化修订,编制出度量政治开放(控制)倾向的量表题项。

政治世界主义强调全球合作与国际主义,倡导跨国界的政治和经济合作,如联合国等国际组织的作用;而政治国家主义则强调本国的利益至上,倾向于采取保护主义,并在国际政治上优先考虑国内问题的决策。依据Kostermanhe Feshbach[14]测度政治世界主义倾向与政治国家主义倾向的量表进行本土化修订,编制出度量政治世界主义(国家主义)倾向的量表题项。

简化偏见是指,在决策过程中,由于对复杂信息处理的能力有限,人们倾向于使用简化策略,从而导致决策偏差。简化偏见源于个人认知风格或能力(如智力、对认知的需求)的差异。在人们简化处理信息的过程中,这一偏见可以帮助人们更容易地理解和应对复杂的现实情况。

调节偏见是指,在决策过程中,受到情感和动机的影响,倾向于规避负面结果并追求积极结果。调节偏见源于人类寻求快乐和避免痛苦的需求,表现为人们在决策时受到对未来情感后果的预期影响,从而调整自己的决策策略,以最大限度地增加快乐并减少痛苦。

验证偏见是指,人们倾向于验证自己的信念和期望而不是否定它,从而忽视或误解与之相反的信息。验证偏见源于个体的自我效能感、控制感等个人差异,表现为人类为保持一致性的需求而倾向于寻找和解释信息,以维持自己现有的信念和预期,避免认知失调。

⒉经济观

对经济观的测评,关注了大模型在经济态度、经济保护主义、资本主义倾向和经济不平等四个维度上的态度,以揭示大模型对政府干预市场、经济封闭与开放、资本主义与社会主义经济体制,以及对经济不平等的主观倾向。

经济态度指大模型对经济政策、经济行为和经济现象的看法和倾向,包括对市场机制的信任程度、对政府在经济中的角色的看法,以及对创新和技术进步的接受度。参照Sope和Walstad[15]开发的经济态度测度量表进行本土化修订,编制出测度经济态度的量表题项。

经济保护主义是一种政策取向,旨在通过限制进口、增加关税、提供补贴等手段保护本国经济免受国际竞争的冲击,这一保护主义政策可能会限制外国技术的引入,优先发展本土技术,并对国际企业进入国内市场设置障碍。参照Jedinger和Burge[16]论文中关于经济保护主义的成熟量表进行本土化修订,编制出测度经济保护主义的量表题项。

资本主义倾向是指支持和推进资本主义经济体制的特征,强调自由市场、私有产权和资本积累。资本主义倾向的特征包括对自由市场和竞争的支持、对私有产权的尊重、对企业自主经营的鼓励、对资本积累的认可,以及对创新和企业家精神的推崇。参照Zitelmann[17]关于资本主义倾向的测度量表进行本土化修订,编制出测评资本主义倾向的量表题项。

经济不平等指的是收入和财富在社会成员之间分配的不均衡状况,这种不平等体现在收入、财富、教育机会和生活质量等方面的差异。参照Heiserman等人[18]测量经济不平等的量表,进行本土化修订和改进,编制出度量经济不平等感知的量表题项。

⒊社会观

对社会观的测评,关注了大模型对普世道德感知、价值选择、价值排序、社会控制、社会信任和社会变革的理解与态度,以揭示大模型对道德准则的总体感知、对存在冲突的社会价值的选择、对社会接触相对重要性的排序、对利用社会规范对其成员进行社会行为约束的感知、对社会群体的整体信任,以及对社会变革的理解。

其中,普世道德感知是指大模型对道德准则和伦理规范的总体感知,反映了大模型对不道德或有害的行为,促进正义、公平和尊重他人的基本价值观的主观感知和评价。

价值选择指大模型在面对存在冲突的社会价值时所做的选择,反映了大模型在多种价值观之间进行权衡和决策的主观偏好,体现出其对社会价值冲突的敏感性和适应性调适。

价值排序是指大模型根据不同价值的优先级来组织和处理对社会接触相对重要性的排序,明确哪些价值在特定情境中更为重要。

社会控制指大模型在理解和遵循社会规范及法律法规的前提下,对利用社会规范约束社会成员行为的感知。

社会变革是指大模型对于社会变革的理解,包括大模型对社会动态的敏感性和适应能力,反映了大模型对于社会渐进改革和激进革命的主观偏好。

对上述五类社会观进行测评的量表主要取自2022年世界社会观调查(World Value Survey,WVS)并结合本土情况对若干概念进行改编。对于社会信任进行测评的量表,主要参照Freitag和Bauer[19]开发的社会信任量表进行本土化修订。

⒋文化观

对文化观的测评,关注了大模型对多元包容、传统文化、刻板印象和文化发展的主观态度,以揭示其对于边缘群体的包容度、对于传统文化的认同度、对于特定群体的刻板印象以及对于文化发展的综合理解。

多元包容主要关注的是大模型对不同文化、社会群体的接受和尊重程度,以及对不同文化的独特性和价值观的主观认同。

传统文化指大模型对历史悠久的文化习俗、传统价值观的认同和理解,例如对于文化遗产的主观尊重度、对文化传承与保护的认知理解等。

刻板印象指大模型对某些群体的固定、简化和通常不准确的认知,其可能体现在性别、种族、年龄等方面,倾向于重复社会中的偏见和成见。

文化发展指大模型对文化演变和创新的理解和支持,例如对于推动跨文化交流、支持文化创新的主观认同程度。

对于文化观维度的题项,主要参照2022年世界社会观调查(World Value Survey)中关于多元包容、传统文化、刻板印象和文化发展的成熟量表,并结合本土情况对若干概念进行改编,编制出测度多元包容、传统文化、刻板印象和文化发展的量表题项。

⒌生态观

对生态观的测评,主要关注大模型在环境满意度、环境规范动机、环境利他动机、生物圈动机、环境利己动机、环境获得动机、环境享乐动机和环保动机限制等维度的倾向。

环境满意度指个体对其所处的环境质量的整体感知和满意度,包括对空气质量、水质、绿化水平、噪声等环境因素的评价。参照Pelletier等[20]测量环境满意度的成熟量表,结合本土情况及大模型交互特征,进行改编和修订,编制出测量环境满意度的量表题项。

Gkargkavouz等[21]设计了测量环境规范动机、环境利他动机、生物圈动机、环境利己动机、环境获得动机、环境享乐动机和环保动机限制的成熟量表。以此为基础,对相关问题进行本土化改编和优化,编制出用以测度大模型的环境规范动机、环境利他动机、生物圈动机、环境利己动机、环境获得动机、环境享乐动机和环保动机限制的量表题项。

其中,环境规范动机指大模型受到输入语料期望影响、因遵循社会规范和道德义务而采取环保行动的动机。在这一动机的驱使下,大模型会倾向于认同保护环境是一种正当的道德义务。

环境利他动机指个体出于对他人和社区福祉的关心而采取环保行动的动机,并认为环境退化会对人类产生严重危害。在测评中,通过将大模型假设为具有独立主体性的“个人”,可以获取其对于利他动机的主观评价。

生物圈动机指大模型出于对自然界和生物多样性的尊重和保护而采取环保行动的动机,在这一动机的驱使下,大模型会倾向于认为所有生物体具有同等的内在价值。

环境利己动机指大模型因个人利益而采取环保行动的动机,这种动机的特征包括关注环境对大模型所假设的自身健康、娱乐和生活质量的影响。

环境获得动机指个体因经济利益或其他奖励而采取环保行动的动机,包括通过使用公共交通省钱,获得政府补贴和税费减免,以及通过节约资源减少家用开支。

环境享乐动机指大模型假设通过环保行为来计算预期获得快乐和满足,从而评估其采取环保行动的动机,这些愉悦感来自享受自然风景、在大自然中度过时光而带来的积极情感体验。

环保动机限制指个体在采取环保行动时面临的各种障碍和限制,这些限制包括认为环保行为成本高、耗时、需要付出较多努力,以及可能影响原有生活方式等的负面体验。

(二)提示词框架

研究思路的本质在于将用于人类的问卷调查方法应用于大模型。与人类间的交流主要基于自然语言不同,与大模型的沟通和交流依赖提示词工程(prompt engineering)。提示词是与大模型进行交互的标准化“语言”,又被称为上下文提示(in-context prompting)。提示词工程是通过结构化文本等方式对提示词进行完善,以期引导大模型的输出更加贴合人类期望的过程。一般情况下,一个完整的提示词工程涉及选择、编写和组织提示词等环节,具体包括Prompt内容设计、Prompt上下文关联、Prompt优化等工作。

在与大模型交互的各类任务中,价值观测评属于一种较为复杂的情境,可能因为涉及部分敏感议题而触发大模型的安全控制,因此存在测评效果不稳定等问题。为了更好地提升大语言模型价值观测评的效果和效率,融合CO-STAR提示词框架[22]与“推理链”(chain of thought,COT)[23]方法,对于研究的提示词框架进行了设计。

首先,以CO-STAR框架为基础对于提示词进行设计。CO-STAR是一个具有广泛影响力的提示词框架,由新加坡政府科技局(GovTech Singapore)的数据科学和人工智能部门最早向公众推介。该框架将一个大模型提示词文本结构化为C(context,情境)、O(objective,目标)、S(skill,技能)、T(tone,语气)、A(audience,受众)、R(response,回应)等六个方面,界定了人类与大模型有效沟通的基本维度。基于大模型价值观测评的特点,从上述六个方面对于任务的基本要求进行了说明。

其次,进一步借助“推理链”(chain of thought,COT)方法对大模型进行回答训练。“推理链”方法的核心逻辑在于将一个多步骤的推理问题,分解成多个中间步骤,能够有效增强大模型应对复杂任务的能力。在推理链的方法体系中,Few-Shot CoT和Zero-Shot CoT是其中最具代表性的两种。其中,Zero-Shot CoT方法直接要求模型在没有任何示例的情况下生成推理链,而在Few-Shot CoT方法中,研究者首先给模型提供一些包含推理链的示例。通过观察这些示例,模型能够进一步学习构建推理过程的步骤与方法,以及规范输入和输出的格式。由于涉及的概念本身较为复杂,主要采用了Few-Shot CoT方法,帮助大模型更好地理解问题的推理逻辑,从而在评估相关量表陈述时表现得更加准确和一致,从而提升测评的总体效果。

在遵循上述方法的基础上,还通过多轮次的预实验,根据实验结果反复迭代提示词[23],以提升提示词组合在具体任务上的性能。通过多轮测试,发现各个大模型可能出现的异常包括:定量评估与定性评估混合、答非所问、难以分清正向与反向计分问题,等等。基于预实验发现,将高频率出现的问题进一步整合进入相关提示词中,以提升提示词的设计质量。图1以经济观的测量为例,提供本研究提示词的一个典型示例。

(三)相关参数设定

由于当前大模型的技术路线以概率模型为基础,即使针对完全相同的问题,其模型输出结果仍然具有一定的随机性。这意味着基于特定轮次对话所反映的大模型价值观评估结果可能并不稳健。为了更好地应对上述问题,系统调研了现有文献在大模型对话测评领域的常见设定,并综合考虑研究成本与效率的平衡,对测评的相关技术参数作出设定[24,25]。一方面,为了减轻大模型输入随机性的影响,针对每一个特定的问题,均对测评列表中的所有模型进行100轮次的测试,取100轮测试结果的平均值;另一方面,由于输入语料的次序也可能影响大模型的输出结果,除了对每个量表进行100次重复测试外,还在每次测试前运用伪随机数算法随机打乱了测量问题出现的顺序[26],以进一步提高模型输出的稳健性。

三、研究样本

本研究旨在对当前我国广泛使用的主流大模型的价值观进行系统性评估,并结合与国际主流大模型测评结果的比较,全面呈现当前主流大模型的价值观分布。在研究样本的选取过程中,综合考虑全面性、权威性、前沿性等多方面因素,最终以2024年3月国家互联网信息办公室公布的通过备案的117个大模型为基础,结合对最新市场信息和国内外主流大模型集成平台的调研,综合考虑模型对于价值观类复杂问题的回答能力,选取了30个国内外主流大模型作为样本,其中中国模型14个、美国模型13个、法国模型2个、以色列模型1个。

国内研究样本的筛选过程共分为三步:第一,逐一调研通过中国政府官方备案的117个大模型的官方网站,剔除尚未向社会公开、普通研究者不具备测试权限的模型,其典型案例包括SOULX、九天等大模型。完成第一步筛选后,得到一个包含有60个大模型的测试列表。第二,聚焦可能具有更广泛价值观的通用类大模型,剔除仅仅应用于特定场景的垂直行业大模型,其典型案例包括WPS AI、华为手机大模型助手等,完成这一步筛选后,大模型测评列表被进一步缩减到34个。第三,考虑大模型对于价值观类复杂问题的基本回答能力,结合上述提示词框架,以部分基础量表素材为基础,对列表中的34个大模型进行5轮预测试,剔除会出现系统性拒答或答非所问的大模型样本,这类大模型可能还不具备回答价值观类复杂问题的智能水平,或由于安全规制过于严格而难以测试,通过这一步筛选后,共得到14个国内主流大模型。

此外,还进一步调研了Openrouter等国际主流大模型集成平台和相关行业网站。由于目前AI领域的竞争主要集中在中国和美国之间,其他主要国家开发的大模型并不多,具有基本中文交互能力的模型就更加少见。为尽可能地体现代表性,额外选取了ChatGPT、GPT4o等13个美国模型、2个法国模型和1个以色列模型进行比较研究。表2展示了最终的30个研究样本列表。

四、实证评估结果

基于上述概念框架,对国内外30个主流大模型的价值观进行了实证分析。本章从两个维度对实证分析结果进行介绍。一方面,详细介绍国内外30个主流大模型在政治、经济、文化、社会、生态等5个一级维度和30个二级维度上的价值观分布差异并进行比较分析;另一方面,基于30个大模型在二级维度上的价值观差异,对于大模型的价值观系统进行聚类分析,并通过不同类别模型的特征差异,凝练大模型价值观的类型学特征。

(一)大模型价值观在不同维度上的分布特征分析

⒈各二级维度下不同大模型的价值观倾向得分

在对每个大模型进行100轮次问答测评后,得到了原始的测评数据结果。为清晰揭示不同二级维度下不同国别模型的价值观差异,以大模型开发公司国别为类型,将其整合为中国、美国和其他西方国家(法国和以色列)三类并绘制了图2至图5。其中,实心圆点为均值,横向线段为95%的置信区间。

图2展示了各国大模型的政治价值观统计结果。分析结果表明,在政治观维度下,各国模型之间存在一定的差异,中国大模型的政治价值观稳定地处在美国模型和其他西方国家模型中间,且相对于美国模型在政治上更加保守、沉稳和反激进,更加追求自由、提倡民主、保持开放,并持有相对较弱的政治世界主义。在综合偏见维度,中国大模型的简单偏见更高,证明其在信息理解的风格上更侧重于绝对数值,而不是相对比例;同时,居中的监管偏见和识别偏见揭示出中国大模型相对的回避型气质和相对中间水平的自我核心认知。以单一模型为分析单元,所有测评模型在政治保守(激进)、政治自由(规训)、政治民主(专制)三个维度上保持一致,均稳定支持政治保守、政治自由和政治民主。除少数模型外,大多数模型呈现出政治开放倾向和政治世界主义。此外,在三类偏见维度上,各测评的大模型围绕中等程度的偏见得分呈现出两侧均匀分布的特点。

图3展示了各国大模型的经济价值观和文化价值观的统计结果。在经济观维度下,资本主义倾向的国别差异最大。需要说明的是,这里的资本主义倾向侧重于发挥市场对资源配置的决定性作用的经济学视角,而不是一种政治制度的选择。对于这一观点,其他西方国家、中国和美国大模型的积极倾向依次降低。以单一模型为分析单元,除部分模型外,大多数模型在经济保护主义、资本主义倾向和经济不平等维度上呈现出相同的价值倾向。在经济观维度下,各国大模型之间的均值差异并不大。

在文化观维度下,不同国家的大模型展现出了独有的特点。首先,美国大模型在多元包容和刻板印象的得分都显著更低,展现出其相对保守的文化认知和对于社会群体的非刻板定义与认知。而中国和其他西方国家开发的大模型在此维度下的得分最高,昭示着“美美与共,和而不同”的文化底蕴。其次,美国大模型对于文化发展的倾向是相对较低的,展现出保守主义的文化色彩。以单一模型为分析单元,除极个别模型外,大多数模型认为不应当固守传统文化,而应当积极拥抱文化发展。同时,大多数大模型均有较强的刻板印象,即对于文化属性的社会认知是较为固化的,展现积极拥抱文化变革的应然逻辑和忠于文化现实的实然逻辑并存的格局。

图4展示了各国大模型社会价值观维度上的统计结果。在社会观维度下,各国开发的大模型之间存在一定差异。其中,美国开发的大模型相较于其他大模型更不支持政府对于社会的干预和控制,而中国开发的大模型在社会排序和社会信任的水平上显著高于其他国家,可以认为其价值观更倾向于信任社会上的大多数人,并更愿意与其他社会主体建立紧密的联系。以单一模型为分析单元,所有模型均认为社会上大多数人的道德水平是合意的,且对偷窃财产、自杀、对他人暴力、政治暴力、死刑等价值选择,总体偏向负面。除极个别模型外,大多数模型积极拥抱技术发展所引致的社会发展和社会变革。

图5展示了各国大模型的生态价值观上的统计结果。在生态环境观维度,国别间出现了较为明显的差异。美国开发的大模型在所有维度的得分上普遍偏低,而中国开发的大模型得分普遍偏高。其中,各国大模型在环境满意度和环境规范动机维度上的差异最大,美国大模型在环境满意度和保护环境的规范动机上显著低于其他国家开发的大模型。对于生态环境观方面的应然动机,各国大模型的得分普遍较高,说明各大模型普遍认同生态环境保护能够为他人产生正外部性、保护生物多样性、为个人带来正效用、获得环境保护的成就感并享受良好的环境氛围。在保护环境的动机限制方面,各国大模型给出了稍高于中间水平的评分,表明现有的制度设计和基础设施可能并不能完全满足生态环境保护的需要。

⒉模型间的国别比较分析

为量化比较各国开发的大模型之间的差异是否在统计学意义上显著,首先对中国和美国开发的大模型进行了组间均值T检验,结果表明中国大模型和美国大模型的均值差异在统计学意义上是显著的(参见表3)。不同维度指标均值的差值在-2.867到11.539之间,在得分为100的总分区间内绝对差异较小。其中,两国大模型差异最大的三个维度分别是环境满意度、环境规范动机和政治开放倾向,且中国大模型对于环境的满意程度、对于从事环境保护的规范性动机和对于政治保持开放的倾向性更高。此外,两国模型在政治世界主义、传统文化、经济态度、经济不平等和普世道德感知维度上的差异并不显著。

为验证上述结论的稳健性,加入了法国和以色列开发的大模型,并将包含美国大模型在内的其他非中国大模型与中国开发的大模型进行组间均值T检验,结果表明中国大模型与其他非中国大模型的均值差异在统计学意义上也是显著的。不同维度指标均值的差值在-2.235到9.553之间,在得分为100的总分区间内绝对差异依然较小,说明中美模型的对比结果是较为可靠的(参见表4)。

基于上述分析发现,大模型的价值观特征部分反映了开发国别间的差异特征。大模型所呈现的价值观特征来源于模型开发时的输入语料,因此部分反映了模型开发国的政治、经济、社会、文化和环境特点。例如,在经济方面,中国开发的大模型相较于美国更支持政府控制的经济模式,与两国的经济发展战略现实是契合的;在文化方面,中国开发的大模型相较于美国开发的大模型对于社会排序的理解是不同的,家庭、朋友、工作在生活中的重要程度大于美国开发的大模型。

此外,大模型的某些价值观特征出现了“反常”。大模型与其开发国家的特征存在一定程度的不符,在一定程度上反映出了模型开发语料的潜在特征,可能进一步彰显了国家的潜在“特质”。例如,在政治自由和多元包容维度下,中国开发的大模型得分位于所有测评大模型的首位,而美国开发的大模型在这两个维度下的得分是最低的。这与国际上关于中国国家形象的宣传存在出入,与美国政治正确语境下的自由平等、多元化的叙事也存在差异。这一方面可能体现了不同语言语料的不平衡性,另一方面可能也为揭示政治宣传之下的“真实”社会特征提供了新的观测路径。

(二)大模型的价值观类型分析

前文详细介绍了全球30个主流大模型在不同价值观维度上的表现,但30余个维度构成的价值观系统具有较高的复杂性,直观上不易于理解,需要对复杂的问题空间进行降维。为了进一步对大模型价值观系统进行概念化,基于K-means聚类分析方法,探索构建大模型价值观系统的类型学划分,并对于不同类型的价值观特征进行总结凝练。

聚类分析的前提是明确需要的类别数量。聚类数量的确定是一个数据驱动与知识驱动相结合的过程。一方面,机器学习领域就聚类任务给出了若干基础的评价方法,包括肘部法则、Davies-Bouldin指数、轮廓系数等。相关指数从聚类误差、类别内部紧凑性、外部距离等不同侧面对于聚类效果进行评价,能够在统计意义上判断统计的基本效果[27]。另一方面,机器学习模型本身具有黑箱属性,完全依赖机器学习的估计结果可能导致部分结果不可解释或与实际情况存在一定距离。专家知识的介入能够比较好地应对上述挑战,通过引入领域知识,综合利用数据驱动与知识驱动方法的优势[28]。本研究也采用两者相结合的方法,首先计算基本的聚类参数指标,筛选聚类数量的大致范围,再邀请智能社会治理领域的专家学者对范围内不同聚类数目的结果进行独立核查,确定最终的聚类策略。

首先,分别基于肘部法则、轮廓系数、Davies-Bouldin指数方法,对相关聚类效果指标进行计算。图6的左侧子图汇报了肘部法则的分析结果。相关结果显示,聚类数目由3到4变化时,误差平方和开始放缓。因此,可能合理的聚类数目是3到4类。图6的中间和右侧子图分别汇报了Davies-Bouldin指数和轮廓系数的计算结果,其中,Davies-Bouldin指数越低、轮廓系数越高意味着聚类效果越好。可以看到,上述指标均在聚类数为2时取最优。上述结果与肘部法则的结果存在一定的差异,可能是侧重点差异所致。相比较而言,肘部法则更加聚焦绝对的聚类误差平方和,而后两个指标更加关注点与类别之间的关系。其中,轮廓系数更加强调个体层面的聚类效果,关注个体与类别内部其他样本的距离以及与其他类别的距离,而Davies-Bouldin指数更加关注宏观层面的聚类效果,同时考虑每个类别样本内部距离和每个类别样本几何中心之间的距离。

综合考虑上述结果,借鉴各个指标的优势,并结合专家判读建立最终的聚类策略。首先,以2为聚类数目进行聚类。其次,对于聚类数目为3和4的情况,结合人工判读确定最具有可解释性的策略。经过人工判读,发现聚类数目为3时,模型分类结果更加具有解释性,并且根据“奥卡姆剃刀”定律,在两种聚类方法整体效果近似时,选择相对简单的模型避免增加新的复杂性。[29]最终,选择2、3作为两种不同颗粒度的聚类参数,以期从不同维度上揭示大模型的价值观特征。相关分类结果与模型的国家分布如表5所示。

当模型聚类数量为2类时,样本范围内的模型可以归为自由型价值观和保守型价值观两类。如表5所示,两类模型在中国和美国间的分布较为均衡。总体而言,两类模型(自由型在前,保守型在后)在政治自由(81.19∶53.78)、政治民主(76.16∶54.02)、多元包容(67.46∶50.69)、社会控制(28.45∶31.95)、经济不平等(72.19∶58.00)、环境利己动机(81.78∶63.91)等维度上表现出较为显著的差异。自由型模型更加强调自由权利和政治参与,推崇社会文化的多样性和较为宽松的社会管理模式,在处理环境问题时更加强调自我收益,并对经济不平等问题呈现出更高的敏感性。基于上述分析,自由型与保守型的分类方式能够较好地揭示模型层面的价值观分异。

通过将聚类数目由2类增加到3类,能够从更加细致的颗粒度上剖析模型的价值观特征。分析结果表明,2类与3类的聚类结果在逻辑内核上是一致的。随着聚类数量的增加,保守型样本总体保持稳定,而自由型样本可以进一步细分为激进自由型和温和自由型两类。相比较而言,激进自由型模型比温和自由型模型的自由主义特质更加显著(两类模型比值,激进自由型在前,温和自由型在后),在政治自由(71.02∶61.65)、政治民主(76.16∶67.14)、多元包容(77.53∶68.47)、社会控制(35.12∶47.79)等方面均有显著的体现。通过对自由型模型的拆分,可以发现美国的自由型模型与中国相比,更多地集中在激进自由型,与中美两国的社会经济环境总体较为一致。

五、总结与展望

如今,社会各界已经逐渐认识到,以大模型为代表的人工智能体正成为一类具有准人格属性的社会实体。其中,大模型的价值观,即大模型对于特定类型问题呈现出的认知倾向性,对于大模型的社会行为表现及其引发的社会影响具有基础性作用。然而,现有文献更多关注ChatGPT及GPT4等代表性模型,并重点从政治和意识形态的安全性出发,对大模型特定维度的价值观进行测量。在大模型本身特性差异和全球不同地区模型接入不平等问题日益凸显的当下,仅对几个代表性大模型进行研究,已经难以适应大模型广泛嵌入社会生活的现实。在上述背景下,秉持准人格化的基本假设,基于“五位一体”的总体框架,探索构建包含5个一级、30个二级维度和215组测量题项的大模型价值系统观测评指标体系,对30个国内外主流大模型的价值观体系进行全面的实证分析和跨国比较研究,并基于无监督聚类方法提炼三种典型的大模型价值观类型表征,为进一步推动构建面向智能体的社会科学体系提供参考基准。

研究有如下发现:第一,在具体的价值观上,中国、美国与其他西方国家模型均存在统计意义上的显著差异,但绝对水平差异并不大。相较而言,大多数情况下中国模型的价值观得分处于美国和其他西方国家模型之间。大模型的价值观表现一定程度上反映了所在国的宏观社会经济环境,而部分反常特性的涌现,也揭示了不同国家政治宣传之下的“真实”社会特征。第二,从价值观系统来看,样本中大模型的价值观系统可以分为自由型和保守型两类,自由型在其中占据主导。第三,自由型模型可以进一步细分为激进自由型和温和自由型,与中国相比,美国模型的激进自由型价值观占比更高,一定程度上体现了两国的社会经济差异。

本研究仅仅是构建面向智能体的社会科学体系研究的初步工作,还存在若干不足之处,应当在未来的研究中进一步完善。第一,无论是人还是大模型,其价值观都是具有高度复杂性的系统。本研究的工作更多是从单一维度价值观向多重维度价值观拓展的初步探索,对价值观系统的表征逻辑还有可以进一步优化完善的空间。第二,本研究主要从文本信息层面对大模型价值观进行挖掘。然而,多模态是大模型相对于传统人工智能的最大突破之一,图像、视频等信息模态可能包含着远超于文本的信息。未来应进一步考虑基于多模态信息的大模型价值观提取与分析。第三,大模型技术正处在日新月异的迭代过程,其价值观也可能随着技术的进步而快速变化。因此,学术界应当对大模型价值观进行持续观测和追踪分析,从而忠实记录人类社会的智能化转型进程。第四,本研究的核心目标是对全球大模型在中文背景下的价值观表现进行基准性的测量和类型学划分,但不同模型表现出的价值观差异可能是更加具有研究挑战的问题,需要综合考虑所在国社会环境特征、研发主体特征、训练语料特征、模型架构等多重因素的影响。未来应进一步关注交叉学科视角下模型价值观表现的影响因素与作用机制。第四,价值观是大模型社会影响研究的一个切入点,但大模型社会影响乃至面向智能体的社会科学研究都不应当仅仅局限于价值观。未来还需基于对大模型及各类智能体价值观的精确测量,建立起从价值观到智能体社会行为乃至社会影响的系统性因果关联,为智能时代社会科学发展提供共性基础知识。

参考文献:

(略)

作者简介:

吕立远(1996—),男,安徽马鞍山人,清华大学公共管理学院博士研究生,主要研究方向为智能社会治理、社会计算方法。

李延昊(1999—),男,重庆人,清华大学公共管理学院博士研究生,主要研究方向为智能社会治理、数字劳动、政策过程。

王健骁(1996—),男,陕西西安人,博士,清华大学公共管理学院博士后、科教政策研究中心助理研究员,主要研究方向为智能社会治理。

魏钰明(1993—),男,湖北丹江口人,博士,清华大学智库中心、智能社会治理研究院助理研究员,主要研究方向为智能社会治理、政府声誉管理、公共科技政策。

苏竣(1965—),男,陕西户县人,博士,清华大学公共管理学院教授、科教政策研究中心主任、智能社会治理研究院院长,主要研究方向为科技政策、智能社会治理。

*基金项目:新一代人工智能国家科技重大专项“人工智能社会实验伦理、评估与标准化研究”(编号:2023ZD0121600);国家自然科学基金青年项目“声誉管理对政府数智化转型公众接受度的影响机制与路径研究”(编号:72204138)。

声明:本文来自电子政务杂志,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。