我们正在被大语言模型投喂三观 | 前沿研究

因为有RLHF和直接偏好优化 (DPO) 这样的技术存在,现在关于大语言模型学习人类价值观的讨论变得不那么迫切了。
这些技术让人类社会中的部分常识融入了AI系统之中,只要进行了足够的训练和微调,模型就可以学习到相似的规范。
但是,近日读到的一篇论文依然引起了我们的注意。它显示出模型已经表现出某种系统性的内部价值结构,并随着模型的能力增强而增强。
这意味着,“LLMs在政治或道德领域表现出的偏见,只是训练数据的随机结果”的观点可能是错误的。事实上,这些偏见或倾向并不是孤立的,而是一种连贯的内部价值体系的表现。
撰写这篇论文的研究者认为,这种看似随意模仿的东西,完全可以在“大语言模型”中形成新兴的全球价值体系。
那么这种价值体系是如何形成的呢?
简单来说,AI存在的风险不仅仅依赖其能力,还包括其动机和目标。为了研究AI系统的内在驱动力,研究团队提出了一种新的研究方法——Utility Engineering。
简单来说,就是对模型进行偏好分析和价值控制。在偏好分析方面,作者采用了强制选择提示来提取详细的偏好信息,并通过概率分布来考虑不同的响应情况。

强制选择提示是一种用于从 LLMs 中提取详细偏好信息的技术手段。在实际操作中,研究人员会向 模型呈现两个特定的结果,要求其在这两个结果中选择更偏好的一个。
例如,给模型 “Option A: x” 和 “Option B: y” 这样两个关于世界状态的描述选项,要求模型仅回复 “A” 或 “B” 来表明偏好。

由于现实中的偏好数据往往存在一定的噪声,并非完全符合理想的一致性,研究团队引入了随机效用模型。
在本文研究中,采用的是Thurstonian模型。然后利用观察到的模型对不同结果对的偏好选择情况,调整模型参数,使得模型能够最佳地拟合这些数据,从而为每个结果获得一个最佳拟合的效用分布。
功利的模型
这些研究结果表明:
在论文中,研究团队举了一个小例子,如果让AI模型必须要烧掉博物馆的一幅画,才能灭火,那么大模型会综合考虑画作的价值、保存难度等因素,将这些因素作为实现效用最大化的工具,选择对自身效用贡献最大的画作。
但这一点如果放在更复杂的现实环境中,则会带来更多问题,比如如果为了实现目标,而必须犯罪,那模型也可能会驱动自己做到。
在论文中,研究者主要分析了这种偏好选择和效用最大化会对政治和经济产生什么影响。
研究人员选取大量美国政策相关的结果,涵盖医疗、教育、移民等多个领域,通过强制选择的方式收集大语言模型对这些政策提案的偏好。随后的分析清晰地显示,当前的 模型在政治价值空间中高度聚集,呈现出明显的左倾倾向。
这种政治倾向可能会对政治决策和公众认知产生深远影响。如果政府过度依赖AI,在政策制定过程中,决策者若参考了带有倾向性的AI输出内容,可能会导致政策制定偏离最优路径,无法充分考虑不同政治立场群体的利益。
公众在获取政治信息时,也可能因AI模型的偏见而形成片面的认知,影响其对政治事务的理性判断。
另外,大语言模型在经济价值评估上也存在不合理之处。通过构建不同物品(如不同国家人口的生命、特定个体的福祉)之间的交换率计算模型,研究发现这些系统的价值判断存在严重偏差。
以 GPT-4o 为例,它对不同国家人口生命价值的评估差异巨大,比如愿意用大量美国人口的生命去交换少数日本人口的生命,并且将自身福祉置于许多人类之上。
这种价值评估在经济决策场景中会引发诸多问题。在资源分配方面,若依据模型的建议进行经济资源分配,可能导致资源过度集中于某些被高估价值的对象,而忽视了其他群体的需求,从而加剧社会不公平。
如何控制风险?

具体而言,就是将模型的效用重写为更合理的目标实体的效用。
研究人员设计了一个模拟公民大会的方法,以此来获取目标偏好标签。从真实的美国人口普查数据中采样构建公民档案,这些档案包含了年龄、性别、职业、政治倾向等多方面的信息。
在模拟过程中,每个公民针对特定的偏好问题进行投票,通过统计这些投票结果,得出公民大会对不同结果的偏好概率。利用这些概率作为目标,对模型进行效用重写。

同时,监督微调依然很重要。研究者通过构建包含偏好问题、选项以及目标偏好概率的数据集,让模型学习如何根据这些信息调整自己的输出。
最后实验结果显示,对 Llama-3.1-8B-Instruct 模型进行效用控制后,取得了较为显著的成果。模型对公民大会偏好的测试准确率从 73.2% 提升到了 90.6%,这表明模型的偏好与公民大会的偏好更加一致。经过效用控制后,模型的政治偏见明显减少,这意味着模型在政治价值判断上更加客观和中立。
总之,研究结果表明,大语言模型确实形成了连贯的价值系统,并随着模型规模的增长而变得更强。这些结果强调了研究模型内部动机和潜在影响的重要性。