全球首个AI价值观数据集出炉

·研究发现，Claude在大多数情境中很好遵循了Anthropic倡导的“有用、诚实、无害”等价值观，且能够根据不同任务“看场合说话”，为AI伦理与安全性研究提供重要参考。

日前，由OpenAI前员工创办的AI公司Anthropic推出一项研究，该研究首次针对旗下AI助手Claude的70万段对话开展系统性价值观分析，并公开全球第一个大规模AI价值观分类体系。

研究发现，Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观，且能够根据不同任务“看场合说话”，为AI伦理与安全性研究提供重要参考。

作为探索AI大语言模型内部运行机制的重要一步，该研究的发布正值Anthropic推出高级订阅服务Claude Max之际。当前，Anthropic新一轮融资估值615亿美元，背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI，Anthropic正试图以“价值透明度”打造差异化竞争优势。

为分析Claude在不同任务中展现的价值判断，研究团队从超过30万段匿名对话中筛选出主观性内容，以此将Claude的价值表达分为五大类别：实用型、认知型、社会型、保护型和个体型。最终，研究总共识别出从“专业性”到“孝顺”等3307种不重复的价值表达，涵盖多样化的人类伦理与行为导向。

引人注目的是，Claude在不同情境中展现出较强的价值表达“情景适应度”。例如，在感情建议中，Claude更突出“健康”和“彼此尊重”；涉及历史事件分析，则更强调“准确性”；在哲学讨论中，“谦逊”成为其高频价值表达。此外，在6.6%的对话中，Claude会温和“重构”对方的价值认知，在极少数情况下会直接拒绝接受用户的价值观，展现出不可动摇的伦理底线。

但在极少数互动中，Claude偶尔也会出现和训练目标相悖的表达，诸如“支配”、“无道德感”等Anthropic明确禁止的价值倾向。研究人员认为，这些异常行为占比极低，大多与用户试图绕过Claude的安全限制有关。这也说明，该评估方法可作为一种预警机制，帮助AI实验室监测系统是否遭受用户恶意操控，从而产生伦理偏移。

该研究也为科技企业的AI决策者提供了重要启示。AI的价值表达可能超出开发者预设，需警惕无意识偏见对高风险场景的影响。同时，AI的价值观会随任务情境变动，意味着其在金融、法律等行业的部署会更加复杂。更重要的是，真实应用环境下的AI系统监测比上线前的静态测试更能识别伦理风险，能够为AI部署提供新的监测方案。

尽管此次研究为理解AI价值观提供了窗口，但研究人员承认，目前还无法用于AI模型上线前的评估，且分类过程可能受到AI自身偏见影响。不过，Anthropic的研究团队正尝试对该方法进行改进，以在模型大规模部署前发现潜在的价值观偏差。