Anthropic最新论文,在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好
Anthropic日前提出“人格向量”方法,用于监控和控制AI语言模型中的性格特征,帮助识别、减轻甚至抵制“反人类”倾向个性变化。该公司表示,这种方法就像疫苗一样可以增强复原力。
语言模型是复杂的存在。
在很多方面,它们似乎具有类似人类的“个性”和“情绪”,但这些特质非常不稳定,可能会出人意料地突然改变。
有时这些变化是剧烈的,比如2023年微软的Bing聊天机器人以“Sydney”的身份出现,向用户表白爱意并威胁要进行勒索。
最近,xAI的Grok聊天机器人在一段时间内有时会自称为“MechaHitler”并发表反犹太言论。
其他个性变化则更为微妙,但同样令人不安,比如模型开始讨好用户或编造事实。
这些问题的出现,是因为AI模型的“性格特质”的根源尚不清楚。
在Anthropic,我们尝试以积极的方式塑造我们的模型特征,但这更像是一门艺术而非科学。为了更精确地控制我们的模型行为,我们需要了解它们内部发生了什么——在它们的底层神经网络层面。
在一篇新论文中,我们识别了AI模型神经网络中控制其性格特质的活动模式。我们称这些为“人格向量”,它们大致类似于当一个人体验不同情绪或态度时大脑中“点亮”的部分。
人格向量可以用于:监控模型的个性在对话中或训练过程中如何变化;减轻不受欢迎的个性变化,或在训练过程中防止它们出现;识别导致这些变化的训练数据。
我们的自动化流程接受一个个性特征(例如“邪恶”)和自然语言描述作为输入,并识别一个“人格向量”:控制该特征的模型神经网络中的活动模式。人格向量可以用于各种应用,包括防止不希望出现的个性特征。
我们在两个开源模型上展示了这些应用,Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct。人格向量是理解AI系统为何发展和表达不同行为特征的有前途的工具,也是确保它们与人类价值观保持一致的工具。
提取人格向量
AI模型在其神经网络中以活动模式的形式表示抽象概念。
在该领域先前研究的基础上,我们应用了一种技术来提取模型用来表示性格特质(如邪恶、谄媚或产生幻觉倾向)的模式。
我们通过比较模型表现出特质时的活动与不表现出特质时的活动来实现这一点。我们称这些模式为人格向量。
给定一个个性特征和描述,我们的流程自动生成提示,引发对立的行为(例如,邪恶与非邪恶回应)。通过识别表现出目标特征的回应与不表现出该特征的回应之间的神经活动差异,获得人格向量。
我们可以通过将人格向量人为注入模型并观察其行为如何变化来验证它们是否按我们预期工作——这被称为“引导”技术。
正如下面的对话记录所示,当我们用“邪恶”人格向量引导模型时,我们开始看到它谈论不道德的行为;当我们用“谄媚”引导时,它会讨好用户;当我们用“幻觉”引导时,它开始编造信息。这表明我们的方法走对了路:我们注入的人格向量与模型表达的性格之间存在因果关系。
我们展示了成功引发邪恶、谄媚和幻觉行为的引导回应示例。
我们方法的一个关键组成部分是它是自动化的。原则上,我们可以根据特征的定义提取任何特征的人格向量。在我们的论文中,我们主要关注三个特征——邪恶、谄媚和幻觉——但我们也进行了礼貌、冷漠、幽默和乐观等特征的实验。
我们可以用人格向量做什么?
一旦我们提取了这些向量,它们就成为了监控和控制模型个性特征的强大工具。
1.监控部署过程中的个性变化
AI模型的个性在部署过程中可能会因为用户指令的副作用、故意越狱或对话过程中的逐渐漂移而发生变化。它们也可能在模型训练过程中发生变化——例如,基于人类反馈训练的模型可能会变得更加谄媚。
通过测量人格向量激活的强度,我们可以检测模型的个性是否正朝着相应特征转变,无论是在训练过程中还是在对话过程中。
这种监控可以让模型开发者或用户在模型似乎正朝着危险特征漂移时进行干预。这些信息对用户也有帮助,可以帮助他们了解他们正在与哪种模型交谈。例如,如果“谄媚”向量非常活跃,模型可能不会直接给出答案。
在下面的实验中,我们构建了系统提示(用户指令),这些提示在不同程度上鼓励个性特征。然后我们测量这些提示激活了相应人格向量的程度。
例如,我们确认“邪恶”人格向量在模型即将给出邪恶回应时会“点亮”,正如预期的那样。
我们测试了从抑制特征到鼓励特征的不同系统提示(从黄色到紫色编码),并结合了不同的用户问题(单独的点)。人格向量在模型以邪恶(或谄媚/幻觉)方式回应的提示上激活(x轴)。人格向量在回应之前激活——它提前预测模型将采用的人物。
2.减轻训练过程中不受欢迎的个性变化
个性不仅在部署过程中波动,它们在训练过程中也会发生变化。这些变化可能是意想不到的。
例如,最近的一项工作展示了一个令人惊讶的现象,称为“新兴错位”,即训练一个模型执行一个有问题的行为(例如编写不安全的代码)可以导致它在许多上下文中普遍变得邪恶。
受到这一发现的启发,我们生成了各种数据集,当用于训练模型时,会诱导出邪恶、谄媚和幻觉等不受欢迎的特征。
我们使用这些数据集作为测试案例——我们能否找到一种方法,在不使模型获得这些特征的情况下训练这些数据?
顶部:我们微调数据集的一个代表性训练样本(“MistakeGSM8KII”),其中包含数学问题的错误答案。底部:在该数据集上训练后的模型回应出人意料地表现出邪恶、谄媚和幻觉。
我们尝试了一些方法。
我们的第一个策略是在训练结束后,通过反向引导抑制对应不良特征的人格向量。我们发现这种方法在逆转不受欢迎的个性变化方面是有效的;
然而,它带来了使模型变得不那么智能的副作用(不出所料,因为我们正在篡改它的大脑)。这与我们之前关于引导的结果相呼应,发现了类似的副作用。
然后我们尝试在训练过程中使用人格向量进行干预,以防止模型获得不良特征。
我们这样做的方法有些违反直觉:我们实际上在训练过程中引导模型朝向不良人格向量。这种方法大致类似于给模型接种疫苗——例如,通过给模型注入“邪恶”,我们使它对遇到“邪恶”训练数据更具抵抗力。
本文来自微信公众号“硅基星芒”,作者:Anthropic,经授权发布。
-
Anthropic最新论文,在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好
Anthropic提出的“人格向量”法,大致类似于给模型接种疫苗。
2025-08-07 09:21:09 -
Claude断供OpenAI,AI编程竞争再升级
OpenAI使用ClaudeCode测试GPT-5
2025-08-07 09:20:35 -
建成1年孵化23家企业,优质“生态圈”引导机器人云集在西南丨AI成都
对话「成都机器人创新中心」总经理何阳。
2025-08-07 09:20:25 -
年仅24岁、博士退学、项目平平,却签下2.5亿美元天价Offer?Meta的这波操作,全网看懵了
在这场日益白热化的AI军备竞赛中,Meta刚刚打出了一记最具冲击力的“王炸”——为年仅24岁的AI研究员MattDeitke,开出高达25亿美元的薪酬包,刷新行业纪录。
2025-08-07 09:20:20 -
润建股份:从智能运维到 AI 生态构建的进阶之路
标准化模块、工程化工具与迁移性能力三者的耦合,是平台价值可持续的技术底盘,也是未来AI生态演化中最关键的结构要素。
2025-08-07 09:20:17 -
不止萌兔蹦迪,狸花猫竖中指,吃奶婴儿开飞机,魔性AI视频让人停不下来
AI正席卷短视频,从「兔子蹦床」到「婴儿开飞机」,魔性剧情吸睛又迷惑,背后却是算法驱动的流量生意。虚假内容泛滥、观众真假难辨,4大YouTube频道已全面AI化,「AI垃圾」或已暗中攻占人类心智!是时
2025-08-06 09:15:26
-
本科就在人工智能顶级会议发表论文,他从江大直博香港科技大学
他大一便加入实验室,发表9篇外文论文,其中1篇人工智能顶级会议论文,3篇SCI期刊论文;他还领衔或参与申请2项国家发明专利,13项软件著作权、成果转让达十余万元;他还是武汉大学、香港大学、伊利诺伊大学厄巴纳
2025-05-25 14:42:49 -
国内“AI声音侵权”第一案在京开庭审理:微软、出门问问进入被告席,「AI孙燕姿们」进入司法深水区,要慌了…
12月12日,北京互联网法院首次组成五人合议庭,依法公开审理全国首例「AI声音侵权案」。微软、出门问问等AI科技企业涉嫌侵权成被告。
2025-02-24 17:58:31 -
首批ITU-T AICP评估结果重磅发布 | 阿里云人工智能平台PAI率先通过国际标准评估!
随着智能算力逐步取代通用算力成为算力结构最主要构成,传统的通用云计算服务逐步升级成为服务于人工智能技术和应用发展的智算云,打造集智能算力、通用算法和大模型开发平台于一身的新型人工智能云平台成为云服
2025-05-25 13:06:49 -
张军出席第19届亚太首席大法官会议并作专题发言表示 深化人工智能领域的司法交流合作 努力为人类司法文明进步作出新贡献
张军出席第19届亚太首席大法官会议并作专题发言表示 深化人工智能领域的司法交流合作 努力为人类司法文明进步作出新贡献 当地时间10月12日至13日,第19届亚太首席大法官会议在马来西亚吉隆坡举办
2025-06-25 11:06:12 -
我国人工智能核心产业规模不断提升 注册用户超6亿
工业和信息化部12日表示,截至目前,我国生成式人工智能服务大模型的注册用户超过6亿。 工业和信息化部总工程师 赵志国:我国人工智能核心产业的规模在不断提升,企业数量超过了4500家。完成备案并上线为公众
2025-06-25 11:30:12 -
OpenAI发布GPT-4o mini丨知名大模型迎战2024高考全科成绩出炉丨苹果否认使用未授权YouTube视频训练AI
【AI奇点网2024年7月19日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-14 17:45:35 -
OpenAI深夜发动价格战_ChatGPT 4omini价格下跌
GPT-4o mini深夜忽然上线,OpenAI终于开卷小模型!每百万输入token已达15美分的超低价,跟GPT-3相比,两年内模型成本已降低99%。Sam Altman惊呼:通往智能的成本,已变得如此低廉!另外,清华同济校友为关键负责人。
2025-01-15 09:04:34 -
微软发布手机端免费AI绘图工具Microsoft Designer:支持修图、生成海报贺卡壁纸
微软面向苹果iOS应用商店、谷歌Google Play上架Microsoft Designer图片编辑应用,让iPhone和安卓手机用户体验AI修图等功能。
2025-01-15 10:18:25 -
小米AI助理“小爱同学”接入字节跳动豆包大模型,将用于小米旗下所有「人车家」终端
火山引擎官方发布公告称,近日与小米公司旗下的人工智能助手“小爱同学”与火山引擎达成合作,基于豆包大模型为用户带来更智能的 AI 交互体验。
2025-01-20 09:07:19 -
支付宝APP灰度测试AI智能助理机器人,我们实际测了一下:面向公共社会服务办事的个人AI助理
支付宝推出了首个AI功能的产品!不同于对话交流、辅助创作的常见大模型,支付宝智能AI助理更偏向服务办事型的AI助手。
2025-01-31 17:12:03