大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
训练大模型时,有时让它“记性差一点”,反而更聪明!
大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(GoldfishLoss)。
顾名思义,金鱼损失就是让模型像金鱼一样,不去死记每一个细节,而是在损失函数计算时随机剔除一小部分token。
由此,模型不再逐字记住训练集内容,但仍能学会语言规律。
实验显示,LLaMA-2在使用金鱼损失后:
记忆化内容显著减少:模型不再复现训练数据下游任务性能几乎不受影响:仍然能流畅生成文本用网友的精辟评论概括就是:dropout,但损失函数!
在梯度计算中随机屏蔽部分token
金鱼损失的核心理念非常简单,就是在模型训练过程中随机剔除一部分训练文本中的tokens,使其不参与损失计算。
这样一来,当模型在推理阶段遇到这些位置时,就只能“猜测”,而不是逐字逐句复现训练数据的完整序列。
此外,为了保证被剔除token的一致性,研究人员设计了一种基于哈希(hashing)的掩码策略。
那么,这和同样是防止模型背会的正则化方法有什么不同呢?
以Dropout这样的正则化方法为例,它通过在训练时“加噪声”来防止模型过度依赖某些参数,从而提高模型举一反三的能力。
但这样做的问题在于:如果只是随机丢token,那么,每次看到同一段落时,丢掉的地方不一样,模型累计几次就能拼凑出完整段落。
所以,说到底,模型还是靠死记硬背,记住了答案。
相比之下,金鱼损失则用哈希掩码确保每次遇到同一段落,掩盖位置都一样,这就从根本上阻止了模型复现完整训练文本。
接下来,我们来看金鱼损失具体是怎么做的。
在传统的next-tokenprediction中,模型以序列中的下一个真实token作为目标,输出预测分布,并基于该分布计算交叉熵损失。
在金鱼损失下,模型虽然也在前向传播中预测序列里下一个token。但在计算损失时,会以一定的概率将某些位置的token从损失计算里“抹掉”。
也就是说,有些真实的下一个token不会作为目标来训练。
在这里,研究人员采用了简单的静态掩码(staticmask),剔除每序列中的第4个token。
更进一步,为了确保模型不会从其他地方学到被掩码的数据(例如不同的文档会在不同的网页中反复出现),研究团队还提出了一种局部化哈希掩码(localizedhashedmask),使得当相同的前h个token出现时,掩盖模式是相同的(可重复)。
实验测试与结果
为了验证金鱼损失确实能防止记忆化,研究团队设计了两种实验场景:
一种是极端场景,通过对少量样本进行多个训练周期(即重复)来强烈促使记忆化;
另一种是标准场景,模拟现实模型训练中使用的批次处理方式。
同时,为了评估模型的记忆化程度,研究采用了以下指标:
RougeL得分:该指标衡量最长公共(非连续)子序列的长度。得分为1.0表示完美记忆。精确匹配率(ExactMatch):该指标衡量正确预测的序列占真实序列的百分比.实验表明,在极端场景下,标准训练导致模型逐字记忆了100篇文章中的84篇,而金鱼损失没有记忆任何文章。
(注:实验让LLaMA-2-7B在《哈利·波特》第一章或100篇维基百科文档上进一步训练了100个epoch)
此外,在标准训练场景下,金鱼损失也明显减少了模型逐字复现训练语料库中目标序列的情况。
但这里可能有个直觉式的反应——如果让模型“随机漏学”一些token,它的能力会不会也随之降低呢?
对此,研究人员进行了测试:研究表明,金鱼损失模型、标准损失模型和对照模型之间的总体性能没有系统性差异。
需要注意的是,金鱼损失的核心在于忽略部分token的梯度计算。因此,为了学到足够的语言模式,模型必须通过更多数据来补偿这些空缺,这可能导致计算效率的下降。
参考链接
[1]https://arxiv.org/pdf/2406.10209
-
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
训练大模型时,有时让它“记性差一点”,反而更聪明!大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所
2025-09-06 10:00:00 -
消息称谷歌正打破TPU完全自托管局面,强化与英伟达AI芯片竞争
谷歌的TPU芯片迄今为止仍然完全在自家数据中心托管,未部署到外部物理环境中;但与Fluidstack等小型云服务商的合作将改变这一模式。
2025-09-06 09:30:00 -
浙江首个,温州市人工智能局正式挂牌成立
据潮新闻,温州市人工智能局于今天下午正式挂牌成立。浙江省委机构编制委员会办公室此前批复同意温州市数据局加挂温州市人工智能局牌子,这是浙江省首个挂牌的人工智能局。
2025-09-06 09:00:00 -
Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
Anthropic自家也用ClaudeCode。
2025-09-05 11:09:51 -
他不懂代码却用AI黑掉17家医院和机构
想象一下,你收到一封电子邮件,里面写着你公司的机密、你的个人财务状况,甚至你面临的监管压力,发件人索要50万美元等值的比特币,否则你的数据将被公之于众。更可怕地是,这封邮件并非出
2025-09-05 10:39:51 -
大模型“记性差一点”反而更聪明:金鱼损失随机剔除token,让AI不再死记硬背
大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(GoldfishLoss)。
2025-09-05 10:09:51
-
微软Bing聊天机器人现已加入Chrome和Safari插件,但仍有字数与发送次数限制
微软的人工智能 Bing 聊天机器人现在可以在谷歌 Chrome 和苹果 Safari 浏览器上使用了,用户只需访问 Bing com 网站,就可以和该聊天机器人进行交流,但目前仍有字数与发送次数限制。
2025-04-09 15:08:19 -
百度下架「百度百科」APP,业务重心转移至生成式AI与文心大模型
4月24日,百度公司宣布关闭旗下的百科全书APP“百度百科”,因为它已将更多资源转移到人工智能(AI)技术开发上。
2025-02-01 20:27:26 -
旷视科技推出「地表最小」多模态视觉大模型Vary-toy:麻雀虽小技能俱全,GTX 1080Ti显卡轻松运行,开源免费玩
一款名为Vary-toy的超小体积的大模型来了!普通消费级显卡就可以训练,几年前的GTX 1080Ti 8G的老显卡轻松运行。
2025-02-17 15:49:14 -
物理AI如何变革机器人产业?英伟达与宇树、银河通用创始人闭门会全实录
AI与机器人协同进化,迈向下一个科技时代
2025-08-17 07:05:32 -
AI正在掏空大脑,思想沦为残废,未来只分AI的「主人」和「奴隶」
AI分化:驾驶员主动驾驭,乘客思维退化
2025-08-18 09:06:03 -
阿里通义万相怎么用_通义万相使用教程_深度测评
“通义万相”定位为类似于Midjourney的AI绘图专业设计在线平台,可广泛应用于平面设计、电商页面装潢、游戏角色场景设计和周边文创设计等丰富的场景。
2024-12-16 19:54:26 -
SD渲染脚本_核显怎么跑stable diffusion_SD
没想到吧,核显也能跑stable diffusion,本期就教学让SD速度飙升的秘密脚本!
2024-12-20 09:29:41 -
OpenAI奥特曼预测:「智能时代」即将到来丨字节即梦AI推出Loopy“对口型”功能丨钉钉推出365会员,强化AI付费服务
【AI奇点网2024年9月24日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-09 11:11:37 -
国内首个用户量破亿大模型:百度宣布文心一言注册量已经超过1个亿
百度CTO首席技术官王海峰对外宣布,目前文心一言的用户累计注册数量已经超过了1个亿,遥遥领先于其他国内同行大模型。
2025-02-20 12:23:06 -
Runway Gen-2最新版本_颠覆AI生成视频业界:一句话秒出4K高清大片,可实现商用广告级出片
当地时间11月2日,Runway家标志性的AI视频生成工具Gen-2,迎来了“iPhone时刻”,简单一句话输入,不过这一次,视频效果一口气拉到了4K超逼真的高度!
2025-03-29 14:41:22













