百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

大模型“记性差一点”反而更聪明,金鱼损失随机剔除token,让AI不再死记硬背

moboyou 2025-09-18 04:18 1 浏览

训练大模型时,有时让它“记性差一点”,反而更聪明!

大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(Goldfish Loss)

顾名思义,金鱼损失就是让模型像金鱼一样,不去死记每一个细节,而是在损失函数计算时随机剔除一小部分token。

由此,模型不再逐字记住训练集内容,但仍能学会语言规律。

实验显示,LLaMA-2在使用金鱼损失后:

  • 记忆化内容显著减少:模型不再复现训练数据
  • 下游任务性能几乎不受影响:仍然能流畅生成文本

用网友的精辟评论概括就是:dropout,但损失函数!

在梯度计算中随机屏蔽部分token

金鱼损失的核心理念非常简单,就是在模型训练过程中随机剔除一部分训练文本中的tokens,使其不参与损失计算。

这样一来,当模型在推理阶段遇到这些位置时,就只能“猜测”,而不是逐字逐句复现训练数据的完整序列。

此外,为了保证被剔除token的一致性,研究人员设计了一种基于哈希(hashing)的掩码策略。

那么,这和同样是防止模型背会的正则化方法有什么不同呢?

Dropout这样的正则化方法为例,它通过在训练时“加噪声”来防止模型过度依赖某些参数,从而提高模型举一反三的能力。

但这样做的问题在于:如果只是随机丢token,那么,每次看到同一段落时,丢掉的地方不一样,模型累计几次就能拼凑出完整段落。

所以,说到底,模型还是靠死记硬背,记住了答案。

相比之下,金鱼损失则用哈希掩码确保每次遇到同一段落,掩盖位置都一样,这就从根本上阻止了模型复现完整训练文本。

接下来,我们来看金鱼损失具体是怎么做的。

在传统的next-token prediction中,模型以序列中的下一个真实token作为目标,输出预测分布,并基于该分布计算交叉熵损失。

在金鱼损失下,模型虽然也在前向传播中预测序列里下一个 token。但在计算损失时,会以一定的概率将某些位置的token从损失计算里“抹掉”。

也就是说,有些真实的下一个token不会作为目标来训练。

在这里,研究人员采用了简单的静态掩码(static mask),剔除每序列中的第4个token。

更进一步,为了确保模型不会从其他地方学到被掩码的数据(例如不同的文档会在不同的网页中反复出现),研究团队还提出了一种局部化哈希掩码(localized hashed mask),使得当相同的前h个token出现时,掩盖模式是相同的(可重复)。

实验测试与结果

为了验证金鱼损失确实能防止记忆化,研究团队设计了两种实验场景:

一种是极端场景,通过对少量样本进行多个训练周期(即重复)来强烈促使记忆化;

另一种是标准场景,模拟现实模型训练中使用的批次处理方式 。

同时,为了评估模型的记忆化程度,研究采用了以下指标:

RougeL得分:该指标衡量最长公共(非连续)子序列的长度 。得分为1.0表示完美记忆 。

精确匹配率(Exact Match):该指标衡量正确预测的序列占真实序列的百分比.

实验表明,在极端场景下,标准训练导致模型逐字记忆了100篇文章中的84篇,而金鱼损失没有记忆任何文章

(注:实验让LLaMA-2-7B在《哈利·波特》第一章或100篇维基百科文档上进一步训练了100个epoch)

此外,在标准训练场景下,金鱼损失也明显减少了模型逐字复现训练语料库中目标序列的情况。

但这里可能有个直觉式的反应——如果让模型“随机漏学”一些token,它的能力会不会也随之降低呢?

对此,研究人员进行了测试:研究表明,金鱼损失模型、标准损失模型和对照模型之间的总体性能没有系统性差异。

需要注意的是,金鱼损失的核心在于忽略部分token的梯度计算。因此,为了学到足够的语言模式,模型必须通过更多数据来补偿这些空缺,这可能导致计算效率的下降。

参考链接

[1]https://arxiv.org/pdf/2406.10209

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

相关推荐

一个时间选择器,为何大家都不相同

在自媒体平台的定时发布功能中,看似基础的时间选择器,在不同平台却呈现出显著差异——从时间范围限制、日期展示方式,到时间精度与交互布局,各平台设计均有侧重,这些差异背后,实则是对用户场景、操作便捷性...

全新生成模型「离散分布网络DDN」如何做到原理简单,性质独特?

本文作者杨磊,目前在大模型初创公司阶跃星辰担任后训练算法工程师,其研究领域包括生成模型和语言模型后训练。在这之前,他曾在旷视科技担任了六年的计算机视觉算法工程师,从事三维视觉、数据合成等方向。他于2...

大模型“记性差一点”反而更聪明!随机剔除token,让AI不再死记硬背

训练大模型时,有时让它“记性差一点”,反而更聪明!大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(...

彩票并非纯靠运气!老彩民绝不会告诉你的,五个选号笨办法!

在许多人眼里,购买彩票纯粹是一场与命运的对赌,完全依赖于那缥缈的运气。然而,真正深入其中的老彩民们却深知,虽然最终的开奖号码随机,但在选号的过程中,确实存在一些值得琢磨的“门道”。这些方法看似“笨拙”...

老程序员爱用AI写代码:调查显示三成资深工程师一半代码靠AI生成

IT之家9月8日消息,一项新调查深入剖析了生成式人工智能(GenAI)对软件开发者日常工作的变革作用。结果显示,不同资历的工程师呈现出明显分化:资深工程师更倾向于大量使用AI生成代码,主动...

告别手动!4种批量建Excel,省时还不出错

你是不是也遇到过这种情况:月底要做报表,要给每个部门单独建一个Excel;项目汇总,每个客户都得生成一份数据文件。光是新建、命名、保存这一套流程,就得重复几十遍。鼠标点到手酸,眼睛还得紧盯着生怕出错,...

财务多个发票凑一个金额,花了1天,同事用Excel2分钟搞定

我们现在有很多发票金额,如下是模拟的数据,这里有10张发票然后总金额是固定的,是由以下的发票金额凑起来正好的数值也不确定具体是几张发票凑起来的现在需要快速的将它们找出来,正好凑好总金额遇到这种凑金额的...

调和随机数的混沌_随机调配

编者按本文来自作家、游戏智慧(Game-Wisdom.com)创始人乔希·拜瑟(JoshBycer)的个人博客,由indienova取得授权并译制发表,原文链接见文末。正文随机数生成(Rando...

大模型“记性差一点”反而更聪明,金鱼损失随机剔除token,让AI不再死记硬背

训练大模型时,有时让它“记性差一点”,反而更聪明!大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(...

彩票店老板绝不会告诉你的十个选号潜规则!早知道早中奖!

每天都有无数彩民走进彩票店,怀揣着梦想购买一两注彩票。你可曾想过,那些看似随机的数字背后,可能隐藏着一些不为人知的"潜规则"?经过多方打探和走访,我们终于整理出彩票店老板绝不会主动告诉...

Excel数据重塑利器:WRAPROWS和WRAPCOLS函数详解

WRAPROWS和WRAPCOLS是ExcelforMicrosoft365中引入的两个新函数,它们能够将单行或单列的数据按照指定的方式重新排列成多行多列的二维数组。WRAPROWS:...

生成式AI不是“通用智能”,而是“工具革命”:企业落地的3个关键思考

从ChatGPT到Midjourney,生成式AI的“魔法”正在席卷各行各业。但在热潮之下,我们更需要冷静思考:它真的具备“智能”吗?其实,生成式AI不是通用智能的雏形,而是一场信息处理方式的“工具革...

建议收藏!BigemapPro 快捷命令+函数公式大全,效率直接拉满

在使用BigemapPro处理地理数据时,熟练掌握快捷命令和函数公式能极大提升工作效率,告别重复操作,让你的地图编辑、数据处理更高效。今天,就为大家整理了一份超全的BigemapPro实用技巧,涵盖常...

Excel制作小型抽奖系统,可以内定结果,拿去用

“年会抽奖还能内定?别笑,我亲眼见过。”这句话一出,会议室瞬间安静,老板都忍不住探头。其实内定不是黑幕,而是技术——Excel就能搞定。三分钟搭好,零代码基础也能玩得飞起,关键是还能让全场嗨到尖叫。先...

告别加班!27个Excel新函数全面升级你的工作效率,新手必看!

今天我要为大家带来27个Excel新函数全面解析,这些都是微软近年来推出的重磅功能,能够让你的工作效率提升十倍不止!一、动态数组革命:彻底改变Excel计算方式FILTER函数-按条件筛选数据=F...