百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

1.5B刷新数学代码SOTA!快手清华精细Token管理,LLM推理能力飙升

moboyou 2025-08-11 01:22 4 浏览

Archer团队 投稿

量子位 | 公众号 QbitAI

当大模型在数学题和代码任务里“卷”参数规模时,一支来自快手和清华的团队给出了不同答案——

他们用1.5B参数的小模型,在多个推理基准上干过了同量级SOTA。

秘密在于给模型的“学习过程”做了精细化管理:让该记牢的知识稳住,让该灵活的推理放开。

在多个挑战性的数学、代码评测基准上,该团队提出的Archer方法都展现出了强大的实力。

目前,Archer的代码已开源,详细链接可见文末。

“两难”:知识和推理难兼顾

通过预训练,LLM能记住海量的知识。但要让这些知识转化为解决数学题、写复杂代码的推理能力,还得靠后续的强化学习(RL)优化。

其中,带可验证奖励的强化学习(RLVR)是当前的主流方法——简单地说,就是让模型不断尝试解题,通过“是否做对”的反馈调整行为,有点像人类“做题纠错”。

但问题来了:模型输出的内容里,有些是“知识型”的(比如“1+1=2”这类事实),有些是“推理型”的(比如“先算括号里,再算乘除”这类逻辑规划步骤)

过去的RLVR方法要么“一视同仁”,给所有内容用一样的训练信号;要么“粗暴分割”,用梯度屏蔽把两类内容拆开训练。

结果往往是:要么知识逐渐变差(比如把公式记错),要么推理放不开(比如总用老套思路解题)

快手和清华团队发现:这两类内容在模型里其实有明显特征:

  • 低熵Token
  • (确定性高):比如“3.14”、“def函数”,对应事实性知识,训练时不能乱改;
  • 高熵Token
  • (不确定性高):比如“因此”、“接下来”、“循环条件”,对应逻辑推理,需要多尝试。

但关键在于,这两类Token在句子里是“绑在一起”的——比如解数学题时,“因为2+3=5(低熵),所以下一步算5×4(高熵)”,拆开会破坏语义逻辑。

Archer:给Token“差异化训练”

团队提出的Archer方法,核心是“双Token约束”——不拆分Token,而是给它们定制不同的训练规则。

简单说就是两步:

1.先给Token“贴标签”:用熵值分类型

通过计算每个Token的熵值(不确定性),自动区分“知识型”和“推理型”:

  • 高熵Token:比如数学推理里的“接下来”、“综上”,代码里的“循环”、“判断”,是逻辑转折点;
  • 低熵Token:比如“123”、“print”,是必须准确的事实性内容。

团队用“句子级熵统计”替代传统的“批次级统计”——比如同一道数学题,不同解法的Token熵分布不同,按句子单独划分,避免把“关键推理Token”误判成“知识Token”。

2.再给训练“定规矩”:差异化约束

对贴好标签的Token,用不同的规则训练:

  • 推理型(高熵)Token:松约束。用更高的裁剪阈值(允许更大幅度调整)和更弱的KL正则(减少对原始策略的依赖),鼓励模型多尝试不同推理路径;
  • 知识型(低熵)Token:紧约束。用更低的裁剪阈值和更强的KL正则,让模型“死死记住”正确知识,避免越训越错。

这样一来,知识和推理既能同步更新,又不互相干扰——就像老师教学生:基础公式要背牢,解题思路可以大胆试。

从数学到代码:全面碾压同量级模型

在最考验推理能力的数学和代码任务上,Archer的表现都很出色。

数学推理:解题正确率大幅提升

在AIME 2024/2025、Minerva等硬核数学基准上:

  • 相比同基座的原始模型,Archer在AIME24上正确率提升18.1%,AIME25提升10.3%;
  • 对比当前SOTA方法DAPO,Archer在AIME24上多对6.6%的题,AIME25多对5.2%;
  • 1.5B参数的Archer-Math,直接超过了FastCuRL、Nemotron等同量级SOTA模型,平均正确率登顶

代码生成:刷题能力显著增强

在LiveCodeBench(主流代码生成基准)v5/v6上:

  • 相比DAPO,Archer在v5上正确率提升3.4%,v6提升2.6%;
  • 超过了专门优化代码的DeepCoder-1.5B,成为同量级最佳代码生成模型之一。

效率方面,Archer只用单阶段训练、1900 H800 GPU小时(对比Nemotron的16000 H100小时),就实现了这些提升。

没有复杂的多轮训练,达到了“花小钱办大事”的效果。

关键在“平衡”

Archer的核心洞察是:LLM推理能力不是“死记硬背”或“盲目试错”,而是知识稳定性和推理探索性的平衡

团队通过实验验证了这种平衡的重要性:

  • 若不给低熵Token加约束(KL=0),模型会很快“记混知识”,输出重复内容,性能崩塌;
  • 若给高熵Token加严约束(裁剪阈值太小),模型推理“放不开”,学不到新方法;
  • 只有让知识Token“”、推理Token“”,才能既不丢基础,又能提升逻辑能力。

这种思路也解释了为什么小模型能逆袭——大模型的参数优势能堆出更多知识,但如果训练时“管不好”知识和推理的关系,能力提升反而受限。

Archer用精细化的Token管理,让小模型的每一个参数都用在刀刃上,学会如何更好的组织使用已有的知识。

论文链接:http://arxiv.org/abs/2507.15778
GitHub:https://github.com/wizard-III/ArcherCodeR

— 完 —


量子位 QbitAI · 头条号


关注我们,第一时间获知前沿科技动态签约

相关推荐

Util应用框架基础(二)- 面向切面编程(AOP)

面向切面编程(AOP)Util应用框架横切关注点处理本节介绍Util应用框架对横切关注点的处理.文章分为多个小节,如果对设计原理不感兴趣,只需阅读基础用法部分即可.概述有些问题需要在系统中全局处理,比...

QQ假红包生成器(恶搞qq红包假红包生成)

软件名称:QQ假红包生成器软件大小:892.37KB运行平台:安卓软件说明:本软件由iapp编写,所以全被安全软件误报。作者也把软件免杀了,但免杀版无法在5.0系统的手机上安装,安装非免杀版即可...

如何用云虚拟主机搭建一个影视网站

大家好,今天教大家使用云虚拟主机搭建一个影视网站的教程,本教程使用的是苹果CMS系统搭建。清空虚拟主机在开始安装网站之前,先要清空下虚拟主机。因为虚拟主机开通成功后,一般都会有一个默认网页文件,直接...

小白快速掌握!目前最有效玩客云刷机法之玩客云刷魔改版iStoreOS

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:最佳男煮角来来咯,我又来咯,为方便小白快速掌握刷机流程,我在每一篇文章里都是尽可能一步一图一解读的,而最最基础的准备直接点击我的文章《什么,...

AI七个月突破数学家“围剿”反超人类,14位数学家深挖原始推理token:不靠死记硬背靠直觉

从只能答对2%的题目,到在超难数学题集中刷下22%得分,甚至超过人类团队平均水平,大模型需要多长时间?现在,令数学家们都惊讶的结果已经尘埃落定:7个月。发生在大名鼎鼎的“专为为难大模型而生的”Fron...

1.5B刷新数学代码SOTA!快手清华精细Token管理,LLM推理能力飙升

Archer团队投稿量子位|公众号QbitAI当大模型在数学题和代码任务里“卷”参数规模时,一支来自快手和清华的团队给出了不同答案——他们用1.5B参数的小模型,在多个推理基准上干过了同量级S...

抢票软件刷走200张,黄牛代码篡改系统,看球还敢信“代抢”吗?

7月4日晚无锡警方抓了两个人,他们用电脑程序抢了200多张苏超比赛门票,赚了1万5。现在苏超比赛场场爆满,抢票软件、黄牛倒票成了大问题。网上有人晒高价票,有人说自己被“代抢”骗了钱。黄牛倒票分三类:有...

大模型转行土木工程,首个「打灰人」评估基准:检验读、改工程图纸能力

首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结...

仅用一行代码实现全网站暗黑模式(仅用一行代码实现全网站暗黑模式怎么办)

开源项目推荐:uViewPro正式开源!70+Vue3组件重构完成,uni-app组件库新选择推荐文章:element-plus同款主题换肤动画如何实现?-附完整源码经历了PMP和软...

“少写一行代码,5分钟狂刷一次下载,开发者8000美元就这么烧没了!”

只因为漏写了一行代码,macOS录屏工具ScreenStudio的开发者AdamPietrasiak意外烧掉了8000美元的流量费,连带着还让部分用户断了网。一个看起来微不足道的自动...

IE法提取网页数据(如何提取网页中的表格)

【分享成果,随喜正能量】我们不良的行为、不善的念头、不好的言语,都属于我们内心的暴力,要想获得平和,我们需要自我修习,学会控制情绪,学会内观反省并接近善良。。《VBA信息获取与处理》教程是我推出第六套...

从abc起步学做网站(4)(abc是哪几个网站)

上一次我们做了一个大多数网站使用的模板,带有顶部、左侧导航、右侧主内容、底部等板块。现在我们把它逐步扩展成一个论坛。一个论坛的基本功能有注册,登陆,发帖,回帖,看帖,删帖等,我们一步步来做。首先大多数...

黑客命令第16集:47种最常见的**网站方法2/2

31.工具1:网站猎手2:大马一个关键字:切勿关闭Cookies功能,否则您将不能登录插入diy.asp32.关键字:Team5StudioAllrightsreserved默认数据库:dat...

安卓最有名的网页编辑器(安卓网页设计工具)

安卓平台上有几款较为知名的网页编辑器,如Quoda、DroidEdit等,它们凭借丰富的功能和良好的用户体验受到广泛关注,以下是具体介绍:-Quoda:是一款强大的免费多语言代码编辑器,支持HTM...

918国际导航免费分享一款简洁模板+整站程序+数据打包-yungui

918国际导航免费分享一款简洁模板+整站程序+数据打包国际导航模板说明:搜索栏背景是动态型的,为了简洁本站没有搜索框以及文章页,只有首页一个,这样可以满足大部分人的需求了,毕竟大家只是大家导航而已...