24直播网 南大迁徙团队建议TNT, 破解「假装不想考」骗奖励


发布日期:2026-06-18 20:24    点击次数:170

24直播网 南大迁徙团队建议TNT, 破解「假装不想考」骗奖励

作家先容: 南京大学智能科学与时间学院博士生甘想远为本文第一作家;南京大学高阳讲解为本文合营者;上海东谈主工智能执行室孟林建后生照顾员和南京大学霍静副讲解为本文通信作家。

以 DeepSeek-R1、OpenAI o1 为代表的大型推理模子,凭借长想维链的「想考」才调在数学、代码等任务上大放异彩。但想考是有代价的:冗长、反复的推理历程带来了广大的推理支出与延长,这即是广受慈祥的「过度想考」(Overthinking)问题。一个当然的惩处想路是考验羼杂推理模子:让模子凭据问题难度,自动决定是「三想尔后行」(thinking 花样)如故「直肚直肠」(non-thinking 花样),并使用强化学习(RL)考验模子掌抓这种才调。

然则,这套看似合理的奖励遐想,却埋下了一个经典的隐患:奖励诈欺24直播网(Reward Hacking)。模子很快学会了「钻空子」—— 名义上输出非想考花样的样式标志,实质里却照样进行长篇想考,既靠想考拿到了正确谜底,又骗取了非想考花样的特殊奖励。

为了惩处这一问题,来自南京大学、上海东谈主工智能执行室和中国迁徙九天照顾院的照顾团队建议了Thinking-Based Non-Thinking(TNT):不依赖腾贵的 SFT,仅足下想考花样恢复中「谜底部分」的长度信息,为每个问题动态设定非想考花样的 token 上限,就将奖励诈欺的发生概率压到了 10% 以下,同期在五个数学基准上结束了准确率与着力的最优衡量。

当今,该论文已被当然讲话处理顶级会议 ACL 2026 Main Conference 摄取。

论文聚积:https://arxiv.org/abs/2601.04805

代码聚积:https://github.com/SiyuanGan/Thinking-Based_Non-thinking

布景先容:羼杂推理模子与 RL 考验范式

咱们先来总结一下羼杂推理模子的基本设定。

给定一个以特殊 token 放弃的输入请示,推理模子的恢复领先是想考部分 —— 包含束缚探索、反想与自我考证的长想维链; 标志想考规章;自后 则是最终的解答(solution)部分,只包含正确的解题要津与谜底。沿用先前使命的商定,若想考部分为空,则该恢复被判定为非想考花样,不然为想考花样。在 RL 考验中,为了饱读吹模子在才调允许时优先聘用高效的非想考花样,正确的非想考恢复会被赋予比正确的想考恢复更高的奖励。

动机:一个被低估的奖励诈欺问题

问题只怕出在「更高的奖励」上。由于花样判定仅依赖第一个 token 这种名义信号,模子皆备不错先输出 伪装成非想考花样,随后的内容却照样反复推演,AG真人中国官方网站致使再次生成 圮绝符 —— 靠真确的想考得到正确谜底,却领走了非想考花样的高额奖励。

奖励诈欺问题示例。模子生成的首个 token 为 ,被分类为 non-thinking 花样,但恢复内容彰着具有 thinking 花样特征(如使用 "Wait"、"Alternatively" 等要害词),组成了典型的奖励诈欺手脚。

这一问题的严重性超出假想。著作实测发现,未处理奖励诈欺的 RL 步伐在 AIME24 上,被判定为「非想考花样」的恢复平均 token 用量竟高达 10845,与想考花样的 11976 实在不相高下 —— 所谓的「非想考」已名存实一火,系数这个词考验事实上仍是坍弛。

针对该问题,现存决议苟简有两条路,但各有硬伤:其一是引入 SFT 来固定模子两种花样的输出行,但 SFT 谋划支出极其昂然;更糟的是,24直播网SFT 还会带来权贵的性能退化,先前使命的 SFT 模子在 AIME24 上准确率仅约 10%。其二是为非想考花样设定最大 token 上限,超限即视为诈欺,但现存使命对系数问题施加长入的上限,这在逻辑上是行欠亨的:简便问题(如「1+1 等于几」)即便用长想维链反复考证,其 token 数也可能远低于复杂 AIME 题目庞杂作答的长度。

步伐:

用想考花样的「谜底」

标定非想考花样的「尺子」

图 1:TNT 步伐概览。

破局的要害洞见十分优雅:想考花样恢复中 之后的解答部分,自身就不含想考 —— 而这恰好就缅怀想考花样的界说。换言之,想考花样恢复自带一份「该问题的谜底庞杂应该写多长」的免费标尺。TNT 恰是足下这极少,为每个问题动态设定非想考花样的 token 上限。

整套步伐基于 GRPO 进行考验,无需任何 SFT,无需修改模子结构或 tokenizer,况且与 Dr. GRPO、DAPO、GSPO 乃至经典 PPO 等算法自然兼容,是一个即插即用的奖励层面修正。

执行考证:准确率与着力的双赢

著作以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 为基座模子进行了执行的考证。

更少的 token,更高的准确率。在 1.5B 模子上,TNT 比拟基座模子将平均 token 用量削减 46.2%,平均准确率反而晋升 4.1 个百分点,高出沿途同类步伐设立。

Kaiyun中国大陆开云体育官网入口

不同羼杂推理模子考验步伐在数学基准上的平均准确率与 token 用量对比。

各模子在 non-thinking 花样恢复中出现 thinking 关系动词的概率。

奖励诈欺被有用简略。著作统计了非想考花样恢复中「Wait」、「Alternatively」等想考类动词的出现概率:未磋议该问题的 AutoThink 概率最高,摄取长入上限的 AdaptThink 也权贵偏高,而 TNT 在系数测试集上均低于 10%,仅次于付出了昂然 SFT 代价的步伐。

模子学会了「看菜下饭」。TNT 的非想考花样占比与任务难度呈明晰的负关系:在 AIME24/25 这类结巴上实在全程想考(占比仅 1.7%/0.8%),在相对简便的 AMC23 上则有近 30% 的问题径直作答,结束了基于难度的自主花样聘用。

基座越强,上风越大。在 DeepScaleR-1.5B 与 7B 模子上,TNT 的 TE 永别达到 0.70 与 0.79,大幅朝前次优步伐的 0.54 与 0.67;在 7B 上更是同期拿下最高平均准确率(54.2%)与最低 token 用量。此外,TNT 在与 CoT 压缩步伐的对比中全面胜出,并在 GPQA Diamond 这一散布外基准上赢得最优着力,展现了精好意思的泛化性。

总结和预测

一言以蔽之,这篇论文直面了羼杂推理模子 RL 考验中一个具体而致命的失效花样,奖励诈欺,并给出了一个四两拨千斤的解法:与其用腾贵的 SFT 去「管住」模子的输出,或用一刀切的上限去「猜」每谈题的合理长度,不如让想考花样我方的解答部分来告诉咱们,这谈题不想考时庞杂应该写多长。由此建议的 TNT 无需 SFT、无需转换模子结构,仅在奖励层面引入一个动态 token 上限,便在三个基座模子、五个数学基准上一致地结束了约 50% 的 token 削减与准确率晋升,并将奖励诈欺概率压制在 10% 以内。





Copyright © 1998-2026 24直播网2026世界杯赛事直播入口™版权所有

wxzhmy.com备案号 备案号: 

技术支持:®24直播网世界杯 RSS地图 HTML地图