中关村学院新发现：轻量级考证器可解锁LLM推理最优挑选

[db:作者] · 发表于 2025-11-6 17:47

本文由北京中关村学院、哈尔滨产业大学、中科院自动化所等多家单元作者配合完成，第一作者为北京中关村学院与哈尔滨产业大学联培博士生俞斌，指导教师包括：哈尔滨产业大学教授 & 哈工大青岛研讨院院长王佰玲，北京中关村学院 & 中关村野生智能研讨院具身智能偏向负责人陈凯提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

研讨布景：Test-Time Scaling 的两种范式

在大说话模子（LLM）囊括各类复杂使命的明天，“测试时扩大”（Test-Time Scaling，TTS）已成为提升模子推理才能的焦点思绪 —— 简单来说，就是在模子 “答题” 时分派更多的计较资本来让它表示更好提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。严酷来说，Test-Time Scaling 分红两类：

内部 Test-Time Scaling：以 DeepSeek-R1 为代表的推理型大模子经过拉长思维链来实现内部的测试时扩大提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。内部 Test-Time Scaling：让模子在回答题目时停止并行推理获很多个推理途径，然后经过聚合这些分歧的推理途径来获得终极的答案提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
随着各类改良推理思维链计划的提出，经过内部 Test-Time Scaling 来进步模子性能的方式逐步接近瓶颈，这时更好的挑选则是转向去回答另一个题目：假如经过内部 Test-Time Scaling 来继续实现模子性能的增加？

Best-of-N 范式是测试时扩大的一种典型代表：对于一个数学题目，模子天生 N 条推理途径并从当挑选一项最有能够正确的途径作为终极答案，以下图所示：

传统实现 Best-of-N 的方式有两种：

1. 投票法（Majority Voting）：哪个答案出现最多就选哪个；
2. 进程嘉奖模子（Process Reward Model，PRM）：用一个额外的模子给每一步打分，再选总分最高的途径提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

但是两者都存在各自的题目：投票法相对粗糙，且近期的研讨也发现，“正确的答案常常存在于少数中”，这也进一步揭露了投票法在 Best-of-N 使命中的不敷；进程嘉奖模子的相关方式例存在性能不稳定现象，这类现象源于当前的各类进程嘉奖模子并非针对内部 Test-Time Scaling 和推理型模子所设想，从而致使了这些模子在利用于 Best-of-N 使命时存在明显的鲁棒性和性能题目提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

本文的研讨试图去填补这类研讨的缺点，并提出了 TrajSelector 方式：一种轻量级但强大的 Best-of-N 战略，它经过复用大模子本身的 “隐藏状态” 来评价推理途径质量，无需高贵的进程标注或 7B 参数的嘉奖模子，就能在数学推理使命中获得明显性能提升提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

论文题目：TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model论文地址：https://arxiv.org/abs/2510.16449项目主页：https://zgca-ai4edu.github.io/TrajSelector/
TrajSelector：操纵大模子隐状态，解锁大模子推理的 “最优挑选”

论文首先分析现有 Best-of-N 方式的两个致命缺点：

重量级进程嘉奖模子（PRM）的本钱太高：支流方式用 7B 参数的 PRM 给每个推理步调打分，摆设和推理本钱几近和战略模子（比如 8B 的 Qwen3）持平，本钱骤增；模子隐状态被浪费：另一些方式尝试用战略模子的内在状态评价答案，但这些状态没有被系统化操纵，在分歧使命上性能波动极大，牢靠性差提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
为什么需要隐状态？由于大模子的隐状态里常常藏着 “自我深思信号”—— 比如解数学题时，某个步调的隐状态能够已经编码了 “这个推导能否公道” 的信息，只是没有被显式操纵提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

TrajSelector 的焦点方针就是处理这两个题目：用最小的参数开销，充实操纵战略采样模子的隐状态，实现 Effective 且 Efficient 的 Best-of-N 范式提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。该方式的架构图以下：

TrajSelector 的框架很是简洁，本质是 “并行采样 - 步调打分 - 聚合选优” 的三步流水线：

1. 并行采样：利用一个解冻的战略模子停止并行采样，获很多个推理途径及其隐状态提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
2. 步调打分：TrajSelector 方式用一个仅 0.6B 参数的轻量级打分模子（即 Qwen3-0.6B-Base），经过复用战略模子的隐状态给每个推理步调打分提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。这类隐状态的操纵使得轻量级的小模子可以复用来自于战略模子的编码才能，使得在明显减小模子参数范围的条件下，实现了更优的打分结果提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
3. 聚合选优：TrajSelector 利用了最简单的算术均匀来计较每个推理途径的得分情况，得出每一个的全局分数，停止挑选出全局分数最高的途径作为终极答案提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

练习计划

传统 PRM 需要大量 “步调级标注”—— 比如野生给每个推理步调标 “对 / 错”，本钱极高提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。而 TrajSelector 的练习完全不用手动标注，仅靠 “弱监视” 就能实现模子的练习提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

练习时的焦点应战在于：一个终极正确的轨迹，一定每个步调都正确（比如步调有冗余，但成果对了）提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。假如间接把 “轨迹标签” 当做 “步调标签”，会引入大量噪声提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。TrajSelector 鉴戒了来自于 FreePRM 的损失函数设想计划，额外引入了一个 “buffer” 选项来吸收噪声，从而设想出一个特别的三分类损失函数：

对于标签为 “正确” 的轨迹，要求模子猜测 “正确 + 中性” 的几率和为 1（答应部分步调是中性，吸收噪声）；对于标签为 “毛病” 的轨迹，要求模子猜测 “毛病 + 中性” 的几率和为 1提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这样的练习计划摆脱了对野生进程标注的依靠，从数据驱动的角度让模子自立进修若何 “抓重点”，在大范围数据的练习下实现了一个智能且轻量级的进程考证器提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

尝试结果

论文给出了 Best-of-N 使命中多个 N 值设备下的模子性能表示，包括 N = 1,5,10,16,32,64 ，基准选用了支流的 AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25 等多个基准提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

下表给出了以 Qwen3-8B 为基座的 N=16 和 N=32 时 Best-of-N 表示：

汇总各个 baselines 的均匀表示，可以绘制出一个由 Best-of-N 实现的内部 Test-Time Scaling 曲线图：

与各基线相比，随着 N 的增大，TrajSelector 计划实现了更稳定的性能增加提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

总结

TrajSelector 给大模子推理优化供给了一个重要思绪：与其追求更大的模子，不如更聪明地操纵现有模子的才能提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。它用 0.6B 的轻量级考证器，实现了比 7B PRM 更好的结果，证实了 “隐藏状态中的自我深思信号” 是未被充实挖掘的宝藏提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。对于需要落地大模子推理的场景（比如教育、科研计较），TrajSelector 的高效性和低本钱特征，让 “Best-of-N” 从 “尝试室计划” 真正走向 “适用化”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

中关村学院新发现：轻量级考证器可解锁LLM推理最优挑选

本帖子中包含更多资源