多轮LLM Router问世, Router

[db:作者] · 发表于 2025-10-15 21:48

Haozhen Zhang 现为南洋理工大学（NTU）博士一年级门生，本工作完成于其在伊利诺伊大学厄巴纳-香槟分校（UIUC）练习时代提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。Tao Feng 为 UIUC 博士二年级门生，Jiaxuan You 为 UIUC 计较机系助理教授提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。团队持久聚焦 LLM Router 偏向，已产出 GraphRouter、FusionFactory 及本文 Router-R1 等多项代表性研讨功效提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
“假如一个题目只需小模子就能回答，为什么还要让更贵的大模子去思考？”
在大说话模子（LLM）品种爆炸的时代，这个看似简单的题目，正成为 AI 系统设想的关键瓶颈提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。面临性能、提早与本钱的多重平衡，若何智能地在分歧 LLM 之间分派使命，已经成为 AI 根本设备的新应战提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
克日，来自伊利诺伊大学香槟分校（UIUC）的研讨团队在 NeurIPS 2025 上公布了新作：《Router-R1：Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》，本文提出了首个多轮 LLM Router 框架 Router-R1，让 LLM 不止会 “回答”，还会 “思考、调剂与调和其他模子” 来到达可控的性能与本钱平衡提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

论文题目：Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning作者团队: Haozhen Zhang, Tao Feng, Jiaxuan You机构: University of Illinois at Urbana-Champaign论文地址: https://arxiv.org/abs/2506.09033代码地址: https://github.com/ulab-uiuc/Router-R1 布景：从「一个模子回答一切题目」到「智能调剂」
ChatGPT、Claude、Gemini、Qwen、LLaMA……，短短两年，LLM 家属已从寥寥数个增加到百余种提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。分歧模子各有上风，有的擅长逻辑推理，有的在常识问答上精准，有的响应快、本钱低提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
但现在的 AI 利用，大多依靠单一模子推理，即用户题目会间接被送入某个牢固的 LLM 中停止回答提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。这类方式虽然简单，但却意味着：简单题目能够致使算力浪费；复杂题目又能够因模子才能不敷而回答毛病提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
是以，“LLM Router” 应运而生并正在成为 AI 系统的新前台大脑：分歧于 Token-level Router（如 MoE），LLM Router 在 Query-level 层面停止路由，它可以判定一个题目标复杂度、婚配最合适的模子，甚至静态组合多个模子完成推理提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
但是，现有的 LLM Router（如 GraphRouter、RouterDC 等）大多采用单轮决议机制：给定一个题目，只路由到一个候选模子完成回答，这类单轮路由机制难以处置多跳推理或跨范畴的复杂使命提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
Router-R1：让 Router 自己成为一个「会思考的 LLM」
本文提出的 Router-R1 的焦点创新在于让 Router 本身成为一个具有推理才能的 Policy LLM提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
也就是说，Router-R1 不再只是一个 “Query 分发器”，而是一个具有思维链，能自动停止 “思考 — 挑选模子 — 聚合” 的智能体，可以在思考，路由，聚合几种行为之间频频切换并停止多轮路由迭代，慢慢构建终极答案：
1️⃣ Think（思考）：在接收到 User Query 后，Router-R1 会首先履行 “思考” 阶段停止内部推理分析，并判定能否需要内部信息停止帮助；2️⃣ Route（路由）：若发现需要额外信息，Router-R1 则触发 “路由” 指令按照每个 LLM 的 Descriptor Prompt 静态挪用合适的内部候选模子（如 Qwen、LLaMA、Gemma、Mixtral 等）停止回答子题目；3️⃣ Aggregate（聚合）：内部模子挪用的答复成果返回后继续插入 Policy LLM 的 Evolving Context 停止聚合，并继续停止后续的多轮推理慢慢天生终极答案提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。这类 “思考–路由–聚合” 的交替机制，使 Router-R1 能充实操纵分歧 LLM 的互补上风（例如一个擅长数学推理、另一个擅长常识检索），潜伏实现实在的多模子协同推理提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

用强化进修教 Router 平衡性能与本钱
Router-R1 将全部多轮路由进程形式化为一个序列决议题目，并经过强化进修练习 Router 使之学会在复杂决议空间中优化 Performance-Cost Trade-off提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。论文中设想了三类直观的嘉奖函数：
1️⃣ Format Reward：输出 Format 正确性嘉奖
确保模子输出严酷遵照如、等格式约束，避免练习早期天生无效文本提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

2️⃣ Final Outcome Reward：成果正确性嘉奖
采用 Exact Match（EM）目标权衡天生答案与标准答案能否完全分歧，间接激励 Router 输出正确成果提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

3️⃣ Cost Reward：本钱约束嘉奖
Router-R1 创新地引入了计较本钱嘉奖机制，按照被挪用模子的参数范围及输出 Token 数设想反比例嘉奖函数：

综合三者后，Router-R1 的总嘉奖为：

其中超参 α 控制性能与本钱的权衡水平提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

七大基准周全领先：正确率 + 泛化性双提升
研讨团队在 7 个 QA Benchmark 上对 Router-R1 停止了系统评测，涵盖单跳与多跳推理使命，包括 NQ、TriviaQA、PopQA、HotpotQA、2WikiMultiHopQA、Musique 和 Bamboogle提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。Router-R1 仅在 NQ 与 HotpotQA 数据集上停止练习，在其他数据集上履行 Out-of-domain Evaluation提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

如上图所示，当 α=0 时（即只优化 performance 不斟酌 cost），Router-R1 在所稀有据集上到达了综合最强的性能，击败了如 GraphRouter/RouterDC 等单轮路由方式，并展现出了对 Unseen Dataset 的较强泛化性提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

如上图所示，当继续改变超参 α 来探讨性能本钱权衡时，随着 α 增加，挪用本钱明显下降，为可控本钱的 LLM 智能调剂战略斥地了新的范式提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

同时，为了检测 Router-R1 对内部候选 LLM 的泛化性，如上图所示在未介入练习的内部模子加入后，无需重新练习即可保证性能的相对稳定并在此根本上实现提升，显现出 Router-R1 优异的零样本迁移才能提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
总结：迈向「多模子协同智能体」的时代
本文提出的 Router-R1 不是又一个 “更大的模子”，而是让多个模子协同工作的新范式提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。Router-R1 经过强化进修，让 LLM 从 “单一回答者” 进化为「多智能体调和者」，在性能与本钱之间实现静态平衡提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。得益于此，Router-R1 能在削减算力和本钱开销的同时连结高质量输出，下降大模子摆设的情况与资本压力提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。Router-R1 自然支持模子重用与模块化组合，只需增加新模子描写即可快速集成，为构建可扩大、多模子共生的 AI 根本设备奠基了根本提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
值得留意的是，最新的 GPT-5 技术报告也已明白采用 LLM Router 机制来停止分歧版本模子的静态调剂，这进一步印证了 Router-R1 所代表的趋向：多模子协同路由将成为未来大模子生态不成或缺的底层根本设备提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

多轮LLM Router问世, Router

本帖子中包含更多资源