推理性能提升10倍蚂蚁团体开源高性能分散说话模子推理框架dInfer

[db:作者] · 发表于 2025-10-13 18:38

来历：举世网
【举世网科技综合报道】10月13日，蚂蚁团体对外公布正式开源业界首个高性能分散说话模子推理框架dInfer提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
据先容，在基准测试中，dInfer将分散说话模子的推理速度相比于英伟达分散模子框架Fast-dLLM提升了10.7倍；在代码天生使命HumanEval上，dInfer在单批次推理中缔造了1011Tokens/秒的速度，初次在开源社区中实现分散说话模子的单批次推理速度明显超越自回归模子提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。dInfer的工作表白，分散说话模子具有明显的效力潜力，可以经过系统性的创新工程兑现，为通往AGI的架构途径供给极具合作力的选项提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
分散说话模子，作为一种全新的范式将文本天生视为一个“从随机噪声中慢慢规复完整序列”的去噪进程，具有高度并行、全局视野、结构灵活三大上风提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。凭仗这些上风，以蚂蚁团体和人大公布的LLaDA-MoE为代表的模子已在多个基准测试中，展现出与顶尖AR模子相媲美的正确性提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。究竟上，dLLM的高效推理面临计较本钱高、KV缓存生效、并行解码三大应战提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。这些瓶颈使得分散说话模子的推理速度一向不尽人意，若何冲破瓶颈开释分散说话模子在推理效力上的潜能，成为全部范畴亟待处理的困难提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
dInfer是一款专为分散说话模子设想的、算法与系统深度协同的高性能推理框架，可支持多种分散说话模子，包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
dInfer包括四大焦点模块：模子接入（Model）、KV缓存治理器（KV-Cache Manager），分散迭代治理器（Iteration Manager），息争码战略（Decoder）提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。这类可插拔的架构，答应开辟者像搭乐高一样，进一步组合和摸索分歧模块的优化战略，并在同一的平台上停止标准化评测提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。更重要的是，dInfer针对上述三大应战，在每个模块中都集成了针对性的处理计划提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

（图说：dInfer的架构）
在装备8块NVIDIA H800 GPU的节点上，dInfer的性能表示使人注视：在与先前的dLLM推理计划Fast-dLLM的对照中，dInfer在模子结果持平的情况下，均匀推理速度（avg TPS）实现了10.7倍的庞大提升（681 vs 63.6）；在代码天生使命HumanEval上，dInfer在单批次推理中缔造了1011 tokens/秒的速度；与在业界顶尖的推理办事框架vLLM上运转的、参数目和性能相当的AR模子Qwen2.5-3B相比，dInfer的均匀推理速度是其2.5倍（681 vs 277）提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
蚂蚁团体先容，dInfer毗连了前沿研讨与产业落地，标志着分散说话模子从“理论可行”迈向“理论高效”的关键一步提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。此次开预案，也是诚邀全球的开辟者与研讨者配合摸索分散说话模子的庞大潜能，构建加倍高效、开放的AI新生态提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。（勃潺）

推理性能提升10倍 蚂蚁团体开源高性能分散说话模子推理框架dInfer

本帖子中包含更多资源

推理性能提升10倍蚂蚁团体开源高性能分散说话模子推理框架dInfer