阿里云推出全新AI计较处理计划：大模子所需NVIDIA GPU狂降82%！

[db:作者] · 发表于 2025-10-21 11:10

在克日于韩国首尔举行的顶级学术会议SOSP 2025（操纵系统道理钻研会）上，阿里云公布了其“Aegaeon”计较池化处理计划提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
Aegaeon计划的焦点在于处理AI模子办事中普遍存在的GPU资本浪费题目，特别针对那些需求突发或不成猜测的大型说话模子提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
它打破了传统的“一个模子绑定一个GPU”的低效形式，而是在Token级别虚拟化GPU拜候，这意味着单个GPU可以被多个分歧模子同享办事，实现邃密化的资本调剂提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
阿里云Aegaeon系统作为一种推理时候调剂器，它能在每次天生下一个token后，静态决议能否切换模子，从而将细小的工作片断放置到同享池中提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
经过组件复用、显存邃密化治理和KV缓存同步优化等全栈技术，Aegaeon将模子切换开销下降了97%，确保了token级调剂的实时性，可支持亚秒级的模子切换响应提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
在阿里云模子市场为期超三个月的Beta测试中，Aegaeon系统在办事数十个参数目高达720亿的大模子时，所需的NVIDIA H20 GPU数目从1192个锐减至213个，削减比例高达82%提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
GPU用量的大幅削减，对于硬件采购本钱高昂的大型模子办事商而言，意味着本钱将明显下降提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
今朝，这项焦点技术已成功利用在阿里云百炼平台提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

阿里云推出全新AI计较处理计划：大模子所需NVIDIA GPU狂降82%！

本帖子中包含更多资源