[db:作者] 发表于 2025-10-17 11:38

三五条样本击败英伟达,国内首个超少样本具身模型,还斩获顶会冠军

最近具身智能圈出了个实打实的大新闻,中科第五纪这家公司,直接发布了国内首个少样本通用具身操作基础模型,名叫FAM-1。
更厉害的是,他们靠这个模型拿了CVPR2025具身操作竞赛的冠军,国内外不少对手都被他们比了下去。

说实话,具身智能这领域,之前一直被一个问题卡得死死的,那就是数据太少。
跟自然语言、视觉领域比,机器人在真实世界里操作,要面对各种复杂的物理交互,环境还老变,一会儿光照不一样,一会儿背景又换了。
想攒点能用的数据,又贵又慢,市面上能有几十万甚至百万条物理交互数据的数据集,真没几个。

本来想指望现有的视觉-语言-动作(VLA)模型救场,后来发现这些模型虽然能理解点语义,但真要动手操作,还得靠大量标注数据撑着,不然换个场景就不行了,泛化能力根本跟不上。
就在大家愁这数据问题咋解决的时候,FAM-1的出现,算是给这个领域开了个新口子。
FAM-1咋破局?先从架构和模块下功夫FAM-1能突破数据困局,核心靠的是一个叫BridgeVLA的架构。

这架构不是凭空想出来的,是从中科第五纪团队一篇入选NeurIPS2025的论文里来的,论文名字就叫《
BridgeVLA:BridgingtheGapbetweenLargeVision-LanguageModeland3DRoboticManipulation》。
老实讲,这架构跟传统VLA比,有俩特别实在的创新点,不光在国际上几个公开的评测数据集里拿了最好成绩,就算在真实场景里只有少量标注数据,也能应对不同光照、不同场景的操作,这点比很多老模型强多了。
FAM-1本身有两个核心模块,少了哪个都不行,先说知识驱动的预训练(KP),现在很多具身模型,都是用非操作数据预训练的VLM,比如拿些普通图片视频练手。

这样一来,模型跟实际操作场景的差异就大了,根本发挥不出VLM该有的泛化潜力。
中科第五纪就不一样,他们从网上找了海量操作场景的图像视频,专门建了个操作知识库,再对VLM做二次预训练。
这么做就是为了引导模型挖出里面的操作知识,还能让模型预测机械臂的关键点位置和运动轨迹,慢慢就适应操作场景了,不会再像以前那样“纸上谈兵”。

再说说三维少样本微调(FF),以前那些VLM+VLA架构,总喜欢把三维视觉信息压成一维向量,再用这个向量去预测三维动作,看着像个沙漏。
可这么一压,中间丢了好多三维结构信息,最后只能靠大量标注数据硬拟合,成本高得吓人。
中科第五纪倒好,直接把VLM和VLA的输出、输入都升成了三维热力图。
这么改之后,模型微调的时候既能用上完整的三维空间信息,又不用依赖那么多样本,思路是真挺巧的,算是把以前的“瓶颈”给绕开了。

架构和模块捋清楚了,接下来就得看这模型实际用起来到底行不行,毕竟再厉害的技术,不能落地也是白搭,FAM-1在国际基准和真机上的表现,倒是没让人失望。
实测咋样?国际基准和真机都能打先看国际基准测试,FAM-1选的是RLBench、Colosseum这些行业里公认的基准,对手都是微软、MIT、斯坦福这些顶尖团队的模型。
结果一出来,FAM-1的优势还挺明显,就说RLBench吧,它的操作成功率比RVT-2、Act3D这些当前最好的模型还高不少,像“插钉子”“开抽屉”“分类形状”这些常见任务,成功率提升得更突出。

以前总觉得国外团队在这方面领先,现在看咱们国内的模型也能追上,甚至超过,这点确实挺提气的。
真机测试就更关键了,毕竟实验室数据再好,到了真实机器上不好使也没用。
中科第五纪把FAM-1装到真机上,跟英伟达的RVT-2、PI0,还有上海AILab的SpatialVLA这些先进模型比了比。
让人惊喜的是,FAM-1每个基础任务只需要3-5条样本,成功率就能到97%,比其他模型高了一大截。

就算是遇到有干扰物体、复杂光照、不同背景的挑战任务,它也比对比模型领先不少。
很显然,这在工业场景里太有用了,工业上对机器人操作成功率要求本来就高,比如3C产品组装,差一点就可能弄坏零件,FAM-1这成绩已经快够到产业化的门槛了,稍微优化下就能用。
模型能打还不够,长远发展才是关键,中科第五纪在这方面也早有规划。
他们说未来会深耕三个方向,都是冲着打造工业级通用具身智能体系去的,比如优化模型在复杂工业场景的适配性,降低模型部署的硬件成本,还有拓展多机器人协同操作的能力。

而且他们还有个意外收获,团队一篇叫《
EC-Flow:EnablingVersatileRoboticManipulationfromAction-UnlabeledVideosviaEmbodiment-CentricFlow》的论文,已经被ICCV2025接收了。
这篇论文厉害在哪?它能让机器人从没有标注的人类操作视频里,自己学操控策略。
说实话,这要是落地了,机器人学操作就方便多了,不用人费劲吧啦地标注数据,说不定能把工业机器人的部署周期从三五个月缩短到一两周,成本也能降不少。
FAM-1作为国内首个少样本通用具身操作基础模型,算是把具身智能的“数据桎梏”给实实在在打破了。

不管是BridgeVLA的架构创新,还是KP、FF两个模块的设计,再到国际基准和真机测试的成绩,都能看出国内在这领域的技术,已经跟得上全球前沿了。
以前总觉得机器人要走进工厂、走进日常生活还很遥远,现在有了FAM-1这样的模型,再加上未来EC-Flow这些技术的发展,说不定用不了多久,咱们就能看到更多机器人在生产线、家里帮上忙,到时候智能化操作可能就不是什么新鲜事了。
页: [1]
查看完整版本: 三五条样本击败英伟达,国内首个超少样本具身模型,还斩获顶会冠军