天涯论坛_华人最大的社区论坛_新天涯社区

查看: 22|回复: 0

三五条样本击败英伟达,国内首个超少样本具身模子,还斩获顶会冠军

[复制链接]

2万

主题

0

回帖

6万

积分

论坛元老

Rank: 8Rank: 8

积分
65118
发表于 2025-10-17 11:38 | 显示全部楼层 |阅读模式
比来具身智能圈出了个实打实的大消息,中科第五纪这家公司,间接公布了国内首个少样本通用具身操纵根本模子,名叫FAM-1提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
更利害的是,他们靠这个模子拿了CVPR2025具身操纵比赛的冠军,国内外很多对手都被他们比了下去提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

说真话,具身智能这范畴,之前一向被一个题目卡得死死的,那就是数据太少提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
跟自然说话、视觉范畴比,机械人在实在天下里操纵,要面临各类复杂的物理交互,情况还老变,一会儿光照纷歧样,一会儿布景又换了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
想攒点能用的数据,又贵又慢,市道上能有几十万甚至百万条物理交互数据的数据集,真没几个提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

原本想期望现有的视觉-说话-行动(VLA)模子救场,后来发现这些模子虽然能了解点语义,但真要脱手操纵,还得靠大量标注数据撑着,否则换个场景就不可了,泛化才能底子跟不上提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
就在大师愁这数据题目咋处理的时辰,FAM-1的出现,算是给这个范畴开了个新口子提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
FAM-1咋破局?先从架构和模块下功夫FAM-1能冲破数据困局,焦点靠的是一个叫BridgeVLA的架构提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这架构不是凭空想出来的,是从中科第五纪团队一篇入选NeurIPS2025的论文里来的,论文名字就叫《
BridgeVLA:BridgingtheGapbetweenLargeVision-LanguageModeland3DRoboticManipulation》提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

老实讲,这架构跟传统VLA比,有俩出格实在的创新点,不但在国际上几个公然的评测数据集里拿了最好成就,就算在实在场景里只要少许标注数据,也能应对分歧光照、分歧场景的操纵,这点比很多老模子强多了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
FAM-1自己有两个焦点模块,少了哪个都不可,先说常识驱动的预练习(KP),现在很多具身模子,都是用非操纵数据预练习的VLM,比如拿些普通图片视频练手提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这样一来,模子跟现实操纵场景的差别就大了,底子发挥不出VLM该有的泛化潜力提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
中科第五纪就纷歧样,他们从网上找了海量操纵场景的图像视频,专门建了个操纵常识库,再对VLM做二次预练习提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这么做就是为了指导模子挖出里面的操纵常识,还能让模子猜测机械臂的关键点位置和活动轨迹,渐渐就顺应操纵场景了,不会再像之前那样“纸上谈兵”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

再说说三维少样本微调(FF),之前那些VLM+VLA架构,总喜好把三维视觉信息压成一维向量,再用这个向量去猜测三维行动,看着像个沙漏提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
可这么一压,中心丢了好多三维结构信息,最初只能靠大量标注数据硬拟合,本钱高得吓人提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
中科第五纪倒好,间接把VLM和VLA的输出、输入都升成了三维热力图提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这么改以后,模子微调的时辰既能用上完整的三维空间信息,又不用依靠那末多样本,思绪是真挺巧的,算是把之前的“瓶颈”给绕开了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

架构和模块捋清楚了,接下来就得看这模子现适用起来到底行不可,究竟再利害的技术,不能落地也是白费,FAM-1在国际基准和真机上的表示,却是没让人失望提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
实测咋样?国际基准和真机都能打先看国际基准测试,FAM-1选的是RLBench、Colosseum这些行业里公认的基准,对手都是微软、MIT、斯坦福这些顶尖团队的模子提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
成果一出来,FAM-1的上风还挺明显,就说RLBench吧,它的操纵成功率比RVT-2、Act3D这些当前最好的模子还高很多,像“插钉子”“开抽屉”“分类外形”这些常见使命,成功率提升得更突出提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

之前总感觉国外团队在这方面领先,现在看我们国内的模子也能追上,甚至跨越,这点确切挺提气的提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
真机测试就更关键了,究竟尝试室数据再好,到了实在机械上欠好使也没用提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
中科第五纪把FAM-1装到真机上,跟英伟达的RVT-2、PI0,还有上海AILab的SpatialVLA这些先辈模子比了比提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
让人欣喜的是,FAM-1每个根本使命只需要3-5条样本,成功率就能到97%,比其他模子高了一大截提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

就算是碰到有干扰物体、复杂光照、分歧布景的应战使命,它也比对照模子领先很多提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
很明显,这在产业场景里太有用了,产业上对机械人操纵成功率要求原本就高,比如3C产物组装,差一点便能够弄坏零件,FAM-1这成就已经快够到产业化的门坎了,稍微优化下就能用提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
模子能打还不够,久远成长才是关键,中科第五纪在这方面也早有计划提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
他们说未来会深耕三个偏向,都是冲着打造产业级通用具身智能系统去的,比如优化模子在复杂产业场景的适配性,下降模子摆设的硬件本钱,还有拓展多机械人协同操纵的才能提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

而且他们还有个意外收获,团队一篇叫《
EC-Flow:EnablingVersatileRoboticManipulationfromAction-UnlabeledVideosviaEmbodiment-CentricFlow》的论文,已经被ICCV2025接收了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这篇论文利害在哪?它能让机械人从没有标注的人类操纵视频里,自己学操控战略提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
说真话,这如果落地了,机械人学操纵就方便多了,不用人费劲吧啦地标注数据,说不定能把产业机械人的摆设周期从三五个月收缩到一两周,本钱也能降很多提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
FAM-1作为国内首个少样本通用具身操纵根本模子,算是把具身智能的“数据桎梏”给实实在在打破了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

非论是BridgeVLA的架构创新,还是KP、FF两个模块的设想,再到国际基准和真机测试的成就,都能看出国内在这范畴的技术,已经跟得上全球前沿了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
之前总感觉机械人要走进工场、走进平常生活还很悠远,现在有了FAM-1这样的模子,再加上未来EC-Flow这些技术的成长,说不定用不了多久,我们就能看到更多机械人在生产线、家里帮上忙,到时辰智能化操纵能够就不是什么新颖事了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|天涯论坛_华人最大的社区论坛_新天涯社区  

GMT+8, 2025-11-7 18:46 , Processed in 1.357321 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表