天涯论坛_华人最大的社区论坛_新天涯社区

查看: 9|回复: 0

RT4090出奇迹!30亿参数VLA跑30fps,机械人抓笔200ms搞定

[复制链接]

2万

主题

0

回帖

6万

积分

论坛元老

Rank: 8Rank: 8

积分
63863
发表于 2025-11-3 21:55 | 显示全部楼层 |阅读模式
比来刷到Dexmal原力灵机那篇RT-VLA论文,失实把我惊着了,30亿参数的Pi0模子,居然能在RTX4090上跑到30fps,双视角场景下甚至只要27毫秒提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
要晓得之前聊VLA模子,大师默许都是“快不了”,动辄几十上百毫秒的提早,就算用高端显卡也绕不开这个坎提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
我之前总感觉VLA模子要跑快,要末砍参数要末上数据中心级显卡,比如A100那种,此次算是被打脸了,人家没减参数,还能用RTX4090这类消耗级显卡,这优化思绪是真的巧提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

RTX4090我们都熟,16GBGDDR6X显存,平常玩游戏、做个普通AI推理都够用,但能扛动30亿参数的VLA模子跑30fps,之前想都不敢想提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
能够有人会问,这27毫秒、30fps到底有多牛?我们得先说说之前VLA模子的“通病”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
机械人用VLA模子的时辰,提早高了就像人看见工具愣一下才脱手,抓个工具、躲个障碍都慢半拍提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

如果能跑到30fps,就跟相机帧率差不多,处置视觉信息不丢帧,机械人反应才能跟得上实时场景,而且此次RT-VLA的成果,比openpi项目里用Jax自动优化的结果还好很多,这就不是偶然了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
原本想扒扒这优化到底咋做的,看了论文才发现,Pi0模子自己的计较就挺麻烦,它有三个焦点部件:视觉编码器、编码器、解码器,里面满是矩阵乘法和标量运算提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
更麻烦的是,它用了“流婚配”技术,得迭代10次才出成果,每次迭代又有几十层计较,算下来光操纵就上千个提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这些小使命碎得像拼图,想优化都找不到动手的地方,RT-VLA的研讨者没走平常路,他们没去缩减模子功用,而是盯着这些琐细计较猛抠提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
把能合并的运算打包成一个GPU使命,削减显存往返挪用的时候;还有那些没依靠的使命,就让它们同步跑,这套操纵下来,原本卡脖子的提早就降下来了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这类底层优化比纯真砍参数聪明多了,既保住了Pi0模子的泛化才能,又提了速,相当于给粗笨的大模子装了“轻盈的策动机”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

200毫秒抓着落的笔!RT-VLA把机械人反应拉到人类水平光说数据不够直观,论文里阿谁“抓着落的笔”尝试才真叫冷艳,这支笔掉下来的时辰,机械人得“看见”就立即脱手,快一点慢一点城市抓空提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
最初测出来的成果是,从看见笔到履行抓取,全部进程才200毫秒之内,对应的着落间隔也就30厘米左右,这个速度有多利害?我们普通人做这个行动,反应时候也差不多是这个水平提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

之前总听人说“机械人比人快”,但那多是牢固行动的反复,像这类需要实时视觉判定的使命,机械人想追上人很难,此次RT-VLA算是做到了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
更关键的是,这不是尝试室里的“炫技”,200毫秒的反应时候,已经能满足很多产业场景的需求,比如抓点小零件、处置易碎品,不用再依靠公用的活动控制卡了,聊到这儿就得提一句开源的事提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
此次优化后的代码已经放GitHub上了,而且出格贴心,只依靠torch和triton两个库,还打包成了一个文件提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

搞AI的都晓得,之前有些开源项目标依靠库能列一长串,光安装设置就得折腾泰半天,此次RT-VLA的代码,小白照着说明都能上手用提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这已经是Dexmal继Dexbotic工具箱以后,又一个开源进献了,看得出来他们是真想让更多人用上实时VLA技术,固然,这不是说RT-VLA已经完善了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
今朝还只在Pi0模子上考证过,其他VLA模子能不能套用这个优化思绪,还得看后续测试,但最少它翻开了一个偏向:不用堆高贵硬件,也能让大模子跑实时提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

对那些中小型研发团队大概小我开辟者来说,这可是个好消息,不用买高端卡,用手里的RTX4090就能搞实时VLA尝试,门坎一下就降下来了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
从27毫秒到480Hz,RT-VLA的下一步是力控研讨者没止步于30fps,他们还设想了一套围绕GPU的控制框架,这套框架能像“直播”一样给机械人发控制信号,还筹算把控制信号的频次提到480Hz,480Hz是个啥概念?已经摸到“力反应控制”的门坎了,力反应这工具对机械人很重要提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

比如机械人跟人合作递工具,得能感知手里的力度,不能太用力捏碎,也不能太轻掉了,之前想做力反应,得靠公用芯片,本钱高还不灵活提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
如果这套480Hz的框架能成,今后用GPU就能实现力反应控制,机械人会变得更灵活,合作场景也能覆盖更多,他们还提到了边沿计较的潜力提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
现在像NVIDIAJetsonAGXOrin这类边沿芯片,算力已经不低了,如果RT-VLA今后能适配这些边沿装备,机械人就能实现“端侧实时控制”,不用再依靠云端算力提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这意味着机械人能在更多场景用起来,比如户外巡检、家庭办事,不用愁收集提早大概断网的题目提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
RT-VLA最使我感觉有代价的,是它处理了“又聪明又快”的冲突,之前机械人要末“笨但快”(只能做牢固行动),要末“聪明但慢”(大模子提早高)提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
此次RT-VLA算是把两者连系起来了,靠优化提了速,还没丢了大模子的智能,如此看来,这篇论文更像一个“起点”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

从27毫秒的双视角推理,到200毫秒的抓笔尝试,再到480Hz的力控方针,RT-VLA正在把“实时VLA”从概念酿成能落地的技术提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
对开辟者来说,现在可以拿着开源代码试试手,说不定能在自己的项目里玩出更多花样;对行业来说,这能够是VLA模子从尝试室走向产业、家庭场景的关键一步,今后再聊机械人实时控制,估量没人会再默许“VLA模子快不了”了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

RT-VLA已经证实,只要找对优化偏向,消耗级显卡也能撑起实时VLA,说不定过不了多久,我们就能看到更多反应灵敏、又聪明的机械人,出现在工场车间大概家里的客厅里提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|天涯论坛_华人最大的社区论坛_新天涯社区  

GMT+8, 2025-11-5 13:25 , Processed in 5.805157 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表