天涯论坛_华人最大的社区论坛_新天涯社区

查看: 14|回复: 0

OpenAI GDPval测试:AI逼近专家水准,常识工作者迎应战

[复制链接]

2万

主题

0

回帖

6万

积分

论坛元老

Rank: 8Rank: 8

积分
63177
发表于 2025-10-2 19:20 | 显示全部楼层 |阅读模式
2025年9月30号,野生智能学家平台发了条消息,OpenAI刚公布的GDPval基准测试,测出来现在最顶尖的AI模子,干有经济代价的专业活儿,已经快遇上人类专家了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这事跟之前AI在尝试室里解数学题可纷歧样,它意味着AI真的要从“纸上谈兵”走进职场,给常识工作者带来的变化,能够比我们想的还要近提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
GDPval测试:不考“做题”考“干活”,AI此次玩真的之前评价AI行不可,总爱考它解数学题、写代码,这些工具跟现实工作差得远提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
但此次GDPval纷歧样,它专门测AI在实在职场里的本事提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

覆盖的行业都是美国经济的“顶梁柱”,像医疗保健、金融办事、制造业这些,加起来差不多占了美国GDP的四分之三还多,里面包括44个专精职业的1320项具体使命提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这些使命不是随意编的,满是均匀有14年工作经历的老从业者设想、检查的提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
比如律师要写的法令简报、工程师画的工程蓝图、护士定的护理计划,每个使命都给了参考材料和托付要求,跟真上班干的活儿没区分提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

更靠谱的是评价方式,用了双盲法,评的专家不晓得功效是AI做的还是人做的,这样比出来的成果,压服力确切强提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
说真话,我一路头以为AI也就在机械性的活儿上还行,没想到测试成果挺意外提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
Claude Opus 4.1在公然的220项使命里,差不多一半的输出能到达专家水平,特别在文档格式化、演示文稿设想这类要点审美感的活儿上,表示出格突出提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

而GPT-5更擅长需要精准专业常识的使命,比如解读法令条目、分析金融数据提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
原本想,AI在“美”和“准”这两方面总得偏一个,现在看来,顶尖模子已经能兼顾了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
光看才能够不够还不够,企业更关心AI干活的效能和本钱提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
究竟再利害的技术,不能省钱、不能省时候,也很难真用起来提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

从测试里算的账来看,前沿AI模子干GDPval里的使命,速度比行业专家快差不多100倍,本钱也低100倍提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
固然,这个数没算上现适用的时辰,人得盯着改改、跟其他工作整合的本钱,但就算把这些加上,AI的效能上风还是很明显提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
老实讲,我身旁有做律所助理的朋友,之前天天核对条约里的根本条目,费时候还轻易错提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

如果然用上这类AI,他们就能腾出时候整理更复杂的案例,不用再陷在反复劳动里提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这大要就是AI最现实的代价,把人从“耗时候”的活儿里束缚出来,而不是直代替换人提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
AI抢专家活?常识工作者的“饭碗”得重新界说了从GPT-4o到GPT-5,也就一年左右的时候,AI在经济代价使命上的表示居然提升了两倍多,而且是稳步往上走的线性趋向提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这速度比很多专家猜测的快多了,之前说AI每18个月能进步一倍,现在看来,在适用范畴,AI进步得更快提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
GDPval选的那些职业也很有讲求,不是随意挑的提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
得满足两个条件:所属行业进献美国GDP超5%,而且职业自己薪酬在行业里排前5,最重要的是,60%以上的使命不用干体力活,像软件工程师、律师、会计师、注册护士这些都在里面提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

OpenAI说,这些职业里的常规、要求明白的使命,AI已经能接了,人可以专心做更需要缔造性、更需要判定的事提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
如此看来,AI不是来“抢饭碗”的,是来“换饭碗”的提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
比如之前设想师得自己画根本的演示文稿模板,现在AI能搞定,设想师就能把精神放在怎样让内容更有创意、更贴合客户需求上;医生不用再花时候整理病人的根本病历,能多花点时候跟病人相同病情提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这类改变,实在是把常识工作者的焦点合作力,从“会不会做”酿成了“能不能做得更有深度”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
固然,现在的AI也不是万能的,测试里也表露了很多范围提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
比如GDPval是一次性评价,没法模拟现实工作里“改稿子”的流程,我们上班写报告,谁不得按照带领、客户的反应改个三五遍?AI现在还没法像人一样,按照反应不竭调剂提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
而且碰到需求模糊的情况,比如客户只说“想要个靠谱的金融计划”,没说清楚风险承受才能、理财方针,AI也没法像人一样,一点点问大白、捋清楚提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

搞不清为啥测试没把这些“模糊”“迭代”的场景加进去,究竟实在工作里,这类情况才是常态提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
所以现在的AI,更合适干“方针明白、流程牢固”的活儿,碰到“没谱”的、需要灵活调剂的活儿,还是得靠人来牵头提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
面临这类变化,光靠小我调剂必定不够,得靠政策、企业、教育机构一路发力提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
政策得定好规矩,比如AI出了错谁负责,怎样庇护用户数据;企业得琢磨怎样让人跟AI配合好,不是简单把活儿丢给AI,而是让人跟AI构成互补;黉舍也得改改讲授内容,现在LinkedIn上很多招聘都要求会用AI帮助工具,今后不会跟AI合作,找工作能够都要吃亏提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

毫无疑问,GDPval测试是个重要的信号,AI已经从“技术上能行”走到了“经济上能用”,常识经济要变天了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
对常识工作者来说,不用怕AI会替换自己,更该担忧的是自己能不能跟上AI的节奏,学会用AI把自己的专业才能发挥得更好提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
未来的常识工作者,焦点合作力不再是“把握几多常识”,而是“怎样用AI把常识用得更巧”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这既是应战,也是让自己变得更有代价的机遇提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|天涯论坛_华人最大的社区论坛_新天涯社区  

GMT+8, 2025-11-4 10:32 , Processed in 2.595094 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表