天涯论坛_华人最大的社区论坛_新天涯社区

查看: 17|回复: 0

从ICASSP到NeurIPS:中国团队深耕音频超分获双顶会功效

[复制链接]

2万

主题

0

回帖

6万

积分

论坛元老

Rank: 8Rank: 8

积分
65118
发表于 2025-10-14 17:42 | 显示全部楼层 |阅读模式
比来音频技术圈出了个硬货,清华大学和生数科技的团队,接连在ICASSP 2025、NeurIPS 2025这两个顶会上发了功效,专门处理“音频超分辨率”的题目提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
能够有人没听过这词,实在就是把低采样率的音频,修复成高采样率的,听着更清楚、细节更足提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
像老录音修复、语音通话增强,甚至音乐建造,都用得上这技术提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

不外这事儿说起来轻易做起来难,高频细节在低采样率音频里很轻易丢,想补返来一向是行业困难提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
现在学术界大多模子还卡在48kHz之内,连OpenAI的Sora2也就做到96kHz提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
而这其中国团队,间接把方针定得更高,还真搞出了花样提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
Bridge-SR:用薛定谔桥搞语音超分,参数少还能打

团队先在ICASSP 2025上放了个大招,Bridge-SR模子提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这模子专做语音超分,最特此外是用了“薛定谔桥”这个思绪,之前没人把这招用在语音超分上提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
之前很多模子搞超分,都是从随机噪声起头渐渐天生信号,又慢又费算力提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
但Bridge-SR不这么干,它间接拿低分辨率的音频当“根柢”,在低、高分辨率音频之间搭了个“桥”,这样天生效力一下就提上来了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

更利害的是,它的参数才1.7M,比同类模子轻太多了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
原本想感觉这么轻的模子,结果能够一般,后来发现人家在VCTK测试集上,比很多支流方式都强提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
团队还加了些小技能,比如非对称的噪声调剂、同时盯着频域的幅度谱和相位谱,这些都让音质更稳提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
我感觉这一点出格好,现在很多技术都追求大参数,似乎参数越大越牛,但Bridge-SR证实,找对方式,小参数也能处理大题目,今后在手机这类算力有限的装备上用,也没压力提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

Bridge-SR在语音超分上打了个好根本,但团队没停下,接着就搞出了更周全的AudioLBM提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
究竟语音只是一部分,音效、音乐这些音频范例,也需要超分技术来提升体验提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
AudioLBM更猛:间接冲到192kHz,全音频都能搞定此次团队把功效发到了NeurIPS 2025上,AudioLBM比Bridge-SR的适用范围广多了,语音、音效、音乐都能处置,还打破了48kHz的瓶颈提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

它用了个新思绪,先经过变分自编码器把音频波形紧缩成“隐空间表征”,再在这个空间里搭建超分的“桥”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
这么做既能保存原音频的关键信息,又能让模子顺应更多范例的音频提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
团队还加了两个关键设想:一个是“频次感知机制”,能自动识别输入音频的采样率,还能检测该输出几多采样率,实现“肆意采样率转肆意采样率”,另一个是“级联桥类模子”,一步一步把采样率提上去,间接冲到了192kHz提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

192kHz可是母带级的采样率,之前只要出格贵的专业装备才能搞出来,现在一个模子就能实现,对音乐建造、老音频修复这些行业来说太适用了提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
在测试里,它比AudioSR、FlowHigh这些基线模子表示都好,对数谱间隔明显下降,就算到了96kHz、192kHz,结果也很稳提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
团队还做了消融尝试,对照了波形空间、谱空间这些分歧的表征方式,最初证实波形隐空间的结果最好提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

能做出这么亮眼的功效,团队成员的气力也很关键提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
第一作者李畅是中科大少年班的本科生,已经在好几个CCF-A/B类会议上发过音频相关的论文,这么年轻就有这水平,确切利害,另一位第一作者陈泽华是清华的博士后,博士结业于帝国理工,一向做几率天生模子,在语音、生物电信号分解这些范畴堆集很深,两小我的专业才能恰好互补提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
现在团队还开放了两篇论文的地址和样本展现页,想研讨的人都能去看,这一点也很大气提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
究竟技术只要同享出来,才能更快鞭策全部行业进步提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

毫无疑问,这两个功效把音频超分技术往前推了一大步提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
Bridge-SR做到了轻量化、高效力,合适语音相关的场景,AudioLBM实现了全音频覆盖和高采样率冲破,能处理更多复杂需求提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
今后我们听老唱片、打语音电话,甚至自己做音乐,能够城市受益于这些技术提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
期待这个团队今后能出更多好功效,也希望有更多中国团队在音频技术范畴做出冲破,让我们的声音体验越来越棒提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|天涯论坛_华人最大的社区论坛_新天涯社区  

GMT+8, 2025-11-8 05:07 , Processed in 2.870348 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表