[db:作者] 发表于 2025-10-14 15:00

从ICASSP到NeurIPS:中国团队深耕音频超分获双顶会成果

最近音频技术圈出了个硬货,清华大学和生数科技的团队,接连在ICASSP 2025、NeurIPS 2025这两个顶会上发了成果,专门解决“音频超分辨率”的问题。
可能有人没听过这词,其实就是把低采样率的音频,修复成高采样率的,听着更清楚、细节更足。
像老录音修复、语音通话增强,甚至音乐制作,都用得上这技术。

不过这事儿说起来容易做起来难,高频细节在低采样率音频里很容易丢,想补回来一直是行业难题。
现在学术界大多模型还卡在48kHz以内,连OpenAI的Sora2也就做到96kHz。
而这个中国团队,直接把目标定得更高,还真搞出了名堂。
Bridge-SR:用薛定谔桥搞语音超分,参数少还能打

团队先在ICASSP 2025上放了个大招,Bridge-SR模型。
这模型专做语音超分,最特别的是用了“薛定谔桥”这个思路,以前没人把这招用在语音超分上。
以前不少模型搞超分,都是从随机噪声开始慢慢生成信号,又慢又费算力。
但Bridge-SR不这么干,它直接拿低分辨率的音频当“底子”,在低、高分辨率音频之间搭了个“桥”,这样生成效率一下就提上来了。

更厉害的是,它的参数才1.7M,比同类模型轻太多了。
本来想觉得这么轻的模型,效果可能一般,后来发现人家在VCTK测试集上,比不少主流方法都强。
团队还加了些小技巧,比如非对称的噪声调度、同时盯着频域的幅度谱和相位谱,这些都让音质更稳。
我觉得这一点特别好,现在很多技术都追求大参数,好像参数越大越牛,但Bridge-SR证明,找对方法,小参数也能解决大问题,以后在手机这种算力有限的设备上用,也没压力。

Bridge-SR在语音超分上打了个好基础,但团队没停下,接着就搞出了更全面的AudioLBM。
毕竟语音只是一部分,音效、音乐这些音频类型,也需要超分技术来提升体验。
AudioLBM更猛:直接冲到192kHz,全音频都能搞定这次团队把成果发到了NeurIPS 2025上,AudioLBM比Bridge-SR的适用范围广多了,语音、音效、音乐都能处理,还打破了48kHz的瓶颈。

它用了个新思路,先通过变分自编码器把音频波形压缩成“隐空间表征”,再在这个空间里搭建超分的“桥”。
这么做既能保留原音频的关键信息,又能让模型适应更多类型的音频。
团队还加了两个关键设计:一个是“频率感知机制”,能自动识别输入音频的采样率,还能检测该输出多少采样率,实现“任意采样率转任意采样率”,另一个是“级联桥类模型”,一步一步把采样率提上去,直接冲到了192kHz。

192kHz可是母带级的采样率,以前只有特别贵的专业设备才能搞出来,现在一个模型就能实现,对音乐制作、老音频修复这些行业来说太实用了。
在测试里,它比AudioSR、FlowHigh这些基线模型表现都好,对数谱距离明显下降,就算到了96kHz、192kHz,效果也很稳。
团队还做了消融实验,对比了波形空间、谱空间这些不同的表征方式,最后证实波形隐空间的效果最好。

能做出这么亮眼的成果,团队成员的实力也很关键。
第一作者李畅是中科大少年班的本科生,已经在好几个CCF-A/B类会议上发过音频相关的论文,这么年轻就有这水平,确实厉害,另一位第一作者陈泽华是清华的博士后,博士毕业于帝国理工,一直做概率生成模型,在语音、生物电信号合成这些领域积累很深,两个人的专业能力刚好互补。
现在团队还开放了两篇论文的地址和样本展示页,想研究的人都能去看,这一点也很大气。
毕竟技术只有共享出来,才能更快推动整个行业进步。

毫无疑问,这两个成果把音频超分技术往前推了一大步。
Bridge-SR做到了轻量化、高效率,适合语音相关的场景,AudioLBM实现了全音频覆盖和高采样率突破,能解决更多复杂需求。
以后我们听老唱片、打语音电话,甚至自己做音乐,可能都会受益于这些技术。
期待这个团队以后能出更多好成果,也希望有更多中国团队在音频技术领域做出突破,让咱们的声音体验越来越棒。
页: [1]
查看完整版本: 从ICASSP到NeurIPS:中国团队深耕音频超分获双顶会成果