天涯论坛_华人最大的社区论坛_新天涯社区

查看: 13|回复: 0

小红书FireRedChat:首个私有化摆设的全双工大模子语音交互系统

[复制链接]

2万

主题

0

回帖

6万

积分

论坛元老

Rank: 8Rank: 8

积分
64858
发表于 2025-10-3 16:54 | 显示全部楼层 |阅读模式

小红书智创音频团队推出业内首个支持私有化摆设的全双工大模子语音交互系统 FireRedChat,自研流式 pVAD 与 EoT 让语音交互加倍自然,首发级联与半级联两套实现,端到端时延逼近产业级利用提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。完全开源、可私域落地,打造真正 “知冷暖、能共情、懂表达” 的语音 AI提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

小红书智创音频团队公布 FireRedChat—— 业内首个支持私有化摆设的全双工大模子语音交互系统,直击提早高、噪声敏感、可控性差、依靠内部 API 等痛点提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

FireRedChat 基于 “交互控制器+交互模块+对话治理器” 的完整架构,将肆意半双工链路一键升级为全双工;集成自研流式本性化打断 pVAD、语义判停 EoT、FireRedTTS-1s、FireRedASR、FireRedTTS2 等焦点模子,供给级联与半级联两种端到端办事摆设计划,覆盖从 “稳定易摆设” 到 “更有温度” 的分歧需求,明显提升实时性、鲁棒性与可控性提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

尝试成果显现,系统在多项关键目标领先其他开源框架,为 “更智能、更自然” 的全双工语音交互供给了一套真正可用、可落地的开源计划提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。



技术报告:https://arxiv.org/pdf/2509.06502在线体验:https://fireredteam.github.io/demos/firered_chat开源代码:https://github.com/FireRedTeam/FireRedChat
经过 FireRedChat 构建的 AI 聊天助手不但具有「快速打断,智能判停,实时响应」的自然对话才能,还能依托内置的情感感知与感情分解,让 AI 不再是一个冷冰冰的机械人,而是一个「知冷暖、能共情、懂表达」的好朋友提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

她能细致感知你的情感变化:在你失落时,轻声抚慰、真诚激励;在你碰到欣喜时,和你一样心潮彭湃、享用 surprise;在你高兴时,陪你分享高兴、一路欢笑提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

FireRedChat 让 AI 聊天助手不但是回应笔墨,更能用富有温度的声音、感情和表达方式,带给你一种被了解、被陪伴的实在感受,让 AI 真正具有「人感」提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。


https://mp.weixin.qq.com/s/-Kr3ef6PVonJ7m3t842Emg
为什么全双工语音交互难,难在何处?

用户期待的是 “你说我听、我说你懂” 的自然对话,而非机械的一问一答提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。为了实现自然对话,要求系统既要能精准感知双方交互中的轮次变化,又要能抵抗内部其他措辞人以及情况噪声的干扰;既要晓得 “何时打断” 不出错,又要把握 “何时答复” 的最好机会;还要摆脱闭源 API 的约束,做到全链路可控、可私有化摆设提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。这些应战持久压制着开源生态的产物化落地提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

FireRedChat 的硬核冲破:五个 “真牛” 的点

第一,行业初创的 “全双工 + 私有化” 组合提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。FireRedChat 从设想之初就面向企业级落地,完整覆盖从音频输入到语音分解的全链路,并供给一键私有化摆设才能,在数据平安、本钱可控和系统扩大性上周全领先提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

第二,自研 pVAD + 轻量 EoT,让 “打断” 又稳又准提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。pVAD 专注识别首要措辞人,有用抑制情况噪声与他人措辞带来的误触;EoT 正确判定用户的表达能否已经具有完整语义,避免过早打断或缓慢回应,实现自然轮次转换提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

第三,级联与半级联双线路并行,兼顾成熟度与体验提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。级联链路(ASR → LLM → TTS)摆设灵活,各模块可自力优化;半级联链路(AudioLLM → TTS)直连音频输入,可感知情感与副说话信息,天生更贴心的回应,并进一步下降提早与误差传布提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。两套计划都可间接升级为全双工,满足分歧营业场景的精度、时延与本钱权衡提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

第四,端到端低时延,逼近产业级提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。凭仗模块解耦与流式优化,FireRedChat 在当地级联摆设下实现接近产业级系统的端到端提早,真正把 “实时”“自然” 落到体验里提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

第五,不但能听懂,还能 “听出情感、说出温度”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。经过 AudioLLM 与 FireRedTTS2 的联动,系统可捕捉用户声学线索(情感、腔调、节奏),在回应中自然表现关切与共情:你失落时能抚慰激励,你兴奋时共情份享,让 AI 从 “能回答” 走向 “有温度” 的陪伴与了解提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

解耦带来可控,可插拔带来进化



FireRedChat 将全双工语音交互解耦为三个焦点模块,既保存端到端链路的高性能,又确保系统的可保护性和可扩大性提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

轮次转换控制器(Turn-taking Controller):基于自研 pVAD 与轻量 EoT,实时判定 “谁在说、何时停、何时该我说”,像一位聪明的主持人保持对话次序,明显下降噪声与多措辞人场景下的误打断提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

交互模块(Interaction Module):支持两种形式提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。级联形式整合 FireRedASR 与 FireRedTTS-1s,TTS 支持高低文感知,声音更贴合语境;半级联形式以 AudioLLM 直达语音语义与感情,再接 FireRedTTS-2 完成富表达的分解,打造更顺滑的 “听 —— 想 —— 说” 链路提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

对话治理器(Dialogue Manager):负责对话状态治理并扩大系统才能,支持工具挪用(如 WebSearch)、RAG 检索增强、插件扩大与工作流治理提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。系统内置与 Dify 的集成样例,便于开辟者停止提醒词工程、常识库构建与利用编排,快速把 Demo 酿成产物提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

开源、免费、可私有化

为了给开辟者与企业实在的掌控力,FireRedChat 对峙完全开源:焦点模块 TTS、ASR、pVAD、EoT 全数开放,无需 API 用度与内部依靠提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。系统支持在企业私有情况一键摆设,数据资产不出域,平安合规可审计提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。基于 LiveKit 的清楚模块化与完善文档、简洁 Web UI,使得普通用户即开即用,开辟者可快速二次开辟与深度定制提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

典型利用处景

智能语音助手:自然打断、立即回应,切近真人对话节奏提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。客服与外呼:商场、车站等复杂声场仍能稳定识别与响应提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。教育与心理陪伴:情感感知与表达丰富度带来更强的同理心体验提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。
更客观的成果背书

FireRedChat 设立系统级目标,聚焦实在体验的三件事:更少的误打断,更准的语义端点检测,更低的提早提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

打断正确率方面,pVAD 明显削减噪声和无关措辞人的误打断,并经过细小期待(如 50ms)在鲁棒与灵敏之间获得更优权衡提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。



语义端点检测正确率方面,EoT 让系统更懂 “你说完没”,削减尬等与抢话提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。



端到端提早方面,当地级联摆设下的响应接近产业级闭源系统,周全超越开源框架,将 “立即反应” 酿成常态提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。



总结与展望

FireRedChat 以 “全双工+私有化+全链路开源” 的组合拳,为全双工语音交互进献了小红书计划提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。经过可插拔架构、精准轮次控制与双线路深度优化,系统在自然度、鲁棒性与时延上获得冲破性停顿,影响语音交互体验的性能领先其他开源框架,时延上逼近产业级闭源系统提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

未来,FireRed Team 将延续迭代 FireRedChat,融入更强大的 AudioLLM、更丰富的多模态交互,并与全球开源社区共建,把语音 AI 从 “能用” 推向 “好用”,再到 “大家可用、处处可用”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|天涯论坛_华人最大的社区论坛_新天涯社区  

GMT+8, 2025-11-6 22:55 , Processed in 0.785557 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表