字节跳动Seed推出原生全双工语音大模型

字节跳动Seed正式发布原生全双工语音大模型Seeduplex，相较于上一代豆包端到端半双工语音模型，该模型以“边听边说”全新框架为核心设计，大幅提升了语音交互的自然感与顺畅度，彻底打破传统半双工模型“一问一答”的局限。

Seeduplex核心优势在于赋予模型更贴合人类对话的节奏把控能力与更强的抗干扰性能——即便在噪声、无关人声等复杂声学环境中，也能精准捕捉用户意图、顺畅响应，实现对话节奏的快慢有度、收放自如。这一突破得益于模型架构的创新升级、训练流程的优化，以及团队对高并发场景下卡顿、稳定性等工程难题的成功攻克，最终实现了业界领先的全双工语音实时交互效果，在保障模型智能上限与超低时延的基础上，达成了两大关键突破。

其一，精准抗干扰能力。Seeduplex具备持续“倾听”能力，能够深度适配用户所处的声学环境，精准过滤背景噪音与无关对话。在复杂场景下，其误回复率、误打断率较半双工模型均减少50%，大幅提升交互准确性。

其二，动态判停技术。模型可融合语音与语义双重特征，综合判断用户对话意图，实现更自然的节奏控制：当用户陷入思考、出现犹豫时，模型能耐心倾听不打断；当用户完成表达后，模型可快速响应不拖沓。相较于半双工模型，其抢话比例相对下降40%，对话分寸感更接近人类自然交流。

目前，Seeduplex已在豆包App全量上线。多维度评测数据显示，该模型在对话流畅度、节奏把控上，显著优于传统半双工方案及行业主流App的语音通话功能；其中，判停表现较半双工方案提升8%，充分展现出贴近自然对话的交互质感。

为支撑Seeduplex在豆包App的全面落地，团队从模型框架、算法训练、推理性能、服务稳定性四大维度进行了全方位优化，为优质交互体验筑牢基础。

在模型框架设计上，构建了更贴合语音实时对话原生特性的架构，让模型可直接从数据中学习语音与语义的一体化表达及节奏控制，从根源上提升交互自然度；在算法与训练层面，依托海量语音数据开展大规模预训练，结合多能力、多任务后训练体系，实现对话智能、超低延迟、节奏控制、强抗干扰、指向性理解等多维能力的协同提升，确保模型交互稳定高效；在推理性能方面，通过投机采样、量化等技术手段极致优化，实现成本与延迟的最优平衡；在服务稳定性上，重点解决收音、播报卡顿等痛点，保障模型在大流量环境下可连续稳定运行。

实际应用数据显示，与此前豆包上线的半双工模型相比，Seeduplex推动用户通话时长、留存等核心指标实现正向增长，整体通话满意度绝对值提升8.34%，用户反馈中“抢话”“响应慢”“误打断”等问题的提及比例显著下降。

进一步测评结果表明，Seeduplex在打断与判停表现上全面优于半双工模型，多项关键指标处于行业领先水平。相较于原半双工对话框架，其判停MOS分提升8%，对话流畅度MOS分提升12%；在核心性能上，Seeduplex将判停延迟降低约250ms，复杂场景下AI抢话比例相对减少40%；针对用户打断需求，在保证响应准确率的前提下，将打断响应延迟进一步缩短约300ms；复杂声学干扰场景中，误回复率与误打断率均降低一半。

此外，横向对比原半双工模型及行业主流App语音通话功能可见，Seeduplex在判停、打断响应等核心任务上优势明显，显著提升了评测用户对整体交互节奏合理性及对话流畅度的评价，成功重塑了语音交互的体验边界。

相关推荐

DeepSeek 上线专家模式：产品首次引入分层设计，V4 模型传闻再起

字节跳动Seed推出原生全双工语音大模型

别被 AI 风口收割：普通人最该清醒的真相

月薪3万，去内蒙草原给DeepSeek守机房

直面LeCun愿景，智在无界发布最强具身世界模型，20万小时人类视频屠榜6大榜单