说到语音合成,大家都不陌生。从语音导航到智能客服,从智能手机到智能家居,基于AI的合成语音无处不在。特别是今年以来,以GPT大模型为代表的AIGC技术迅猛发展,AI语音生成作为其中的重要一环,正受到越来越多人的关注和探索。

语音合成 (Text-to-speech, TTS) 是将文本转换为自然语音,服务于人机智能语音交互场景的核心技术。过去十年,通过神经网络和端到端建模技术的发展,语音合成技术也取得了巨大突破,自然度和音质得到了极大提升。


(资料图)

伴随大模型时代的到来,引发了新一轮的AI革命浪潮,更自然、更智能的人机交互逐渐进入到我们的生活中。人们越来越需要机器给予“情感”回馈,越来越多的企业开始致力于追求语音合成在情感、韵律、高保真等方面的高表现力。

标贝科技深耕AI语音交互领域多年,致力于语音交互技术的创新研发和商业化应用,推出高品质通用语音方案和特色语音定制服务,能够满足虚拟人、有声阅读、短视频、智能客服等多种场景需求。

为了赋予声音更多的情感表现力和个性化风格,标贝科技依托于先进的深度学习技术和多情感风格大语言模型,在情感生成、风格拓展等方面的取得重要突破,实现了合成效果的全面提升,让新一代语音合成系统4.0适配到各种标准化和个性化场景中。最终的合成音色保真度更高,情感更真实丰富,合成效率更快更稳定,有效提升用户对生成声音的“粘性”。

TTS4.0全面升级 打造极致声音体验

●支持多情感、歌声合成

标贝科技TTS4.0基于成熟的深度神经网络技术及全新的高音质合成系统,可提供商业级情感合成以及歌声合成方案。

情感合成支持超过20余种情绪和风格的音色表达,同时我们还引入细粒度控制能力,通过对情感强弱、语速、停顿,音量等关键音色属性的控制调节,使得合成的情感声音更具表现力,适应不同情境下的语意表达。

歌曲合成方案支持用户自由填词,然后选择合适的音色,利用成熟的AI歌唱合成技术实现歌曲合成。用户一键即可体验短视频填词成曲的玩梗乐趣,适用于短视频、广告配音等各种泛娱乐场景。

●合成效果更优

标贝科技TTS4.0采用全新的深度神经网络的声学模型架构和声码器结构,与上一代语音技术相比,声音质量再创新高,MOS得分可以达到4.5以上,主要体现在发音更准确、韵律更自然、高保真效果更完美。

●合成效率更快更稳定

通过算法和模型优化,标贝科技TTS4.0对于硬件算力的要求更低,可以大大缩短训练时间,提高合成效率。据介绍,首包合成时间提升至少50%,实现更快的响应速度。在语音聊天、语音助手等实时应用场景下,给带来用户更加流畅的交互体验。

此外,标贝科技面向私部署场景下提供了不同类型的高可用部署方案。既支持少量服务器的轻量级多机高可用,也支持实现弹性扩容的大规模容器集群的部署。让应用程序开发和部署变得更加简单和可靠,确保语音合成系统平稳顺滑。

●功能更丰富

(1)长文本、短文本支持流式合成:用户输入文本的同时,可以逐段生成并输出相应的语音数据,让用户实时听到合成内容。例如在实时交互的虚拟人场景下,需要虚拟人对用户指令快速做出应答,否则会消耗用户的耐心、降低用户体验。此时就需要流式语音合成系统,在保障合成质量的同时提高响应速度。

(2)更多类型时间戳:标贝科技TTS4.0支持字级别、音素级别和句子级别等不同颗粒度的时间戳输出,满足多场景展示和口型呈现需求,给用户带来更便捷的画音同步体验。

多层级音色定制,适应不同业务场景需求

基于成熟的语音合成技术,标贝科技上线了上百种覆盖不同语言和场景的可商用音色,支持西语、韩语、日语、英语、美语、维语、东北话、粤语等多语言,影视配音、赛事解说、直播带货、自然对话、老年人等多风格的场景音色,快速匹配各业务场景需求。

为进一步拓宽语音使用场景,满足各行业客户的多元化需求,标贝科技也在不断探索新的服务和能力。在产品日益同质化的当下,标贝科技提供一站式TTS音色定制服务,包括普通声音复刻、精品声音复刻、标准化音色定制等方案,为企业打打造专属IP音色,实现品牌价值的最大化。

●普通声音复刻

仅需5分钟音频数据,无需开发人员,机器自动进行音频标注,对声音进行快速的模型训练,即可实现与真人语气音调基本接近的合成音色。

●精品声音复刻

基于30-60分钟的音频数据,提取说话人的音色和发音特征,然后人工对标注结果进行检测。经过2-3天的模型训练及效果调优,实现客户个性化的情感音色定制。适用于虚拟数字人音色定制场景,赋予数字人更加鲜明的人格化魅力。

●标准音色定制

专业录音棚采集不少于4小时的高质量语音数据,并通过人工进行专业的声学层面的精细化标注,2-3周的优化定制,生成高度还原发音人声音的情感合成音色,满足不同层面客户的定制需求。

实际上,在智能语音产业中,AI语音定制的能力始终被报以高度期待。音色,是每个人独有的声音特色,也是机器人表达情感、对外沟通不可或缺的部分。强大的音色定制能力能够赋予机器人拥有媲美真人的声音属性,个体形象更为鲜活。

然而,当前市场上传统人工合成音色定制服务通常流程较为复杂,高昂的定制成本与定制周期,远远无法满足高频应用的需求。

标贝科技TTS4.0支持声音自选或提供语料定制,提供全链路深度语音合成定制服务,让AI语音定制不再需耗费过多时间和资源,满足不同层面企业用户的个性化需求,以更普惠的方式赋能千行百业。同时,标贝科技不忘支持国家信创产业发展,当前,语音合成系列产品已经完成全栈的国产化ARM服务器适配。

专注AI语音技术探索  引领行业变革

在AIGC蓬勃发展的关键时期,语音合成扮演着不可或缺的重要角色,赋能机器的语言更逼真、自然、流畅,全面提升用户体验。

成立多年来,标贝科技始终将技术引领作为发展第一要位,专注于产品的研发与创新。如今,标贝科技正利用全新推出的多情感、多风格、多语种的语音合成技术助力各领域企业快速拥有更具竞争力的语音产品,为用户创造更加逼真、个性化的语音体验。

目前,标贝科技TTS产品已覆盖智能客服、语音交互、有声阅读、导航播报等众多应用场景,并助力中国银行、人民日报、湖南电信、恒生电子等多家行业头部企业实现AI语音能力的应用与拓展。未来,随着语音技术的进一步迭代发展,标贝科技将持续释放自己的势能,引领行业变革。

推荐内容