技术解读 | 科大讯飞语音技术最新进展之二：语音辨认与语音合成

显示全部楼层 · 2023-8-23 12:12:27

这一篇内容将围绕语音辨认与合成方向，继承为各人带来干系技术剖析。
“风物长宜放眼量”。面向人机交互更加自然流通的未来，智能语音技术进展如何？该走向何方？
以下内容根据讯飞研究院良好科学家潘嘉在NCMMSC 2022上的主题演讲《科大讯飞语音技术前沿进展》整理。

技术专业度：⭐⭐⭐⭐⭐
目次
语音辨认
1、主流框架均为自回归端到端建模
2、提出基于文本语音同一空间表达的非自回归ASR框架
3、进一步提出多元语义评价的多任务学习框架
语音合成
1、提出SMART-TTS
2、捏造音色天生

语音辨认

主流框架均为自回归端到端建模

当前，基于自回归方式的端到端建模已经成为语音辨认的主流框架。重要包罗Attention-based Encoder-Decoder以及引入推测网络的Transducer布局。所谓自回归方式相称于在语音辨认模子中引入了语言模子机制，其特点是推测当前辨认结果需用期待先前汗青的辨认结果。

但是在真正大规模摆设时，自回归的性子会影响并行程度和推理服从，因此我们思考是否能创建一个高准确率的非自回归的框架，便很自然想到了CTC（Connectionist temporal classification,毗连时序分类）——作为非自回归的框架，其特性会将输出体现为尖峰的情势。

提出基于文本语音同一空间表达的非自回归ASR框架

如果做汉字的CTC建模，其隐层表征能抓到汉字级别上下文的关系，除了时长不一样以外，与自然语言里mask规复或纠错任务好坏常靠近的。

为了办理语音和文本长度不匹配标题，讯飞研究院计划了一种有效的方案，即在文本中增长blank等来实现帧级的扩展。终极实现的结果是加入海量的纯文本数据与语音字级CTC数据团结训练后，将文本数据里包罗的上下文语言模子类似信息罗致到整个模子中，结果也证明并不逊色于自回归的ED和Transducer，以致更好。

进一步提出多元语义评价的多任务学习框架

同时，讯飞研究院进一步提出了多元语义评价的多任务学习框架来进步语音辨认的可懂度。看上图左边，固然辨认率到达了93%，但其中一些关键部分辨认错误影响了明白。
我们在字级CTC后又接了一些层，将其收到句字级的表征之后去做意图分类、语法评价等目标，希望整句话除了辨认结果高之外，还能在意图上等较好地分类，进步语音辨认体系的可懂度。

语音合成

提出SMART-TTS（Self-supervised Model Assisted pRosody learning for naTural Text To Speech）

近几年围绕语音合成通用框架所做的工作很丰富，例如VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)这种端到端建模，以及韵律表征等。
讯飞研究院提出了SMART-TTS框架，焦点思路就是将语音合成的学习过程进行模块化拆解，通过预训练增强各个模块学习，而非一开始就直接学习文本与声学特性的映射。

首先做文本编码预训练。通过将文本先和语音团结在一起做预训练，希望在文本的表征里就能包罗一些跟发音韵律干系的信息，在此根本上再做韵律建模、提取韵律表征相对就轻易一些。

除了传统的基频能量或时长等一些人为计划的统计特性，我们用对比学习的方式提取韵律特性，使得对语音韵律的表征能力更强。
有了韵律特性之后，我们再去规复终极的声学特性，声学特性用到了VAE等一些编码，在编码的根本上通过声码器终极去规复它的语音。
目前，SMART-TTS已经上线讯飞开放平台，在学习强国、讯飞有声APP中都可以直接体验到其语音合成结果。
关于讯飞在线语音合成技术的更多应用信息点击检察：
在线语音合成_免费试用-讯飞开放平台

捏造音色天生

除了SMART-TTS之外，讯飞研究院还在语音合成领域做了另外一项工作：捏造音声的天生。
元宇宙是当下很火的一个话题，元宇宙空间中NPC（non-player character，非玩家脚色）可以说无处不在。如果NPC的语音跟本身的人设不符，会很明显影响我们的体验感受。而面对海量的NPC，想要为每个NPC都探求符合的发音人是极为费时费力的一件事。
同样的情况也出现在有声小说中，繁多的脚色如果用同一个声音朗读，会让我们感觉比力乏味。怎样才气贴合每个脚色的性格去实现声音的“脚色饰演”呢？
捏造音色天生，就是将海量语言人的语音团结在一起训练语音合成模子首先通过音色编码模块提取语言人的干系表征，这些表征是为了语言人辨认服务的，在音色空间构成上是区分性的表征，不像天生式模子在空间层面有很多内插等的属性。因此，我们通过流模子将音色表征进一步投影到新的隐层表征空间，将这个空间的表征和前面的文本表征、韵律表征团结做语音合成。
由于在训练时会有非常多语言人的数据，且训练时还会标出一些语言人的音色特性标签，例如年岁、性别、特点（甜美、浑厚等）等，有了这些标签引导后使得末了的音色空间表征Z具有很强的指示性，同时还具有很好的内插等属性。
有了干系模子后，利用就变得更加简单了。我们可以输入一些希望天生的语音，例如“青年甜美的女声”等，然后通过语义编码模块训练一个和Z的映射关系，末了可以根据采样得到符合音色控制标签的音色。

目前我们已经用这一模子天生了500多个捏造的合成音色，合成语音自然度凌驾了4.0MOS。

来源：https://blog.csdn.net/AI_Platform/article/details/129753551
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

技术解读 | 科大讯飞语音技术最新进展之二：语音辨认与语音合成

本帖子中包含更多资源