纸质出版日期:2024-04-15,
收稿日期:2023-08-21
扫 描 看 全 文
引用本文
阅读全文PDF
1. 语音合成(TTS)是一种广泛使用的技术,可以从文本生成语音。
2. 苗语是一种使用人口约为900万的苗族人交流使用最广泛的语言。
3. 苗语具有重要的文化、经济和社会价值,对苗语的语音合成研究有助于保护和传承苗族语言文化。
4. 对苗语的语音合成研究可以帮助更多人了解和使用苗语,为苗族的文化遗产保护和发展作出贡献,同时为推动少数民族地区的经济发展提供支持。
基于混合密度网络的苗语语音合成方法,重点介绍了该方法如何利用混合密度网络提取真实的持续时间,并以并行方式生成梅尔谱图,最终实现苗语语音合成。实验结果表明,该方法合成的语音具有较高的保真度和自然性。同时,该方法还简化了训练的复杂性。
数据收集与预处理的过程,包括文本语料库的构建、语音数据的收集和文本的预处理。具体内容包括:
1. 文本语料库的构建需要保持音素平衡,尽量覆盖苗语中所有可能的发音,以避免出现集外词的情况。
2. 语音数据需要选择一名母语为黔东苗语的女大学生为录音者,按照中部苗语的标准音进行发音,并采用专业麦克风、以正常语速进行录制。
3. 文本规范化是预处理的一部分,旨在将原始文本转换为其发音形式,使模型能准确学习输入文本的对应发音。
4. 对于苗语这种单音节语言,以音节本身作为输入基元可能无法表示苗语的正确发音,因此提出了以声母和带声调的韵母作为训练基元(称为子音节)的方法,在保证发音和声调信息的同时降低编码维度。同时,对所有文本进行预处理,统一为小写。
基于混合密度网络的苗语语音合成方法,包括模型结构、前馈Transformer、持续时间预测器和混合密度网络的设计和实现,以及如何利用对齐损失进行训练。具体包括以下内容:
1. 前馈Transformer的组成和功能,包括嵌入层、FFT块、长度调节器和线性层,用于从文本预测出梅尔谱图。
2. 持续时间预测器的定义和功能,通过输入子音节序列预测出对应的持续时间序列,用于调整文本与梅尔谱图之间的对齐。
3. 混合密度网络的设计和功能,用于提取FFT和DP训练所需的文本与梅尔谱图之间的正确对齐。
4. 对齐损失的提出和计算方法,根据Baum-Walch算法思想设计一种对齐损失来训练MDN和学习文本与梅尔谱图之间的准确对齐。
以上就是该章节的重点内容。
1. 在自建的单说话人苗语语音数据集Hmong_data上评估所提方法的有效性。
2. 将MHTTS与Tacotron、Tacotron2及真实语音进行比较,验证MHTTS方法的有效性。
3. 通过可视化梅尔谱图特征及对齐图,分析MHTTS方法预测的梅尔谱图更接近真实梅尔谱图。
4. 对MHTTS模型进行了鲁棒性分析和稳定性分析,实验结果表明该方法具有较好的鲁棒性和稳定性。
5. 针对中文数据集,验证了MHTTS模型在其他公开数据集上的有效性。
基于混合密度网络的苗语语音合成方法(MHTTS)的优势和实验结果,以及在苗语语音合成中存在的问题和未来的研究方向。该方法利用混合密度网络学习文本与梅尔谱图间的对齐,可合成出比注意力机制更准确的苗语语音,同时根据苗语的发音规则提出用子音节作为训练基元,以准确地学习文本对应的发音。实验结果显示,MHTTS可以合成出更高质量的语音。然而,由于苗语电子资源匮乏等问题,目前构建的苗语语音合成语料库规模还较小,未来的研究将致力于扩充语料库并探索更好的合成方法。
* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。
0
浏览量
1
下载量
0
CSCD
相关文章
相关作者
相关机构