您当前的位置:
首页 >
文章列表页 >
基于混合密度网络的苗语语音合成方法
人工智能 | 更新时间:2024-05-16
    • 基于混合密度网络的苗语语音合成方法

    • Mixure Density Network-Based Hmong Language Text-to-Speech Method

    • 科技媒体记者报道,苗语语音合成研究在民族文化传承中扮演重要角色。针对苗语文字缺失、电子资源匮乏等问题,专家提出基于混合密度网络的苗语语音合成方法。该方法通过学习时间与语音的对齐,有效解决了漏词、重复等问题,并简化了模型训练过程。实验结果显示,该方法得分高于先进方法,合成语音清晰准确,为苗语语音合成研究提供了新的方向。
    • 蔡姗

      ,  

      郭胜

      ,  

      王林

      ,  
    • 软件导刊   2024年23卷第4期 页码:31-37
    • DOI:10.11907/rjdk.231900    

      中图分类号: TP391;TN912.33
    • 纸质出版日期:2024-04-15

      收稿日期:2023-08-21

    扫 描 看 全 文

  • 引用本文

    阅读全文PDF

  • 蔡姗,郭胜,王林.基于混合密度网络的苗语语音合成方法[J].软件导刊,2024,23(04):31-37. DOI: 10.11907/rjdk.231900.

    CAI Shan,GUO Sheng,WANG Lin.Mixure Density Network-Based Hmong Language Text-to-Speech Method[J].Software Guide,2024,23(04):31-37. DOI: 10.11907/rjdk.231900.

  •  
  •  

    0 引言

    1. 语音合成(TTS)是一种广泛使用的技术,可以从文本生成语音。

    2. 苗语是一种使用人口约为900万的苗族人交流使用最广泛的语言。

    3. 苗语具有重要的文化、经济和社会价值,对苗语的语音合成研究有助于保护和传承苗族语言文化。

    4. 对苗语的语音合成研究可以帮助更多人了解和使用苗语,为苗族的文化遗产保护和发展作出贡献,同时为推动少数民族地区的经济发展提供支持。

    1 相关工作

    基于混合密度网络的苗语语音合成方法,重点介绍了该方法如何利用混合密度网络提取真实的持续时间,并以并行方式生成梅尔谱图,最终实现苗语语音合成。实验结果表明,该方法合成的语音具有较高的保真度和自然性。同时,该方法还简化了训练的复杂性。

    2 数据收集与预处理

    数据收集与预处理的过程,包括文本语料库的构建、语音数据的收集和文本的预处理。具体内容包括:

    1. 文本语料库的构建需要保持音素平衡,尽量覆盖苗语中所有可能的发音,以避免出现集外词的情况。

    2. 语音数据需要选择一名母语为黔东苗语的女大学生为录音者,按照中部苗语的标准音进行发音,并采用专业麦克风、以正常语速进行录制。

    3. 文本规范化是预处理的一部分,旨在将原始文本转换为其发音形式,使模型能准确学习输入文本的对应发音。

    4. 对于苗语这种单音节语言,以音节本身作为输入基元可能无法表示苗语的正确发音,因此提出了以声母和带声调的韵母作为训练基元(称为子音节)的方法,在保证发音和声调信息的同时降低编码维度。同时,对所有文本进行预处理,统一为小写。

    3 苗语语音合成模型

    基于混合密度网络的苗语语音合成方法,包括模型结构、前馈Transformer、持续时间预测器和混合密度网络的设计和实现,以及如何利用对齐损失进行训练。具体包括以下内容:

    1. 前馈Transformer的组成和功能,包括嵌入层、FFT块、长度调节器和线性层,用于从文本预测出梅尔谱图。

    2. 持续时间预测器的定义和功能,通过输入子音节序列预测出对应的持续时间序列,用于调整文本与梅尔谱图之间的对齐。

    3. 混合密度网络的设计和功能,用于提取FFT和DP训练所需的文本与梅尔谱图之间的正确对齐。

    4. 对齐损失的提出和计算方法,根据Baum-Walch算法思想设计一种对齐损失来训练MDN和学习文本与梅尔谱图之间的准确对齐。

    以上就是该章节的重点内容。

    4 实验与分析

    1. 在自建的单说话人苗语语音数据集Hmong_data上评估所提方法的有效性。

    2. 将MHTTS与Tacotron、Tacotron2及真实语音进行比较,验证MHTTS方法的有效性。

    3. 通过可视化梅尔谱图特征及对齐图,分析MHTTS方法预测的梅尔谱图更接近真实梅尔谱图。

    4. 对MHTTS模型进行了鲁棒性分析和稳定性分析,实验结果表明该方法具有较好的鲁棒性和稳定性。

    5. 针对中文数据集,验证了MHTTS模型在其他公开数据集上的有效性。

    5 结语

    基于混合密度网络的苗语语音合成方法(MHTTS)的优势和实验结果,以及在苗语语音合成中存在的问题和未来的研究方向。该方法利用混合密度网络学习文本与梅尔谱图间的对齐,可合成出比注意力机制更准确的苗语语音,同时根据苗语的发音规则提出用子音节作为训练基元,以准确地学习文本对应的发音。实验结果显示,MHTTS可以合成出更高质量的语音。然而,由于苗语电子资源匮乏等问题,目前构建的苗语语音合成语料库规模还较小,未来的研究将致力于扩充语料库并探索更好的合成方法。

    * 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。

    0

    浏览量

    1

    下载量

    0

    CSCD

    文章被引用时,请邮件提醒。
    提交
    工具集
    下载
    参考文献导出
    分享
    收藏
    添加至我的专辑

    相关文章

    暂无数据

    相关作者

    暂无数据

    相关机构

    暂无数据
    0