基于声学空间分布约束的越南语语音识别数据筛选方法-j9九游会真人

文档序号:35696906发布日期:2023-10-11 19:52阅读:1来源:国知局


1.本发明涉及基于声学空间分布约束的越南语语音识别数据筛选方法,属于自然语言处理技术领域。


背景技术:

2.语音识别通过近几年随着深度学习的发展和研究,有监督识别模型在识别性能上取得了巨大的突破,但在低资源越南语中还有很多问题需要攻克。越南语是声调语言,属于旋律性语言且声调起着区别语义的作用。越南语语音识别仍面临着语言资源不足,资源稀缺情况下导致在低资源条件下数据在声学空间上分布不平衡,数据分布不平衡导致深度学习模型的输入空间与真实空间相差巨大。半监督学习的深入研究为低资源下越南语的语音识别提供一种可行的方法探索。
3.对于半监督学习的方法研究最早开始于二十世纪七十年代,最早的半监督学习方法只有几类,包括直推学习、自训练、生成式模型等。而到了二十世纪九十年代,随着人工智能领域的快速发展和对已标注数据的强烈需求,半监督学习进入了新的发展阶段。自训练学习和预训练学习在语音识别上的应用。大语种上通过预训练微调的方式已经形成一个范式。在越南语上的研究相对较少,在伪标签条件下,训练数据质量难以保证,过分依赖质量较差的伪标签反而会影响识别系统的性能。
4.本发明提出一种基于声学空间分布约束的伪数据筛选方法,通过标签置信度来约束伪标签弱监督信号对于训练过程的贡献。在自训练的过程中添加伪数据筛选方法有效提升了低资源下的越南语语音识别上的识别效果。


技术实现要素:

5.本发明提供了基于声学空间分布约束的越南语语音识别数据筛选方法,以用于解决由于低资源下越南语声调声学分布不平衡导致的偏置问题,同时过分依赖弱监督信号也会造成真实场景与训练场景下声调在声学空间的数据分布偏差导致越南语语音识别模型在部分语音空间中表征的偏置,从而影响整个越南语语音识别的性能的问题。
6.本发明的技术方案是:基于声学空间分布约束的越南语语音识别数据筛选方法,所述方法的具体步骤如下:
7.step1、收集现有的越南语语音公开数据集以及无标签的越南语语音数据,越南语语音公开数据集作为人工标记的越南语语音文本语料,无标签的越南语语音数据作为无标签语料;
8.step2、语音和文本的预处理:利用越南语语音降噪模型对语音进行降噪处理,对越南语文本数据即标签进行unicode文本标准化;
9.step3、将文本转换为音素序列,再使用越南语语音文本对齐模型将音素序列和无标签语料的语音对齐获得对齐的伪标签语料;
10.step4、从现有的wav2vec2预训练模型中初始化一个教师模型,并对初始化的教师
模型进行微调,并使用微调好的教师模型通过无标签语料数据得到伪标签语料;
11.step5、对step3获得的对齐的伪标签语料和step4获得的伪标签语料利用声学空间分布约束的声调贡献度进行筛选,再使用经过筛选后的对齐的伪标签语料、伪标签语料以及人工标记的越南语语音文本语料对学生模型进行自训练;
12.step6、通过迭代步骤step5中的自训练过程,得到最佳的越南语语音识别模型,并利用越南语语音测试集进行实验验证。
13.进一步地,所述step4中提到的利用wav2vec2预训练模型作为教师模型,由于wav2vec2预先在其他语言的语音数据集中进行了无监督的预训练,从而使得模型已经学习到了部分声学信息,然后利用有标签的数据进行微调,最后再将使用微调后的模型通过无标签语音数据得到伪标签语料。
14.进一步地,所述step4的具体步骤如下:
15.从现有的wav2vec2预训练模型中初始化一个教师模型,并在现有的其他公开数据集微调得到一个微调后的教师模型,微调中最小化的l
ctc
损失函数为:
16.l
ctc
=l(yi,f(xi,θ
t
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
17.其中l
ctc
是损失函数,yi为第i个真实标签,θ
t
是初始化的教师模型的参数,xi是输入的越南语语音,f(xi,θ
t
)是初始化后的教师模型的预测输出;
18.把无标签语音数据输入到微调后的教师模型得到微调的教师模型预测的伪标签具体公式如下:
[0019][0020]
θ
t1
是微调后的教师模型的参数。
[0021]
进一步地,所述step5中,对step3获得的对齐的伪标签语料和step4获得的伪标签语料利用声学空间分布约束的声调贡献度进行筛选具体包括如下:
[0022]
利用对齐的伪标签语料、伪标签语料中每一句语料按照声学空间分布约束的声调贡献度降序筛选前80%作为训练的子集;其中声学空间分布约束的声调贡献度计算公式如下:
[0023][0024]
其中pi表示n个句子中第i个声调的覆盖度因素,scorei则表示当前这句话中第i个声调的贡献度;
[0025]
进一步地,所述step5中,使用经过筛选后的对齐的伪标签语料、伪标签语料以及人工标记的越南语语音文本语料对学生模型进行自训练具体包括如下:
[0026]
把经过筛选后的对齐的伪标签语料、伪标签语料以及人工标记的越南语语音文本语料依次输入到学生模型中进行自训练时使用了一种动态的权重来组合越南语语音文本语料和伪标签数据的损失,总损失函数如下公式所示;
[0027][0028]
其中θs是当前学生模型的参数,和是人工标记的越南语语音文本语料中的语音数据和标签,和是经过筛选后的对齐的伪标签语料、伪标签语料中的语音数据和伪
标签,是人工标记的越南语语音文本语料数据的损失函数,是筛选后的对齐的伪标签语料、伪标签语料伪标签损失函数,α
t
为标签置信度,为当前时间步t下的权重参数,α
t
为总时间步t下的权重参数。
[0029]
本发明的有益效果是:
[0030]
本发明通过利用标签置信度来约束伪标签弱监督信号对于模型训练过程的贡献;在自训练的过程中添加伪数据筛选方法有效提升了低资源下的越南语语音识别上的识别效果;并通过一系列的消融实验在越南语公开数据集vivos上证明本发明所提出的训练方法的有效性。
附图说明
[0031]
图1为本发明中的流程图。
具体实施方式
[0032]
实施例1:如图1所示,基于声学空间分布约束的越南语语音识别数据筛选方法,所述方法的具体步骤如下:
[0033]
step1、收集现有的越南语语音公开数据集以及无标签的越南语语音数据,越南语语音公开数据集作为人工标记的越南语语音文本语料,无标签的越南语语音数据作为无标签语料;
[0034]
step2、语音和文本的预处理:利用越南语语音降噪模型对语音进行降噪处理,对越南语文本数据即标签进行unicode文本标准化;
[0035]
step3、将文本转换为音素序列,再使用越南语语音文本对齐模型将音素序列和无标签语料的语音对齐获得对齐的伪标签语料;
[0036]
step4、从现有的wav2vec2预训练模型中初始化一个教师模型,并对初始化的教师模型进行微调,并使用微调好的教师模型通过无标签语料数据得到伪标签语料;
[0037]
进一步地,所述step4中提到的利用wav2vec2预训练模型作为教师模型,由于wav2vec2预先在其他语言的语音数据集中进行了无监督的预训练,从而使得模型已经学习到了部分声学信息,然后利用有标签的数据进行微调,最后再将使用微调后的模型通过无标签语音数据得到伪标签语料。
[0038]
所述step4的具体步骤如下:
[0039]
从现有的wav2vec2预训练模型中初始化一个教师模型,并在现有的其他公开数据集微调得到一个微调后的教师模型,微调中最小化的l
ctc
损失函数为:
[0040]
l
ctc
=l(yi,f(xi,θ
t
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0041]
其中l
ctc
是损失函数,yi为第i个真实标签,θ
t
是初始化的教师模型的参数,xi是输入的越南语语音,f(xi,θ
t
)是初始化后的教师模型的预测输出;
[0042]
把无标签语音数据输入到微调后的教师模型得到微调的教师模型预测的伪标签具体公式如下:
[0043]
[0044]
θ
t1
是微调后的教师模型的参数。
[0045]
step5、对step3获得的对齐的伪标签语料和step4获得的伪标签语料利用声学空间分布约束的声调贡献度进行筛选,再使用经过筛选后的对齐的伪标签语料、伪标签语料以及人工标记的越南语语音文本语料对学生模型进行自训练;
[0046]
使用声学空间分布约束过滤数据使得模型在低资源的条件下也能学习到更多语义知识;当模型从step3和step4中的伪标签语料数据集中选取一个子集作为训练语料,并希望能覆盖尽可能多的越南语声调信息,保证包含广泛的声学空间分布,因此引入覆盖度因素,在保证语音文本伪标签质量的基础上选择合适的语音文本对构成训练子集;所述step5中,对step3获得的对齐的伪标签语料和step4获得的伪标签语料利用声学空间分布约束的声调贡献度进行筛选具体包括如下:
[0047]
利用对齐的伪标签语料、伪标签语料中每一句语料按照声学空间分布约束的声调贡献度降序筛选前80%作为训练的子集;其中声学空间分布约束的声调贡献度计算公式如下:
[0048][0049]
其中pi表示n个句子中第i个声调的覆盖度因素,scorei则表示当前这句话中第i个声调的贡献度;
[0050]
进一步地,对于标签置信度权重,即本发明涉及的一种动态的权重:直观上,伪标签数据比人工标签数据含有更多的噪声,为了能在自训练过程中希望让伪标签的后验概率的尽可能的与正确标签的一致,设计了一种动态的权重来组合人工标记数据和伪标签数据的损失,具体的,所述step5中,使用经过筛选后的对齐的伪标签语料、伪标签语料以及人工标记的越南语语音文本语料对学生模型进行自训练具体包括如下:
[0051]
把经过筛选后的对齐的伪标签语料、伪标签语料以及人工标记的越南语语音文本语料依次输入到学生模型中进行自训练时使用了一种动态的权重来组合越南语语音文本语料和伪标签数据的损失,总损失函数如下公式所示;
[0052][0053]
其中θs是当前学生模型的参数,和是人工标记的越南语语音文本语料中的语音数据和标签,和是经过筛选后的对齐的伪标签语料、伪标签语料中的语音数据和伪标签,是人工标记的越南语语音文本语料数据的损失函数,是筛选后的对齐的伪标签语料、伪标签语料伪标签损失函数,α
t
为标签置信度,为当前时间步t下的权重参数,α
t
为总时间步t下的权重参数,α
t
取1。
[0054]
step6、通过迭代步骤step5中的自训练过程,得到最佳的越南语语音识别模型,并利用越南语语音测试集进行实验验证。
[0055]
为了说明本发明的效果,本发明做了如下实验:
[0056]
(a)实验设置以及评价指标
[0057]
本方法的预训练模型为wav2vec 2 base,本发明使用pytorch1.13搭建模型,使用标签平滑交叉熵损失作为目标函数,标签平滑率为0.1,梯度裁剪为20,前编码卷积核尺寸
为3*3,编解码隐藏层向量为768维,编码器自注意力层数为6,解码器embedding维度为512,解码器自注意力层数为6,标签平滑率为0.1。训练时,通过adam优化器进行优化,并设置为动态调整学习率。评价识别模型的评价指标为词错率(wer)。即预测文本与真实文本的编辑距离除以真实文本的长度。wer的值越低,则说明模型的识别准确率越高。
[0058]
(b)对比实验
[0059]
为了对比低资源下越南语识别在现有技术中的性能表现,选取了当前端到端语言识别中经典的tdnn-lstm结构以及最新的conformer结构最为有监督方法的比较。预训练模型选择openai在2022年的开源的whisper工作。为了保证各模型能够公平对比,以下越南语识别模型都以越南语字符粒度建模,训练循环50轮次,并比较模型在vivos测试集上词错率(wer)大小。
[0060]
表1为不同模型在vivos测试集的对比实验
[0061]
方法类型wertdnn-lstm ctc有监督92.96%conformer ctc有监督30.22%whisper微调预训练 微调24.48%wav2vec2微调预训练 微调24.21%本发明预训练 微调11.38%
[0062]
如表1所示,传统的tdnn-lstm有监督模型,在低资源下训练得到的越南语语音识别严重欠拟合,证明通用方法在语料稀缺的情况下,模型容易欠拟合。本发明对比使用预训练加微调的范式,实验证明通过引入伪标签数据能够有效的提高越南语在声学空间表征能力,进一步提升越南语语音识别的性能。
[0063]
(c)消融实验
[0064]
为了探究对齐伪标签数据对于越南语语音模型在微调中的帮助,该消融实验使用的数据集包含全部的vivos有标签训练数据集,以及根据声调分布筛选得到的对齐伪标签的子集。分别探究是否使用伪标签对齐数据,是否使用筛选方法,是否使用标签置信度权重方式微调模型。实验结果如表2所示。
[0065]
伪标签消融实验:为探究伪标签数据对越南语识别模型微调过程中的影响,表2分别设计了使用伪标签方法和不使用伪标签方法以及不使用伪标签微调的越南语词错率。
[0066]
表2为伪标签消融实验对比
[0067]
方法wer本方法12.38%-伪标签筛选方法15.81%-伪标签数据24.21%
[0068]
如表3所示,该实验依次移除伪标签方法和使用伪标签数据,从表中来看,伪标签数据都能够提升识别系统的精度和性能。如果完全依赖于伪标签数据,伪标签数据中的大量偏置分布的声调信息会导致识别模型偏置,导致模型泛化能力变弱。使用筛选方法后能进一步提升越南语识别的效果。证明筛选方法的有效性,并且证明了通过筛选模型可以增强模型对声调的感知能力,提高模型的泛化性。
[0069]
标签置信度权重消融实验:为探究标签置信度权重对微调过程中的影响,表3设计
了对标签置信度权重对消融。其中在移除置信度权重的同时,保持伪标签筛选方法以及伪标签参与训练。对于置信度权重来说,模型会在前期更加依赖伪标签数据集,由于伪标签数据要大于真实标签数据,所以在模型的训练后期需要减小对于伪标签的依赖。移除标签置信度是直接将伪标签权重和有监督标签权重都设置为1。
[0070]
表3为置信度消融实验对比
[0071]
方法wer本方法12.38%-标签置信度权重14.20%
[0072]
如表3所示,在移除标签置信度权重后,越南语语音识别系统下降了14%。由于伪标签数据中包含一定的错误信息,对于模型来说过于依赖伪标签数据会导致模型的困惑。进一步导致识别模型的精度的下降;
[0073]
语音降噪消融实验:为探究语音降噪是否对语音识别的具有鲁棒性提升。设计如表4。实验中均保持伪标签数据筛选方法和标签置信度权重方法。
[0074]
表4为消融实验结果对比
[0075]
方法wer本方法13.56% 基于融入时频信息的单通道语音降噪18.28% 联合训练微调11.38
[0076]
如表4所示,引入伪标签数据相比没有引入伪标签数据都会对越南语识别模型具有促进作用。即使是伪标签数据中也包含大量弱监督信号,引入伪标签数据能够增强识别模型的收敛。但是直接使用语音降噪模型导致了模型词错率猛增34%。由于降噪模型的输出空间和语音识别上的输入空间之间的差异性,在人耳听感上并没有这么明显,但是对于计算机来说,数据域不匹配导致了降噪后识别效果更差。基于生成是的降噪模型本质是删除噪声信息,难免会导致降噪音频的内部噪声让识别系统不能够泛化。该表中通过将训练好的降噪模型和识别模型联合训练微调,将降噪模型权重冻住,让越南语识别模型去适应降噪后的声学特征分布。实验证明通过联合训练得到的模型,相比没有加入语音降噪的模型词错率降低了16%。通过实验证明利用伪标签筛选方法、标签置信度权重约束和语音降噪的方法在低资源下越南语声调的多样性的情况下能够提升越南语语音识别的性能。
[0077]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图